Yapay Zekada Küçük Dil Modellerinin Yükselişi

Yapay Zekada Küçük Dil Modellerinin Yükselişi

Teknoloji devlerinin giderek daha büyük dil modelleri yaratmak için yarıştığı yapay zeka çatışmasında, beklenmedik yeni bir trend ortaya çıktı: küçük yeni büyük. Büyük dil modellerindeki (LLM'ler) gelişmeler durağanlaşıyor gibi göründüğünden, araştırmacılar ve geliştiriciler giderek küçük dil modellerine (SLM'ler) odaklanıyor. Bu küçük, verimli ve son derece uyarlanabilir yapay zeka modelleri, yapay zeka araştırmalarına yaklaşımımızda devrim yaratma potansiyeliyle, daha büyüğün her zaman daha iyi olduğu kavramına meydan okuyor.

Yüksek Lisans'lar durgunlaşmaya mı başlıyor?

Tarafından yayınlanan son performans karşılaştırmaları parşömen ve HuggingFace, Yüksek Lisans'lar arasındaki performans farkının hızla kapandığını gösteriyor. Bu eğilim özellikle üst modeller arasındaki performans farklılıklarının küçük olduğu çoktan seçmeli sorular, akıl yürütme ve matematik problemleri gibi görevlerde fark edilir. Örneğin çoktan seçmeli sorularda; Claude 3 Eser, GPT 4ve Gemini Ultra'nın tümü %83'ün üzerinde puan alıyor ancak akıl yürütme problemlerinde Claude 3 Opus, GPT-4 ve Gemini 1.5 Pro'nun tümü %92'ye ulaşıyor.

İlginç bir şekilde, Mixtral 8x7B ve Llama 2 – 70B gibi daha küçük modeller, akıl yürütme ve çoktan seçmeli problemler gibi belirli alanlarda daha büyük modellerden daha iyi performans gösteriyor. Bu, model boyutunun performansta tek belirleyici faktör olmayabileceğini ve mimarinin, eğitim verilerinin ve ince ayar stratejilerinin hepsinin önemli bir rol oynayabileceğini gösterir.

Yeni Yüksek Lisans'ları tanıtan en son araştırma yayınlarının hepsi aynı yöne gidiyor: "Sadece ampirik olarak bakarsanız, ortaya çıkan son bir düzine kadar makalenin hepsi bir bakıma GPT-4 ile aynı genel bölgede yer alıyor." Uber AI'nın eski başkanı ve yazarı Gary Marcus şöyle diyor: "Yapay zeka yeniden başlatılıyor" Güvenilir yapay zeka geliştirmeyle ilgili bir kitap. Marcus Perşembe günü VentureBeat ile konuştu.

"Bazıları GPT-4'ten biraz daha iyi ama kuantum sıçraması yok. Herkesin GPT-4'ün GPT-3.5'e göre önemli bir atılım olduğu konusunda hemfikir olacağına inanıyorum. Marcus, "Bir yılı aşkın süredir herhangi bir kuantum sıçraması olmadı" dedi.

Performans farkı daraldıkça ve daha fazla model rekabetçi sonuçlar ürettikçe, Yüksek Lisans'ların bir platoya yaklaşıp yaklaşmadığı sorunu ortaya çıkıyor. Bu eğilim devam ederse, dil modellerinin gelecekteki gelişimi ve dağıtımı açısından ciddi sonuçlar doğurabilir; belki de vurgu yalnızca model boyutunu artırmaktan ziyade daha verimli ve uzmanlaşmış mimarilere doğru kayabilir.

Yüksek Lisans Yaklaşımının Dezavantajları

LLM'ler güçlü olmasına rağmen ciddi dezavantajlara sahiptir. Yeni başlayanlar için, Yüksek Lisans eğitimi, milyarlarca veya belki de trilyonlarca parametreden oluşan çok büyük miktarda veri gerektirir. Bu, LLM'lerin eğitimi ve çalıştırılması için şaşırtıcı bilgi işlem ve enerji gereksinimleriyle birlikte, eğitim sürecini aşırı derecede kaynak yoğun hale getiriyor. Bu, büyük harcamalara yol açarak, küçük kuruluşların veya bireylerin temel LLM gelişimine yatırım yapmasını zorlaştırır. Geçen yıl bir MIT sunumunda, OpenAI CEO Sam Altman, GPT-4 eğitiminin en az 100 milyon dolara mal olacağını iddia etti. 

Yüksek Lisans'larla başa çıkmak için gereken araç ve yaklaşımların karmaşık doğası, geliştiriciler için zorlu bir öğrenme eğrisi oluşturarak erişilebilirliği sınırlıyor. Geliştiricilerin, eğitimden modelleri geliştirmeye ve devreye almaya kadar uzun bir döngü süresi vardır, bu da geliştirmeyi ve denemeyi yavaşlatır. Cambridge Üniversitesi'nin yakın tarihli bir raporu, kuruluşların tek bir makine öğrenimi (ML) modelini uygulamaya 90 gün veya daha fazla zaman harcayabileceğini gösteriyor.  

Yüksek Lisans'larla ilgili bir diğer önemli zorluk da halüsinasyonlara yatkınlıklarıdır; bu da çıktıların makul görünmesine rağmen doğru veya gerçek olmamasıyla sonuçlanır. Bunun nedeni, LLM'lerin içeriği gerçek anlamda kavramak yerine, eğitim verilerindeki kalıplara dayalı olarak bir sonraki en olası kelimeyi tahmin etmek üzere eğitilmeleridir. Sonuç olarak, Yüksek Lisans'lar güvenle yanıltıcı iddialarda bulunabilir, gerçekleri icat edebilir ve ilgisiz kavramları mantıksız şekillerde birbirine bağlayabilir. Bu halüsinasyonları tespit etmek ve kontrol etmek, güvenilir ve güvenilir dil modellerinin oluşturulmasında sürekli bir konudur.

“Bir şeyi yüksek riskli bir durum için kullanıyorsanız, müşterinizi gücendirmek, yanlış tıbbi bilgi almak veya bunu araba sürmek ve risk almak için kullanmak istemezsiniz. Marcus, "Bu hâlâ bir sorun," diye uyarıyor.

LLM'lerin boyutu ve kara kutu yapısı aynı zamanda onların anlaşılmasını ve hata ayıklamasını da zorlaştırabilir; bu da modelin sonuçlarına güven oluşturmak açısından kritik öneme sahiptir. Eğitim verilerindeki ve algoritmalardaki önyargılar adil olmayan, yanlış ve hatta yıkıcı sonuçlara yol açabilir. Tarafından gösterildiği gibi Google İkizlerYüksek Lisans eğitimlerini “güvenli” ve güvenilir kılmak için kullanılan önlemler aynı zamanda bunların etkinliğini de sınırlayabilir. Ayrıca, Yüksek Lisans'ların merkezi yapısı, birkaç büyük dijital şirketin çok fazla güç ve otoriteye sahip olduğu konusunda endişeleri artırıyor.

Küçük Dil Modellerine (SLM'ler) Giriş

Küçük dil modellerini girin. SLM'ler, daha az parametre ve daha basit tasarımlarla LLM'lerin daha verimli çeşitleridir. Yüksek Lisans'taki günler yerine, minimum veri ve eğitim süresine (dakikalar veya birkaç saat) ihtiyaç duyarlar. Bu, SLM'lerin yerinde veya daha küçük cihazlara kurulmasını daha verimli ve basit hale getirir.

SLM'lerin temel faydalarından biri belirli uygulamalara uyarlanabilmeleridir. Kapsamları daha dar olduğundan ve daha az veriye ihtiyaç duyduklarından, belirli alanlar veya faaliyetler için ince ayar yapmak, büyük, genel amaçlı modellere göre daha kolaydır. Bu özelleştirme, işletmelerin duyarlılık analizi, adlandırılmış varlık tanımlama veya alana özgü soru yanıtlama gibi benzersiz gereksinimleri için çok etkili olan SLM'ler oluşturmasına olanak tanır. SLM'lerin uzmanlaşmış karakteri, belirli belirli uygulamalarda daha genel bir modele göre daha iyi performans ve verimlilikle sonuçlanabilir.

SLM'lerin bir diğer avantajı da artan gizlilik ve güvenlik olasılığıdır. SLM'lerin denetimi daha kolaydır ve daha küçük kod tabanları ve daha basit tasarımları nedeniyle beklenmeyen güvenlik açıkları daha azdır. Bu, veri ihlallerinin ciddi sonuçlara yol açabileceği sağlık hizmetleri veya bankacılık gibi hassas verileri işleyen uygulamalar için onları cazip hale getiriyor. Ayrıca, SLM'lerin daha düşük işlem gereksinimleri vardır, bu da onları bulut altyapısına bağlı kalmak yerine cihazlarda veya şirket içi sunucularda yerel olarak çalıştırmayı daha pratik hale getirir. Bu yerel işleme, veri güvenliğini artırabilir ve veri aktarımı sırasında açığa çıkma tehlikesini azaltabilir.

Ek olarak, SLM'lerin belirlenen alanlarda tespit edilemeyen halüsinasyonlar yaşama olasılığı LLM'lere göre daha azdır. SLM'ler genellikle amaçlanan etki alanı veya uygulamaya özel daha küçük ve daha odaklanmış bir veri kümesi üzerinde eğitilir ve modelin amacı için en önemli olan kalıpları, dili ve bilgileri öğrenmesine olanak tanır. Bu konsantrasyon ilgisiz, beklenmedik veya tutarsız sonuçlar üretme olasılığını azaltır. Daha az parametresi ve daha akıcı mimarisi nedeniyle SLM'lerin eğitim verilerindeki gürültüyü veya hataları yakalama ve büyütme olasılığı daha düşüktür.

Clem Delangue, AI firmasının CEO'su SarılmaYüz, SLM'lerin kullanım durumlarının %99'unu çözebileceğini ve 2024'ün SLM yılı olacağını tahmin ediyor. Geliştiricilerin makine öğrenimi modelleri oluşturmasına, eğitmesine ve dağıtmasına olanak tanıyan bir platform olan HuggingFace, bu yılın başlarında Google ile stratejik bir anlaşma yaptığını duyurdu. HuggingFace, o zamandan beri Google'ın Vertex AI'sine dahil edildi ve geliştiricilerin Google Vertex Model Garden aracılığıyla yüzlerce modeli anında dağıtmasına olanak tanıdı. 

Gemma'ya Biraz Sevgi Gösterin, Google

Yüksek Lisans'taki liderliğini ilk kez OpenAI'ye kaptıran Google, şimdi agresif bir şekilde SLM olasılığını hedefliyor. Şubat ayında Google şunları yayınladı: Tomurcuk, daha verimli ve kullanıcı dostu olması amaçlanan yeni bir dizi küçük dil modeli. Gemma sürümleri, diğer SLM'ler gibi, akıllı telefonlar, tabletler ve dizüstü bilgisayarlar da dahil olmak üzere çok çeşitli sıradan cihazlarda, özel bir donanıma veya önemli bir optimizasyona ihtiyaç duymadan çalışabilir.

Gemma'nın geçen ay piyasaya sürülmesinden bu yana, eğitilen modeller HuggingFace'te 400,000'den fazla indirildi ve birkaç büyüleyici proje halihazırda devam ediyor. Örneğin Cerule, Gemma 2B'yi Google'ın SigLIP'iyle harmanlayan güçlü bir görüntü ve dil modelidir ve geniş bir resim ve metin veri kümesi üzerinde eğitilmiştir. Cerule çok verimli veri seçme algoritmaları kullanıyor ve bu da büyük miktarda veri veya işleme gerek kalmadan mükemmel performans elde edebileceğini gösteriyor. Bu, Cerule'ün yaklaşan uç bilişim kullanım senaryoları için çok uygun olabileceğini gösteriyor.  

Küçük Dil Modellerinin Devrimci Gücü

Yapay zeka topluluğu kompakt dil modellerinin potansiyelini araştırmaya devam ettikçe, daha kısa geliştirme döngülerinin, artan verimliliğin ve modelleri belirli gereksinimlere göre değiştirme kapasitesinin faydaları daha belirgin hale geliyor. SLM'ler, düşük maliyetli, odaklanmış çözümlere izin vererek yapay zeka erişimini demokratikleştirme ve sektörler arasında yeniliği teşvik etme potansiyeline sahiptir. SLM'lerin uçta kullanılması, finans, eğlence, otomotiv sistemleri, eğitim, e-ticaret ve sağlık hizmetleri de dahil olmak üzere çeşitli sektörlerde gerçek zamanlı, kişiselleştirilmiş ve güvenli uygulamalar için yeni fırsatlar sunuyor.

SLM'lerle uç bilişim, verileri yerel olarak işleyerek ve bulut altyapısına bağımlılığı en aza indirerek kullanıcı deneyimlerini iyileştirir. Bu merkezi olmayan yapay zeka stratejisi, kuruluşların ve tüketicilerin teknolojiyle etkileşim kurma biçimini değiştirme potansiyeline sahip ve bu da gerçek dünyada daha kişiselleştirilmiş ve sezgisel deneyimlere yol açıyor. Yüksek Lisans'lar bilgi işlem kaynağı sorunlarıyla karşı karşıya kaldıkça ve performans platolarına ulaşabildikçe, SLM'lerin ortaya çıkışı yapay zeka ekosisteminin hızlı bir şekilde ilerlemesini sağlamayı vaat ediyor.

Kaynak- VentureBeat

Yorum bırak

E-posta hesabınız yayımlanmayacak. Gerekli alanlar işaretlenmişlerdir. *