Bangkitnya Model Bahasa Kecil di AI

Bangkitnya Model Bahasa Kecil di AI

Dalam konflik AI, ketika raksasa teknologi berlomba menciptakan model bahasa yang lebih besar, sebuah tren baru yang tak terduga muncul: kecil berarti besar. Karena pengembangan model bahasa besar (LLM) tampaknya tidak mengalami kemajuan, para peneliti dan pengembang semakin fokus pada model bahasa kecil (SLM). Model AI yang kecil, efisien, dan sangat adaptif ini menantang konsep bahwa lebih besar selalu lebih baik, dan berpotensi merevolusi cara kita mendekati penelitian AI.

Apakah LLM mulai stabil?

Perbandingan kinerja terbaru dirilis oleh Kertas kulit dan HuggingFace menunjukkan bahwa kesenjangan kinerja antar LLM semakin dekat. Kecenderungan ini terutama terlihat dalam tugas-tugas seperti pertanyaan pilihan ganda, penalaran, dan soal matematika, di mana perbedaan kinerja antara model teratas sangat kecil. Misalnya, dalam soal pilihan ganda, Karya Claude 3, GPT-4, dan Gemini Ultra semuanya mendapat skor di atas 83%, namun pada soal penalaran, Claude 3 Opus, GPT-4, dan Gemini 1.5 Pro semuanya mencapai 92%.

Menariknya, model yang lebih kecil seperti Mixtral 8x7B dan Llama 2 – 70B mengungguli model yang lebih besar di bidang tertentu, seperti soal penalaran dan pilihan ganda. Hal ini menunjukkan bahwa ukuran model mungkin bukan satu-satunya faktor penentu performa, dan bahwa arsitektur, data pelatihan, dan strategi penyesuaian mungkin memainkan peran penting.

Publikasi penelitian terbaru yang memperkenalkan LLM baru semuanya mengarah ke arah yang sama: “Jika Anda melihat secara empiris, selusin artikel terakhir yang telah diterbitkan, semuanya berada dalam wilayah umum yang sama dengan GPT-4,” kata Gary Marcus, mantan kepala Uber AI dan penulis “Me-reboot AI,” sebuah buku tentang mengembangkan AI yang dapat dipercaya. Marcus berbicara dengan VentureBeat pada hari Kamis.

“Beberapa di antaranya lebih baik daripada GPT-4, tetapi tidak ada lompatan kuantum. Saya yakin semua orang akan setuju bahwa GPT-4 adalah lompatan kuantum ke depan dari GPT-3.5. “Belum ada [lompatan kuantum] selama lebih dari setahun,” kata Marcus.

Ketika kesenjangan kinerja menyempit dan lebih banyak model menghasilkan hasil yang kompetitif, hal ini menimbulkan pertanyaan apakah LLM mendekati titik puncaknya. Jika tren ini terus berlanjut, hal ini mungkin mempunyai konsekuensi serius bagi pengembangan dan penerapan model bahasa di masa depan, mungkin mengalihkan penekanan dari sekedar peningkatan ukuran model ke arah arsitektur yang lebih efisien dan terspesialisasi.

Kelemahan Pendekatan LLM

LLM, meskipun kuat, mempunyai kelemahan yang parah. Sebagai permulaan, pelatihan LLM memerlukan data dalam jumlah besar, dengan miliaran atau mungkin triliunan parameter. Hal ini membuat proses pelatihan menjadi sangat intensif sumber daya, dengan kebutuhan komputasi dan energi yang sangat besar untuk pelatihan dan menjalankan LLM. Hal ini mengakibatkan biaya yang besar dan besar, sehingga lebih sulit bagi organisasi kecil atau individu untuk berinvestasi dalam pengembangan inti LLM. Pada presentasi MIT tahun lalu, OpenAI CEO Sam Altman mengklaim bahwa pelatihan GPT-4 akan menelan biaya setidaknya $100 juta. 

Sifat kompleks dari alat dan pendekatan yang diperlukan untuk menangani LLM menciptakan kurva pembelajaran yang curam bagi pengembang, sehingga membatasi aksesibilitas. Pengembang memiliki waktu siklus yang panjang, mulai dari pelatihan hingga pengembangan dan penerapan model, sehingga memperlambat pengembangan dan eksperimen. Laporan terbaru dari Universitas Cambridge menunjukkan bahwa organisasi dapat menghabiskan waktu 90 hari atau lebih untuk menerapkan model pembelajaran mesin (ML) tunggal.  

Kesulitan utama lainnya dengan LLM adalah kerentanannya terhadap halusinasi, yang menghasilkan keluaran yang tampak masuk akal namun tidak akurat atau faktual. Hal ini disebabkan oleh cara LLM dilatih untuk mengantisipasi kata yang paling mungkin muncul berikutnya berdasarkan pola dalam data pelatihan, bukan berdasarkan pemahaman sebenarnya terhadap konten. Akibatnya, LLM mungkin dengan aman membuat pernyataan yang menyesatkan, menciptakan fakta, dan menghubungkan konsep yang tidak terkait dengan cara yang tidak logis. Mendeteksi dan mengendalikan halusinasi ini merupakan masalah yang terus-menerus dalam penciptaan model bahasa yang dapat diandalkan dan dipercaya.

“Jika Anda menggunakan sesuatu untuk situasi berisiko tinggi, Anda tidak ingin menyinggung perasaan pelanggan Anda, mendapatkan informasi medis yang salah, atau menggunakannya untuk mengendarai mobil dan mengambil risiko. “Itu masih menjadi masalah,” Marcus memperingatkan.

Ukuran dan sifat black-box dari LLM juga dapat membuat LLM sulit untuk dipahami dan di-debug, yang mana hal ini sangat penting untuk membangun kepercayaan terhadap hasil model. Bias dalam data pelatihan dan algoritme dapat mengakibatkan hasil yang tidak adil, salah, atau bahkan merusak. Seperti yang ditunjukkan oleh Google Gemini, langkah-langkah yang digunakan untuk menjadikan LLM “aman” dan dapat diandalkan juga dapat membatasi kemanjurannya. Selain itu, struktur LLM yang terpusat menimbulkan kekhawatiran tentang beberapa perusahaan digital besar yang memiliki terlalu banyak kekuasaan dan otoritas.

Memperkenalkan Model Bahasa Kecil (SLM)

Masukkan model bahasa kecil. SLM adalah varian LLM yang lebih efisien, dengan parameter lebih sedikit dan desain lebih sederhana. Mereka memerlukan data dan waktu pelatihan yang minimal—menit atau beberapa jam, dibandingkan berhari-hari dengan LLM. Hal ini membuat SLM lebih efisien dan mudah dipasang di lokasi atau pada perangkat yang lebih kecil.

Salah satu manfaat utama SLM adalah kemampuan beradaptasinya untuk aplikasi tertentu. Karena cakupannya lebih sempit dan memerlukan lebih sedikit data, model ini lebih mudah disesuaikan untuk domain atau aktivitas tertentu dibandingkan model berukuran besar dan bertujuan umum. Penyesuaian ini memungkinkan bisnis untuk membangun SLM yang sangat efektif untuk kebutuhan unik mereka, seperti analisis sentimen, identifikasi entitas bernama, atau menjawab pertanyaan spesifik domain. Karakter khusus SLM mungkin menghasilkan kinerja dan efisiensi yang lebih baik dalam aplikasi spesifik tertentu dibandingkan model yang lebih umum.

Keuntungan lain dari SLM adalah kemungkinan peningkatan privasi dan keamanan. SLM lebih mudah diaudit dan memiliki lebih sedikit kerentanan tak terduga karena basis kodenya lebih kecil dan desainnya lebih sederhana. Hal ini membuat mereka tertarik pada aplikasi yang menangani data sensitif, seperti layanan kesehatan atau perbankan, karena pelanggaran data dapat mengakibatkan konsekuensi yang serius. Selain itu, SLM memiliki kebutuhan pemrosesan yang lebih rendah, sehingga lebih praktis untuk dijalankan secara lokal di perangkat atau server lokal dibandingkan mengandalkan infrastruktur cloud. Pemrosesan lokal ini dapat meningkatkan keamanan data dan menurunkan bahaya paparan selama transfer data.

Selain itu, SLM lebih kecil kemungkinannya dibandingkan LLM untuk mengalami halusinasi yang tidak terdeteksi di area tertentu. SLM sering kali dilatih pada kumpulan data yang lebih kecil dan lebih fokus khusus untuk domain atau aplikasi yang diinginkan, sehingga memungkinkan model mempelajari pola, bahasa, dan informasi yang paling penting untuk tujuannya. Konsentrasi ini mengurangi kemungkinan menghasilkan hasil yang tidak relevan, tidak terduga, atau tidak konsisten. SLM cenderung tidak menangkap dan memperbesar noise atau kesalahan dalam data pelatihan karena parameternya lebih sedikit dan arsitekturnya lebih ramping.

Clem Delangue, CEO perusahaan AI MemelukWajah, memperkirakan SLM dapat menyelesaikan hingga 99% kasus penggunaan, dan tahun 2024 akan menjadi tahun SLM. HuggingFace, sebuah platform yang memungkinkan pengembang membuat, melatih, dan menerapkan model pembelajaran mesin, mengumumkan perjanjian strategis dengan Google awal tahun ini. HuggingFace telah diintegrasikan ke dalam Vertex AI Google, memungkinkan pengembang untuk langsung menerapkan ratusan model melalui Google Vertex Model Garden. 

Tunjukkan Cinta pada Gemma, Google

Setelah kehilangan keunggulannya dalam LLM karena OpenAI, Google kini secara agresif menargetkan kemungkinan SLM. Pada bulan Februari, Google merilis Gemma, serangkaian model bahasa kecil baru yang dimaksudkan agar lebih efisien dan mudah digunakan. Versi Gemma, seperti SLM lainnya, dapat berjalan di berbagai perangkat biasa, termasuk ponsel cerdas, tablet, dan laptop, tanpa memerlukan perangkat keras khusus atau pengoptimalan yang berarti.

Sejak Gemma dirilis bulan lalu, model terlatih telah menerima lebih dari 400,000 unduhan di HuggingFace, dan beberapa proyek menarik sedang berjalan. Cerule, misalnya, adalah model gambar dan bahasa yang kuat yang memadukan Gemma 2B dengan SigLIP Google dan dilatih pada kumpulan data gambar dan teks yang besar. Cerule menggunakan algoritme pemilihan data yang sangat efisien, yang berarti ia dapat mencapai kinerja luar biasa tanpa memerlukan data atau pemrosesan dalam jumlah besar. Hal ini menunjukkan bahwa Cerule mungkin cocok untuk kasus penggunaan komputasi edge yang akan datang.  

Kekuatan Revolusioner Model Bahasa Kecil

Ketika komunitas AI terus menyelidiki potensi model bahasa yang ringkas, manfaat dari siklus pengembangan yang lebih pendek, peningkatan efisiensi, dan kapasitas untuk memodifikasi model sesuai kebutuhan spesifik menjadi lebih jelas. SLM mempunyai potensi untuk mendemokratisasi akses AI dan menstimulasi inovasi lintas sektor dengan memberikan solusi yang fokus dan berbiaya rendah. Penggunaan SLM di edge menawarkan peluang baru untuk aplikasi real-time, personal, dan aman di berbagai industri, termasuk keuangan, hiburan, sistem otomotif, pendidikan, e-commerce, dan layanan kesehatan.

Komputasi tepi dengan SLM meningkatkan pengalaman pengguna dengan memproses data secara lokal dan meminimalkan ketergantungan pada infrastruktur cloud. Strategi AI yang terdesentralisasi ini berpotensi mengubah cara organisasi dan konsumen berinteraksi dengan teknologi, sehingga menghasilkan pengalaman yang lebih personal dan intuitif di dunia nyata. Ketika LLM menghadapi masalah sumber daya komputasi dan mungkin mencapai titik tertinggi dalam kinerja, kemunculan SLM menjanjikan kemajuan ekosistem AI dengan pesat.

Sumber- VentureBeat

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Bidang yang harus diisi ditandai *