Google Gemini: Platform AI Generatif Baru

Google Gemini: Platform AI Generatif Baru

Dengan diluncurkannya Gemini, platform AI generatif baru, Google sedang mencoba membuat keributan. GeminiNamun, hal ini masih kurang di beberapa bidang meskipun terlihat menjanjikan di bidang lain. Jadi apa sebenarnya Gemini itu? Dalam hal apa manfaatnya? Selain itu, bagaimana perbandingannya dengan kompetitor?

Kami telah menyiapkan panduan bermanfaat ini untuk mempermudah Anda tetap mengikuti perkembangan terbaru Gemini. Ini akan diperbarui saat model dan fitur Gemini baru tersedia.

Apa itu Gemini?

Model AI generatif Google generasi berikutnya, yang disebut Gemini, telah dikembangkan selama beberapa waktu. DeepMind dan Google Research adalah divisi penelitian AI Google. Tersedia tiga jenis:

  • Gemini Ultra, model andalan Gemini
  • Gemini Pro, model Gemini “ringan”.
  • Gemini Nano, varian yang lebih ringkas dan “disuling” yang berfungsi pada smartphone seperti Proses Pixel 8

Setiap model Gemini dididik untuk menjadi seperti itu “secara alami multimodal,” atau mampu memanfaatkan dan berinteraksi dengan media selain teks. Berbagai macam musik, gambar, video, basis kode, dan teks dalam beberapa bahasa digunakan untuk pra-pelatihan dan penyesuaian.

Hal ini membedakan Gemini dari model seperti model bahasa besar milik Google LaMDA, yang dilatih hanya pada data teks. LaMDA tidak dapat menafsirkan atau membuat apa pun selain teks (seperti esai, draf email, dan sebagainya), sedangkan model Gemini dapat melakukannya. Kapasitas mereka untuk memahami visual, suara, dan modalitas lainnya masih terbatas, namun ini lebih baik daripada tidak sama sekali.

Apa Perbedaan Antara Bard dan Gemini?

Google sekali lagi menunjukkan kurangnya keterampilan brandingnya dengan gagal menjelaskan sejak awal bahwa Gemini berbeda dan berbeda Penyair. Bard hanyalah sebuah antarmuka yang memungkinkan akses ke model Gemini tertentu, anggap saja sebagai aplikasi atau klien untuk Gemini dan model AI generasi lainnya. Sebaliknya, Gemini adalah kumpulan model, bukan aplikasi atau frontend. Tidak ada pengalaman Gemini yang sendirian, dan kemungkinan besar tidak akan pernah ada. Jika Anda membandingkannya dengan produk OpenAI, Bard berhubungan dengan itu ObrolanGPT, alat AI percakapan populer milik perusahaan, dan Gemini mengacu pada model bahasa yang mendukungnya, yaitu dalam kasus ChatGPT adalah GPT-3.5 atau 4.

Selain itu, Gemini sepenuhnya independen dari Imagen-2, model text-to-image yang mungkin cocok atau tidak sesuai dengan rencana AI perusahaan yang lebih luas. Jangan khawatir; Anda tidak sendirian dalam kebingungan Anda!

Apa yang bisa dilakukan Gemini?

Karena model Gemini bersifat multimodal, secara teori mereka dapat melakukan berbagai tugas, termasuk transkripsi suara, pembuatan teks gambar dan video, serta pembuatan karya seni. Beberapa dari fitur ini belum dirilis sebagai produk (lebih lanjut tentang itu nanti), namun Google berjanji bahwa semuanya dan lebih banyak lagi akan segera tersedia.

Tentu saja sulit mempercayai klaim perusahaan tersebut.

Google berkinerja buruk dengan peluncuran Bard yang pertama. Baru-baru ini, film tersebut menggegerkan alis dengan sebuah film yang mengaku menunjukkan kemampuan Gemini, yang ternyata telah banyak direkayasa dan kurang lebih aspiratif. Gemini, menurut raksasa teknologi, tersedia dalam beberapa bentuk saat ini, meskipun dalam kapasitas terbatas.

Namun, jika Google kurang lebih akurat dalam klaimnya, inilah yang dapat dilakukan oleh berbagai tingkatan model Gemini setelah dirilis:

Gemini Ultra

Namun, hanya a “pilih set” konsumen dari beberapa produk dan layanan Google telah memiliki akses ke Gemini Ultra, the "dasar" model di mana sisanya dibangun. Hal ini tidak akan berubah hingga akhir tahun ini ketika model terbesar Google dirilis secara lebih bebas. Sebagian besar informasi mengenai Ultra berasal dari demo produk yang dipimpin Google, jadi ambillah dengan hati-hati.

Menurut Google, Gemini Ultra dapat digunakan untuk membantu pekerjaan rumah fisika, menjawab soal langkah demi langkah di lembar kerja, dan menunjukkan potensi kesalahan dalam solusi yang telah diisi sebelumnya. Gemini Ultra juga dapat digunakan untuk aktivitas seperti mencari publikasi ilmiah yang relevan dengan topik tertentu, mengekstraksi informasi dari makalah tersebut, dan “memperbarui” bagan dengan membuat rumus yang diperlukan untuk mereproduksi bagan dengan data yang lebih baru.

Seperti disebutkan sebelumnya, Gemini Ultra memungkinkan pembuatan gambar. Namun, Google mengatakan bahwa kapasitas tersebut tidak akan disertakan dalam versi produksi model saat diluncurkan — mungkin karena metodenya lebih canggih dibandingkan cara aplikasi seperti ChatGPT menghasilkan foto. Daripada memberikan saran ke generator gambar (seperti yang dilakukan DALL-E 3 di ChatGPT), Gemini menghasilkan grafik “secara asli” tanpa langkah perantara.

GeminiPro

Gemini Pro, tidak seperti Gemini Ultra, tersedia untuk masyarakat umum saat ini. Namun, kemampuannya tidak jelas karena bervariasi tergantung di mana ia digunakan.

Google mengklaim bahwa di Bard, tempat Gemini Pro awalnya dirilis dalam format hanya teks, model tersebut mengungguli LaMDA dalam hal pemikiran, perencanaan, dan pemahaman. Investigasi terpisah yang dilakukan oleh peneliti Carnegie Mellon dan BerriAI menemukan bahwa Gemini Pro mengungguli OpenAI GPT-3.5 dalam menangani rantai penalaran yang lebih panjang dan rumit.

Namun, penelitian tersebut menemukan bahwa, seperti model bahasa besar lainnya, Gemini Pro mengalami kesulitan dengan soal matematika yang memerlukan beberapa angka, dan pengguna telah memberikan banyak contoh penalaran dan kesalahan yang buruk. Hal ini membuat beberapa ketidakakuratan faktual untuk pertanyaan sederhana seperti siapa pemenang Oscar saat ini. Google telah menjanjikan perubahan, namun tidak jelas kapan hal itu akan terjadi.

Gemini Pro juga tersedia melalui API di Vertex AI, platform pengembang AI yang dikelola sepenuhnya milik Google yang menerima teks sebagai masukan dan menghasilkan teks sebagai keluaran. Gemini Pro Vision, titik akhir tambahan, dapat menafsirkan teks dan gambar (termasuk foto dan video) dan menghasilkan teks yang mirip dengan GPT-4 OpenAI dengan model Vision.

Gemini Pro mungkin disesuaikan atau “didasarkan” pada situasi dan kasus penggunaan tertentu di dalam Vertex AI oleh pengembang. Gemini Pro juga dapat dihubungkan ke API pihak ketiga lainnya untuk menyelesaikan tugas tertentu.

Pengembang memiliki akses ke titik akhir Gemini Pro dan Gemini Pro Vision, dan mereka dapat mengubah suhu model untuk mengelola rentang materi iklan keluaran, menawarkan contoh untuk memberikan pedoman nada dan gaya, serta menyempurnakan parameter keselamatan.

Kurcaci Gemini

Gemini Nano adalah versi yang jauh lebih kecil dari varian Gemini Pro dan Ultra, dan cukup efisien untuk melakukan tugas secara langsung pada ponsel (tertentu) daripada mengirimkannya ke server. Sejauh ini, ini mengaktifkan dua fitur Pixel 8 Pro: ringkasan di Perekam dan balasan cerdas di Gboard.

Gemini Nano kini tersedia di Gboard, perangkat lunak keyboard Google, sebagai pratinjau pengembang. Ini mengaktifkan fungsi yang disebut Balasan Cerdas, yang menyarankan apa yang harus Anda katakan selanjutnya saat Anda sedang melakukan diskusi di aplikasi perpesanan. Fungsi tersebut kini hanya tersedia di WhatsApp, namun akan ditambahkan ke aplikasi tambahan pada tahun 2024, menurut Google.

Apakah Gemini Lebih Baik dari GPT-4 OpenAI?

Tidak ada cara untuk mengetahui bagaimana perkembangan keluarga Gemini hingga Google meluncurkan Ultra akhir tahun ini, namun perusahaan tersebut telah mengklaim adanya peningkatan atas teknologi terkini, yang sering kali merupakan GPT4 OpenAI.

Google telah berulang kali menekankan keunggulan Gemini dalam benchmarking, dengan mengatakan bahwa Gemini Ultra mengungguli temuan canggih saat ini pada “30 dari 32 tolok ukur akademis yang banyak digunakan dalam penelitian dan pengembangan model bahasa besar. Menurut perusahaan, Gemini Pro mengungguli GPT-3.5 dalam aktivitas seperti ringkasan konten, pembuatan ide, dan penulisan.

Terlepas dari pertanyaan apakah benchmark menyiratkan model yang unggul, skor Google tampaknya sedikit lebih baik dibandingkan model serupa OpenAI. Dan, seperti yang dikatakan sebelumnya, beberapa kesan awal bersifat negatif, dengan pengguna dan akademisi mengklaim bahwa Gemini Pro sering kali memberikan informasi mendasar yang salah, memiliki masalah dengan terjemahan, dan memberikan saran kode yang buruk.

Berapa biaya Gemini?

Gemini Pro saat ini gratis untuk digunakan di Bard, serta AI Studio dan Vertex AI.

Saat Gemini Pro keluar dari pratinjau di Vertex, modelnya dikenakan biaya $0.0025 per karakter, tetapi biaya outputnya $0.00005 untuk setiap karakter. Klien Vertex membayar per 1,000 karakter (sekitar 140 hingga 250 kata) atau, dalam kasus model seperti Gemini Pro Vision, setiap gambar ($ 0.0025).

Di mana Anda bisa mencoba Gemini?

GeminiPro

Gemini Pro paling mudah dialami di Bard. Versi Pro yang telah disempurnakan saat ini menjawab pertanyaan Bard berbasis teks dalam bahasa Inggris di Amerika Serikat, dengan lebih banyak bahasa dan negara yang akan menyusul kemudian.

Gemini Pro juga tersedia dalam pratinjau di Vertex AI melalui API. API ini sekarang bebas digunakan “dalam batas tertentu” dan mendukung 38 bahasa dan lokasi, termasuk Eropa, serta fitur-fitur seperti kemampuan obrolan dan filter.

Alternatifnya, Gemini Pro dapat diakses di AI Studio. Pengembang dapat menggunakan layanan ini untuk menyempurnakan perintah dan chatbot berbasis Gemini sebelum menerima kunci API untuk menggunakannya dalam aplikasi mereka atau mengekspor kode ke IDE yang lebih kaya fitur.

Kurcaci Gemini

Pixel 8 Pro memiliki Gemini Nano, yang akan tersedia di perangkat tambahan di masa mendatang. Pengembang yang ingin memasukkan model ini ke dalam aplikasi Android mereka dapat bergabung untuk melihat sekilas.

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Bidang yang harus diisi ditandai *