Google Gemini: منصة الذكاء الاصطناعي التوليدية الجديدة

Google Gemini: منصة الذكاء الاصطناعي التوليدية الجديدة

مع إطلاق منصة Gemini، وهي منصة توليدية جديدة للذكاء الاصطناعي، شراء مراجعات جوجل يحاول خلق ضجة. الجوزاءومع ذلك، فهي منقوصة في العديد من المجالات حتى في حين أنها تبدو واعدة في مجالات أخرى. إذن ما هو برج الجوزاء بالضبط؟ بأي طريقة هو مفيد؟ علاوة على ذلك، كيف يمكن مقارنتها بالمنافسة؟

لقد وضعنا هذا الدليل المفيد لتسهيل البقاء على اطلاع بأحدث التطورات في برج الجوزاء. سيتم تحديثه مع توفر نماذج وميزات Gemini الجديدة.

ما هو الجوزاء؟

إن الجيل التالي من نماذج الذكاء الاصطناعي التوليدية من Google، والتي تسمى Gemini، قيد العمل منذ فترة حتى الآن. DeepMind وGoogle Research هما قسما أبحاث الذكاء الاصطناعي في Google. تتوفر ثلاثة أنواع:

  • Gemini Ultra، موديلات Gemini الرائدة
  • Gemini Pro، نماذج الجوزاء "الخفيفة".
  • Gemini Nano، وهو متغير أكثر إحكاما و"مقطرا" يعمل على الهواتف الذكية مثل Pixel 8 Process

تم تعليم كل نموذج من عارضات الجوزاء ليكون كذلك "متعدد الوسائط محليًا" أو قادر على استخدام الوسائط الأخرى غير النص والتفاعل معها. تم استخدام مجموعة واسعة من الموسيقى والصور ومقاطع الفيديو وقواعد التعليمات البرمجية والنصوص بعدة لغات للتدريب المسبق والضبط الدقيق.

وهذا ما يميز برج الجوزاء عن نماذج مثل نموذج اللغة الضخم الخاص بشركة Google لامدا والتي تم تدريبها فقط على البيانات النصية. لا يستطيع LaMDA تفسير أو إنشاء أي شيء آخر غير النص (مثل المقالات ومسودات البريد الإلكتروني وما إلى ذلك)، في حين أن نماذج جيميني يمكنها ذلك. وتظل قدرتهم على فهم الصور والأصوات والطرائق الأخرى محدودة، ولكنها أفضل من لا شيء.

ما هو الفرق بين بارد والجوزاء؟

أثبتت Google مرة أخرى افتقارها إلى مهارات العلامة التجارية من خلال الفشل في توضيح منذ البداية أن الجوزاء مختلف ومتميز عنه الشاعر. Bard هي مجرد واجهة تسمح بالوصول إلى بعض نماذج Gemini (اعتقد أنها تطبيق أو عميل لـ Gemini وأجيال أخرى من نماذج الذكاء الاصطناعي). في المقابل، Gemini عبارة عن عائلة من النماذج وليست تطبيقًا أو واجهة أمامية. لا توجد تجربة فردية في برج الجوزاء، وعلى الأرجح لن تكون هناك أبدًا. إذا قارنته بمنتجات OpenAI، فإن Bard يتصل بها الدردشةT، أداة المحادثة الشهيرة التي تعمل بالذكاء الاصطناعي الخاصة بالشركة، ويشير Gemini إلى نموذج اللغة الذي يشغلها، والذي في حالة ChatGPT هو GPT-3.5 أو 4.

بالإضافة إلى ذلك، فإن Gemini مستقل تمامًا عن Imagen-2، وهو نموذج لتحويل النص إلى صورة قد يتناسب أو لا يتناسب مع خطة الذكاء الاصطناعي الأوسع للشركة. لا تقلق؛ أنت لست وحدك في ارتباكك!

ماذا يمكن أن يفعل الجوزاء؟

نظرًا لأن نماذج جيميني متعددة الوسائط، فإنها قد تقوم نظريًا بمجموعة متنوعة من المهام، بما في ذلك النسخ الصوتي، والتعليق على الصور والفيديو، وتوليد الأعمال الفنية. لم يتم إصدار سوى القليل من هذه الميزات كمنتجات (سنتحدث عن ذلك لاحقًا)، لكن جوجل تعد بأن جميعها وأكثر ستكون متاحة قريبًا.

وبطبيعة الحال، من الصعب تصديق ادعاءات الشركة.

كان أداء Google ضعيفًا للغاية مع إطلاق Bard الأول. وفي الآونة الأخيرة، أثار الفيلم الدهشة من خلال فيلم يدعي إظهار قدرات الجوزاء، والذي تبين أنه تم التلاعب به على نطاق واسع وطموح إلى حد ما. يُحسب لشركة Gemini أن شركة Gemini متاحة بشكل ما اليوم، وإن كان ذلك بقدرة محدودة.

ومع ذلك، إذا كانت جوجل أكثر أو أقل دقة في ادعاءاتها، فإليك ما ستتمكن المستويات المختلفة لنماذج جيميني من تحقيقه بمجرد إصدارها:

الجوزاء الترا

حتى الآن، فقط أ "اختر مجموعة" من المستهلكين من عدد قليل من منتجات وخدمات Google تمكنوا من الوصول إلى Gemini Ultra، "المؤسسة" النموذج الذي يتم بناء الباقي حوله. ولن يتغير هذا إلا في وقت لاحق من هذا العام عندما يتم إطلاق أكبر طراز من Google بحرية أكبر. تأتي معظم المعلومات المتعلقة بـ Ultra من العروض التوضيحية للمنتجات التي تقودها Google، لذا تعامل مع الأمر بحذر.

وفقًا لجوجل، يمكن استخدام Gemini Ultra للمساعدة في واجبات الفيزياء المنزلية، والإجابة على المشكلات خطوة بخطوة في ورقة العمل، والإشارة إلى الأخطاء المحتملة في الحلول التي تم ملؤها مسبقًا. يمكن أيضًا استخدام Gemini Ultra في أنشطة مثل تحديد موقع المنشورات العلمية ذات الصلة بموضوع معين، واستخراج المعلومات من تلك الأوراق، و "تحديث" مخطط عن طريق إنشاء الصيغ المطلوبة لإعادة إنتاج المخطط ببيانات أحدث.

كما ذكرنا سابقًا، يسمح Gemini Ultra بإنشاء الصور. ومع ذلك، تقول جوجل إن السعة لن يتم تضمينها في الإصدار المنتج للنموذج عند إطلاقه - ربما لأن الطريقة أكثر تعقيدًا من كيفية إنتاج تطبيقات مثل ChatGPT للصور. بدلاً من تقديم الاقتراحات إلى مولد الصور (مثلما يفعل DALL-E 3 في ChatGPT)، يقوم Gemini بإنتاج الرسومات "محلياً" دون خطوة وسيطة.

الجوزاء برو

Gemini Pro، على عكس Gemini Ultra، متاح لعامة الناس اليوم. ومع ذلك، فإن قدراتها غير واضحة لأنها تختلف باختلاف المكان الذي تستخدم فيه.

تدعي Google أنه في Bard، حيث تم إصدار Gemini Pro في البداية بتنسيق نصي فقط، يتفوق النموذج على LaMDA من حيث التفكير والتخطيط والفهم. اكتشف تحقيق منفصل أجراه باحثون من جامعة كارنيجي ميلون وBerriAI أن Gemini Pro يتفوق على GPT-3.5 الخاص بـ OpenAI في التعامل مع سلاسل التفكير الأطول والأكثر تعقيدًا.

ومع ذلك، اكتشفت الدراسة أنه، مثل نماذج اللغات الكبيرة الأخرى، يواجه Gemini Pro صعوبات في مسائل الرياضيات التي تتطلب عدة أرقام، وقد قدم المستخدمون العديد من الأمثلة على الاستدلال السيئ والأخطاء. لقد قدمت العديد من المغالطات الواقعية لأسئلة بسيطة مثل من فاز بجوائز الأوسكار الحالية. لقد وعدت جوجل بإجراء تغييرات، لكن من غير الواضح متى ستحدث.

يتوفر Gemini Pro أيضًا من خلال واجهة برمجة التطبيقات في Vertex AI، وهي منصة مطوري الذكاء الاصطناعي المُدارة بالكامل من Google والتي تتلقى النص كمدخل وتنتج النص كمخرج. يمكن لـ Gemini Pro Vision، وهي نقطة نهاية إضافية، تفسير النصوص والصور (بما في ذلك الصور الفوتوغرافية والفيديو) وإنتاج نص مشابه لـ OpenAI's GPT-4 مع نموذج Vision.

قد يتم ضبط Gemini Pro أو "تأريضه" لمواقف معينة وحالات الاستخدام داخل Vertex AI بواسطة المطورين. قد يكون Gemini Pro أيضًا متصلاً بواجهات برمجة التطبيقات الأخرى التابعة لجهات خارجية لإنجاز مهام معينة.

يتمتع المطورون بإمكانية الوصول إلى نقطتي النهاية Gemini Pro وGemini Pro Vision، ويمكنهم تغيير درجة حرارة النموذج لإدارة النطاق الإبداعي للمخرجات، وتقديم أمثلة لإعطاء إرشادات للأسلوب والأسلوب وضبط معلمات السلامة.

الجوزاء نانو

Gemini Nano هو إصدار أصغر بكثير من متغيرات Gemini Pro وUltra، وهو فعال بما يكفي للقيام بالمهام مباشرة على هواتف (معينة) بدلاً من نقلها إلى الخادم. حتى الآن، فهو يتيح ميزتين في Pixel 8 Pro: التلخيص في المسجل والرد الذكي على Gboard.

يتوفر Gemini Nano الآن على Gboard، وهو برنامج لوحة المفاتيح من Google، كمعاينة للمطورين. فهو يتيح وظيفة تسمى الرد الذكي، والتي تقترح ما يجب أن تقوله بعد ذلك أثناء إجراء مناقشة في تطبيق المراسلة. الوظيفة متاحة الآن فقط على واتساب، ولكن سيتم إضافتها إلى تطبيقات إضافية في عام 2024، وفقًا لشركة جوجل.

هل Gemini أفضل من GPT-4 الخاص بـ OpenAI؟

لا توجد طريقة لمعرفة كيفية أداء عائلة Gemini حتى تطلق Google Ultra في وقت لاحق من هذا العام، لكن الشركة تطالب بإدخال تحسينات على الوضع الحالي للتقنية، والذي غالبًا ما يكون GPT4 من OpenAI.

لقد أكدت Google مرارًا وتكرارًا على ميزة Gemini في قياس الأداء، قائلة إن Gemini Ultra يتفوق على أحدث النتائج الحالية في "30 من أصل 32 معيارًا أكاديميًا مستخدمًا على نطاق واسع والمستخدمة في أبحاث وتطوير النماذج اللغوية الكبيرة. وفقًا للشركة، يتفوق Gemini Pro على GPT-3.5 في أنشطة مثل تلخيص المحتوى والتفكير والكتابة.

وبغض النظر عن مسألة ما إذا كانت المعايير تشير ضمنا إلى نموذج متفوق، فإن نتائج جوجل تبدو أفضل بشكل هامشي من نماذج OpenAI المماثلة. وكما قلنا سابقًا، كانت بعض الانطباعات المبكرة سلبية، حيث ادعى المستخدمون والأكاديميون أن Gemini Pro كثيرًا ما يخطئ في المعلومات الأساسية، ويواجه مشكلات في الترجمات، ويقدم نصائح سيئة حول التعليمات البرمجية.

كم سيكلف الجوزاء؟

Gemini Pro متاح حاليًا للاستخدام مجانًا في Bard، بالإضافة إلى AI Studio وVertex AI.

عندما يخرج Gemini Pro من المعاينة في Vertex، يتم دفع تكلفة النموذج $0.0025 لكل حرف، ولكن تكاليف الانتاج $0.00005 لكل حرف. يدفع عملاء Vertex مقابل كل 1,000 حرف (حوالي 140 إلى 250 كلمة)، أو في حالة النماذج مثل Gemini Pro Vision، كل صورة ($ 0.0025).

أين يمكنك تجربة الجوزاء؟

الجوزاء برو

يمكن تجربة Gemini Pro بسهولة أكبر في Bard. يعالج الإصدار المحسّن من Pro حاليًا استفسارات Bard النصية باللغة الإنجليزية في الولايات المتحدة، مع المزيد من اللغات والبلدان التي ستتبع لاحقًا.

يتوفر Gemini Pro أيضًا للمعاينة على Vertex AI عبر واجهة برمجة التطبيقات. أصبحت واجهة برمجة التطبيقات (API) الآن مجانية للاستخدام "ضمن الحدود" وتدعم 38 لغة وموقعًا، بما في ذلك أوروبا، بالإضافة إلى ميزات مثل إمكانات الدردشة والمرشحات.

وبدلاً من ذلك، يمكن الوصول إلى Gemini Pro في AI Studio. يمكن للمطورين استخدام الخدمة لتحسين المطالبات وروبوتات الدردشة المستندة إلى Gemini قبل تلقي مفاتيح واجهة برمجة التطبيقات (API) لاستخدامها في تطبيقاتهم أو تصدير التعليمات البرمجية إلى بيئة تطوير متكاملة (IDE) أكثر ثراءً بالميزات.

الجوزاء نانو

يحتوي Pixel 8 Pro على Gemini Nano، والذي سيكون متاحًا على أجهزة إضافية في المستقبل. يمكن للمطورين الذين يرغبون في تضمين النموذج في تطبيقات Android الخاصة بهم الانضمام لإلقاء نظرة خاطفة أولية.

اترك تعليق

لن يتم نشر عنوان بريدك الإلكتروني. الحقول المشار إليها إلزامية *