Whisper API: أحدث اختراق لـ OpenAI في تحويل الكلام إلى نص

Whisper API: أحدث اختراق لـ OpenAI في تحويل الكلام إلى نص

أعلنت شركة OpenAI عن واجهة برمجة تطبيقات Whisper ، وهي نسخة مستضافة من نموذج تحويل الكلام إلى نص مفتوح المصدر الذي نشرته الشركة في سبتمبر ، ليتزامن مع ظهور ChatGPT API.

Whisper هو نظام التعرف على الصوت الاصطناعي الذي تقول شركة OpenAI إنه يوفر نسخًا "قويًا" بعدة لغات وترجمة من تلك اللغات إلى اللغة الإنجليزية ، بتكلفة 0.006 دولار في الدقيقة. M4A و MP3 و MP4 و MPEG و MPGA و WAV و WEBM ليست سوى عدد قليل من أنواع الملفات التي تقبلها.

طورت العديد من الشركات أنظمة التعرف على الكلام ، والتي تعد في صميم البرامج والخدمات التي تقدمها الشركات الرقمية العملاقة مثل Google و Amazon و Meta.

وفقًا لرئيس OpenAI ورئيس مجلس إدارتها جريج بروكمان ، يمكن الآن التعرف على اللهجات الفردية وضوضاء الخلفية والمصطلحات الفنية بشكل أكثر دقة بفضل تدريب Whisper على 680,000 ساعة من البيانات متعددة اللغات و "متعددة المهام" عبر الإنترنت.

قال بروكمان في محادثة فيديو مع TechCrunch بعد ظهر أمس: "لقد طورنا نموذجًا ، لكنه في الواقع لم يكن كافيًا لجعل مجتمع المطورين بأكمله يبني حوله".

يعد Whisper API إصدارًا محسنًا للغاية من نفس النموذج الكبير المتاح كمصدر مفتوح. إنه مفيد حقًا وأسرع كثيرًا.

للتأكيد على أطروحة بروكمان ، هناك عدة عقبات أمام الشركات التي تطبق تقنية نسخ الكلام.

تقول الشركات إن الأسباب الرئيسية وراء عدم استخدامهم التكنولوجيا مثل التكنولوجيا إلى الكلام هي الدقة ، واللهجة ، أو تحديات تحديد اللهجة ، والنفقات ، وفقًا لاستطلاع Statista لعام 2020.

ومع ذلك ، لا يمتلك Whisper جميع الإجابات ، لا سيما عندما يتعلق الأمر بتنبؤ "الكلمة التالية". 

قد يتضمن Whisper كلمات في نسخها التي لم يتم قولها حقًا منذ أن تم تدريب النظام على الكثير من البيانات الصاخبة ، على الأرجح لأنه يحاول في نفس الوقت توقع الكلمة التالية في الصوت ونسخ التسجيل الصوتي.

علاوة على ذلك ، لا يتوافق أداء Whisper عبر الحدود اللغوية ؛ لديها معدل خطأ أكبر عند التعامل مع المتحدثين بلغات غير ممثلة بشكل جيد في مجموعة التدريب.

للأسف ، هذا البيان الأخير ليس جديدًا في مجال التعرف على الصوت. لطالما أعاقت التحيزات حتى أعظم الأنظمة ؛ وجدت دراسة أجرتها جامعة ستانفورد لعام 2020 أن الأنظمة من Amazon و Apple و Google و IBM و Microsoft ارتكبت أخطاء أقل بكثير - حوالي 19 ٪ - مع المستخدمين البيض مقارنة بالمستخدمين السود.

على الرغم من أن هذا هو الحال ، يتصور OpenAI تطبيق مهارات Whisper في النسخ لتحسين الأدوات والخدمات والمنتجات الموجودة بالفعل. يتم استخدام Whisper API بالفعل لإنشاء رفيق حديث افتراضي جديد داخل التطبيق بواسطة تطبيق دراسة اللغة المدعوم بالذكاء الاصطناعي Speak.

بالنسبة للأعمال المدعومة من Microsoft ، OpenAI ، قد يكون الدخول الهام في قطاع تحويل الكلام إلى نص مربحًا للغاية. قد يرتفع السوق من 2.2 مليار دولار في عام 2021 إلى 5.4 مليار دولار بحلول عام 2026 ، وفقًا لأحد الأبحاث.

مثالينا ، وفقًا لبروكمان ، هو أن نصبح هذا العقل الذي يعرف كل شيء. نريد أن نكون مضاعفًا للقوة لهذا الاهتمام من خلال امتلاك المرونة في استيعاب أي نوع من البيانات لديك وأي نوع من العمل الذي ترغب في القيام به.

اترك تعليق

لن يتم نشر عنوان بريدك الإلكتروني. الحقول المشار إليها إلزامية *