تم تعيين TTS Tech من Microsoft لتحويل الخبرات الصوتية

تم تعيين TTS Tech من Microsoft لتحويل الخبرات الصوتية

في العديد من المجالات ، بما في ذلك الرعاية الصحية والتعليم ، جعلت تقنية تحويل النص إلى كلام (TTS) الذكاء الاصطناعي العمليات أسهل وجعلت من الممكن القيام بمهام متعددة ، سواء في المنزل أو في العمل.

تخيل روبوتات الكلام تقيم مرضى COVID-19 ، مع الحد الأدنى من الاتصال الشخصي ، وتخفيف عبء العمل على الأطباء. ولكن ضع في اعتبارك أيضًا الحالات التي تكون فيها أداة تمكين ، مثل عندما تساعد الأشخاص ذوي الإعاقة أو تجعل القراءة أسهل.

أفضل مثال على ذلك هو ستيفن هوكينج ، الذي استخدم برامج الكمبيوتر لتشغيل التسجيلات الصوتية المركبة. بفضل هذا ، قد يستمع الكثير من الناس الآن إلى صوت الفيزيائي الراحل.

تقوم التقنية المساعدة المعروفة باسم TTS بقراءة النص الموجود على شاشة المستخدم بصوت عالٍ على جهاز كمبيوتر أو جهاز لوحي. ونتيجة لذلك ، فإن هذه الأداة محبوبة لدى الأطفال الذين يعانون من صعوبات في القراءة ، وخاصة أولئك الذين يواجهون صعوبة في فك التشفير.

يمكن لـ TTS تحويل النص إلى صوت باستخدام جهاز كمبيوتر أو أي جهاز رقمي آخر. يمكن للأطفال الذين يعانون من صعوبات في القراءة الاستفادة بشكل كبير من تحويل النص إلى كلام ، والذي يمكن أن يساعدهم أيضًا في الكتابة والتحرير وحتى الانتباه.

إنه يمكّن كل محتوى رقمي ، بغض النظر عن نوعه ، من الحصول على صوت (تطبيق ، مواقع ويب ، كتب إلكترونية ، مستندات عبر الإنترنت). علاوة على ذلك ، توفر أنظمة تحويل النص إلى كلام طريقة سلسة لقراءة النص من أجهزة الكمبيوتر المكتبية والأجهزة المحمولة.

نظرًا لأنها توفر للقراء مستوى عالٍ من الراحة للأغراض الشخصية والتجارية على حد سواء ، أصبحت هذه الحلول أكثر شيوعًا. قامت Microsoft مؤخرًا بإنشاء نهج TTS جديد تمامًا.

تم إنشاء نموذج لغة الترميز العصبي VALL-E بواسطة Microsoft. قبل عمل الموجات التي تحاكي المتحدث مع الحفاظ على جرس المتحدث والنبرة العاطفية ، يقوم الذكاء الاصطناعي بترميز الكلام.

يؤكد تقرير الدراسة أن VALL-E قادر على إنتاج كلام شخصي عالي الجودة باستخدام تسجيل مدته ثلاث ثوانٍ فقط لمكبر صوت مائل كمحفزات صوتية.

تنتج الطريقة التأثيرات المطلوبة دون الحاجة إلى أعمال إنشائية إضافية ، أو مكونات صوتية مخططة مسبقًا ، أو ضبط دقيق. بالنسبة لتقنيات تحويل النص إلى كلام (TTS) التي تعتمد على المحفزات والتعلم السياقي ، فهي مفيدة.

تقنيات تحويل النص إلى كلام (TTS) من طرف إلى طرف أو متتالية هما الفئتان الموجودتان الآن. تم إنشاء أنظمة تحويل النص إلى كلام المتتالية في عام 2018 بواسطة باحثين من Google وجامعة كاليفورنيا في بيركلي. تستخدم هذه الأنظمة عادةً خط أنابيب يتضمن نموذجًا صوتيًا.

قدم باحثون من كوريا و Microsoft Research Asia نموذج TTS شامل في عام 2021 لتحسين النموذج الصوتي ومشفر الصوت في نفس الوقت من أجل معالجة عيوب مشفر الصوت.

في الاستخدام الفعلي ، يُفضل اعتماد نظام تحويل النص إلى كلام لأي صوت عن طريق تسجيل تسجيلات غير عادية.

ونتيجة لذلك ، أصبحت حلول تحويل النص إلى كلام متعددة السماعات بدون طلقة أكثر شيوعًا ، حيث تركز غالبية الأبحاث على أنظمة تحويل النص إلى كلام متتالية.

تبين لاحقًا أن النموذج قادر على إنتاج مخرجات عالية الجودة للمتحدثين داخل المجال باستخدام ثلاث ثوانٍ فقط من التسجيلات المسجلة بواسطة اختبار باحثي Google في عام 2019.

تم أيضًا تحسين جودة السماعات غير المرئية من قبل الباحثين الصينيين في عام 2018 باستخدام نماذج متطورة لتضمين السماعات ، بينما لا يزال هناك مجال للتحسين.

بالإضافة إلى ذلك ، يحتفظ VALL-E بإرث تحويل النص إلى كلام المتتالي ولكنه يستخدم رمز ترميز الصوت كعروض وسيطة على عكس الأبحاث السابقة من الأكاديميين الصينيين في جامعة تشجيانغ.

دون الحاجة إلى ضبط دقيق أو ميزات مصممة مسبقًا أو برنامج تشفير مكبرات صوت متطور ، فهو أول من يتمتع بقدرات تعلم قوية في السياق مثل GPT-3.

كيف يعمل؟

يوفر VALL-E أمثلة صوتية لنموذج AI قيد الاستخدام. يتطلب أحد الأمثلة أن يقوم VALL-E بتكرار "موجه السماعة" ، وهو إشارة سمعية مدتها ثلاث ثوان. يمثل المثال الأول ، "الخط الأساسي" ، التوليف التقليدي لتحويل النص إلى كلام ، والعينة الثانية ، "VALL-E" ، هي مخرجات النموذج.

تُظهر نتائج التقييمات أن VALL-E يعمل بشكل أفضل على LibriSpeech و VCTK من نظام TTS الأكثر تعقيدًا. بالإضافة إلى ذلك ، باستخدام VCTK و LibriSpeech ، أنتج VALL-E نتائج تحويل النص إلى كلام متطورة بدون لقطة.

التحديات

يدعي الباحثون أنه على الرغم من أن VALL-E قد أحرزت تقدمًا كبيرًا ، إلا أنه لا يزال يعاني من المشكلات التالية:

  • يشير مؤلفو الدراسة إلى أن التركيب الصوتي ينتج أحيانًا كلمات مربكة أو مفقودة أو زائدة عن الحاجة. السبب الأساسي هو أن محاذاة الانتباه غير مضطربة لأن قسم اللغة الصوتية إلى الصوتية هو نموذج ارتداد تلقائي ، مما يعني أنه لا توجد قيود على حل المشكلة.
  • حتى 60,000 ساعة من بيانات التدريب لا يمكن أن تمثل كل صوت يمكن تصوره. هذا ينطبق بشكل خاص على المتحدثين بلكنات. نظرًا لأن LibriLight عبارة عن مجموعة بيانات كتاب صوتي ، فإن غالبية الكلمات المنطوقة لها لهجة أسلوب القراءة. لذلك ، يجب توسيع مجموعة متنوعة من أوضاع التحدث.
  • للتنبؤ بأكواد الكميات المختلفة ، يستخدم الباحثون الآن نموذجين. الخطوة التالية الواعدة هي التنبؤ بها باستخدام نموذج عالمي واسع.
  • نظرًا لقدرة VALL-قدرة E على تجميع الكلام مع الحفاظ على هوية المتحدث ، هناك مخاطر محتملة في إساءة استخدام النموذج. تتضمن هذه المخاطر حالات مثل انتحال الهوية الصوتية أو انتحال الهوية.

وفي الختام

في السنوات الأخيرة ، تم تحسين تركيب الكلام من خلال الشبكات العصبية والنمذجة من طرف إلى طرف. تُستخدم الآن المكودات الصوتية والنماذج الصوتية في أنظمة تحويل النص إلى كلام المتتالية (TTS) ، حيث تعمل مخططات الطيف كتمثيلات وسيطة.

يمكن لمكبر صوت واحد أو لوحة مكبرات صوت توفير كلام عالي الجودة باستخدام أنظمة تحويل النص إلى كلام حديثة.

علاوة على ذلك ، تم تضمين تقنية TTS في مجموعة متنوعة من البرامج والأجهزة ، بما في ذلك أنظمة التعلم الإلكتروني ، والمساعدين الافتراضيين مثل Alexa من Amazon ، و Google Assistant.

علاوة على ذلك ، يتم استخدامه في التسويق وخدمة العملاء والإعلان لتنشيط العلاقات وتخصيصها.

اترك تعليق

لن يتم نشر عنوان بريدك الإلكتروني. الحقول المشار إليها إلزامية *