ชุดเทคโนโลยี TTS ของ Microsoft เพื่อพลิกโฉมประสบการณ์ด้านเสียง

ชุดเทคโนโลยี TTS ของ Microsoft เพื่อพลิกโฉมประสบการณ์ด้านเสียง

ในหลายสาขา รวมถึงการดูแลสุขภาพและการศึกษา AI การอ่านออกเสียงข้อความ (TTS) ทำให้การดำเนินงานง่ายขึ้น และทำให้สามารถทำงานหลายอย่างพร้อมกันได้ ไม่ว่าจะที่บ้านหรือที่ทำงาน

ลองนึกภาพบ็อตคำพูดประเมินผู้ป่วยโควิด-19 โดยมีการติดต่อต่อหน้าน้อยที่สุด และลดภาระงานของแพทย์ แต่ยังพิจารณาถึงกรณีที่เป็นตัวช่วยด้วย เช่น เมื่อช่วยผู้ที่มีความพิการหรือทำให้การอ่านง่ายขึ้น

ตัวอย่างที่ดีที่สุดคือ Stephen Hawking ซึ่งใช้ซอฟต์แวร์คอมพิวเตอร์เพื่อเล่นเสียงบันทึกเสียงสังเคราะห์ ด้วยเหตุนี้ หลายๆ คนจึงอาจได้ยินเสียงของนักฟิสิกส์ผู้ล่วงลับไปแล้ว

เทคโนโลยีช่วยเหลือที่เรียกว่า TTS อ่านออกเสียงข้อความบนหน้าจอของผู้ใช้บนคอมพิวเตอร์หรือแท็บเล็ต ด้วยเหตุนี้ แกดเจ็ตนี้จึงเป็นที่ชื่นชอบของเด็ก ๆ ที่มีปัญหาในการอ่าน โดยเฉพาะผู้ที่มีปัญหาในการถอดรหัส

TTS สามารถแปลงข้อความเป็นเสียงด้วยคอมพิวเตอร์หรืออุปกรณ์ดิจิทัลอื่นๆ เด็กที่มีปัญหาเรื่องการอ่านจะได้รับประโยชน์อย่างมากจาก TTS ซึ่งสามารถช่วยพวกเขาในการเขียน การแก้ไข และแม้กระทั่งการตั้งใจฟัง

ช่วยให้เนื้อหาดิจิทัลทุกประเภทสามารถแสดงความคิดเห็นได้ (แอปพลิเคชัน เว็บไซต์ ebooks เอกสารออนไลน์) นอกจากนี้ ระบบ TTS ยังนำเสนอวิธีที่ราบรื่นในการอ่านข้อความจากเดสก์ท็อปและอุปกรณ์มือถือ

เนื่องจากโซลูชันเหล่านี้มอบความสะดวกสบายระดับสูงแก่ผู้อ่านทั้งเพื่อวัตถุประสงค์ส่วนตัวและทางธุรกิจ โซลูชันเหล่านี้จึงได้รับความนิยมมากขึ้นเรื่อยๆ Microsoft เพิ่งสร้างแนวทาง TTS ใหม่ล่าสุด

โมเดลภาษาตัวแปลงสัญญาณประสาท VALL-E ถูกสร้างขึ้นโดย Microsoft ก่อนที่จะสร้างคลื่นที่เลียนแบบผู้พูดในขณะที่ยังคงรักษาเสียงต่ำและน้ำเสียงทางอารมณ์ของผู้พูด AI จะสร้างโทเค็นคำพูด

รายงานการศึกษายืนยันว่า VALL-E สามารถสร้างคำพูดคุณภาพสูงและเป็นส่วนตัวได้โดยใช้การบันทึกของผู้พูดแบบเฉียงเพียงสามวินาทีที่ลงทะเบียนไว้เป็นสิ่งเร้าทางเสียง

วิธีการนี้จะสร้างเอฟเฟกต์ที่ต้องการโดยไม่จำเป็นต้องทำงานโครงสร้างเพิ่มเติม ส่วนประกอบทางเสียงที่วางแผนไว้ล่วงหน้า หรือการปรับแต่งอย่างละเอียด สำหรับเทคนิค TTS แบบ Zero-shot ที่อาศัยการแจ้งและการเรียนรู้ตามบริบท จะเป็นประโยชน์

เทคนิค TTS แบบครบวงจรหรือแบบเรียงซ้อนเป็นสองประเภทที่มีอยู่ในปัจจุบัน ระบบ Cascaded TTS ถูกสร้างขึ้นในปี 2018 โดย Google และ University of California นักวิจัยของ Berkeley โดยทั่วไประบบเหล่านี้จะใช้ไปป์ไลน์ที่มีโมเดลอะคูสติกด้วย

นักวิจัยจากเกาหลีและ Microsoft Research Asia นำเสนอโมเดล TTS แบบ end-to-end ในปี 2021 เพื่อปรับปรุงโมเดลอะคูสติกและโวโคเดอร์ไปพร้อมๆ กัน เพื่อแก้ไขข้อเสียของผู้ร้อง

ในการใช้งานจริง แนะนำให้นำระบบ TTS มาใช้กับเสียงใดๆ ก็ตามโดยให้มีการบันทึกที่ผิดปกติ

ด้วยเหตุนี้ โซลูชัน TTS แบบลำโพงหลายตัวแบบ Zero-shot จึงได้รับความนิยมมากขึ้น โดยการวิจัยส่วนใหญ่มุ่งเน้นไปที่ระบบ TTS แบบเรียงซ้อน

ต่อมาแบบจำลองนี้แสดงให้เห็นว่าสามารถสร้างผลลัพธ์คุณภาพสูงสำหรับผู้บรรยายในโดเมนโดยใช้การบันทึกที่ลงทะเบียนไว้เพียงสามวินาทีโดยการทดสอบของนักวิจัยของ Google ในปี 2019

นักวิจัยชาวจีนยังได้ปรับปรุงคุณภาพของลำโพงที่มองไม่เห็นในปี 2018 โดยใช้โมเดลการฝังลำโพงที่ซับซ้อน ในขณะที่ยังมีสิ่งที่ต้องปรับปรุงอีก

นอกจากนี้ VALL-E ยังคงรักษามรดกของ TTS แบบเรียงซ้อน แต่ใช้โค้ดตัวแปลงสัญญาณเสียงเป็นตัวแทนระดับกลาง ตรงกันข้ามกับการวิจัยก่อนหน้านี้จากนักวิชาการชาวจีนที่มหาวิทยาลัยเจ้อเจียง

โดยไม่ต้องมีการปรับแต่งอย่างละเอียด คุณสมบัติที่ออกแบบไว้ล่วงหน้า หรือใช้ตัวเข้ารหัสลำโพงที่ซับซ้อน ถือเป็นอุปกรณ์แรกที่มีความสามารถในการเรียนรู้ในบริบทที่แข็งแกร่ง เช่น GPT-3

มันทำงานอย่างไร

VALL-E นำเสนอตัวอย่างเสียงของโมเดล AI ที่ใช้งานอยู่ หนึ่งในตัวอย่างต้องการให้ VALL-E ทำซ้ำ "Speaker Prompt" ซึ่งเป็นสัญญาณการได้ยินสามวินาที ตัวอย่างแรก "Baseline" แสดงถึงการสังเคราะห์ข้อความเป็นคำพูดแบบดั้งเดิม และตัวอย่างที่สอง "VALL-E" คือเอาต์พุตของโมเดล

ผลการประเมินแสดงให้เห็นว่า VALL-E ทำงานได้ดีบน LibriSpeech และ VCTK มากกว่าระบบ TTS แบบ Zero-shot ที่ซับซ้อนที่สุด นอกจากนี้ การใช้ VCTK และ LibriSpeech ทำให้ VALL-E ยังสร้างผลลัพธ์ TTS แบบ Zero-shot ที่ล้ำสมัยอีกด้วย

ความท้าทาย

นักวิจัยอ้างว่าแม้ว่า VALL-E จะมีความก้าวหน้าอย่างมาก แต่ก็ยังมีปัญหาดังต่อไปนี้:

  • ผู้เขียนงานวิจัยชี้ให้เห็นว่าการสังเคราะห์เสียงบางครั้งทำให้เกิดคำที่สับสน หายไป หรือซ้ำซ้อน สาเหตุหลักคือการจัดแนวความสนใจไม่เป็นระเบียบเนื่องจากส่วนภาษาหน่วยเสียงเป็นอะคูสติกเป็นรูปแบบการถดถอยอัตโนมัติ ซึ่งหมายความว่าไม่มีข้อจำกัดในการแก้ปัญหา
  • แม้แต่ข้อมูลการฝึกอบรม 60,000 ชั่วโมงก็ไม่สามารถอธิบายทุกเสียงที่เป็นไปได้ โดยเฉพาะอย่างยิ่งสำหรับผู้พูดที่มีสำเนียง เนื่องจาก LibriLight เป็นชุดข้อมูลหนังสือเสียง คำพูดส่วนใหญ่จึงมีสำเนียงสไตล์การอ่าน ดังนั้นจึงต้องขยายโหมดการพูดที่หลากหลาย
  • เพื่อคาดการณ์รหัสสำหรับควอนไทเซอร์ต่างๆ ขณะนี้นักวิจัยใช้แบบจำลองสองแบบ ขั้นตอนต่อไปที่น่าหวังคือการทำนายโดยใช้แบบจำลองสากลแบบกว้างๆ
  • เนื่องจากความสามารถของ VALL-ability E ในการสังเคราะห์เสียงพูดในขณะที่ยังคงรักษาเอกลักษณ์ของผู้พูด จึงมีความเสี่ยงในการใช้แบบจำลองในทางที่ผิด ความเสี่ยงเหล่านี้รวมถึงกรณีต่างๆ เช่น การปลอมแปลง ID เสียงหรือการแอบอ้างบุคคลอื่น

สรุป

ในช่วงไม่กี่ปีที่ผ่านมา การสังเคราะห์เสียงพูดได้รับการปรับปรุงผ่านโครงข่ายประสาทเทียมและการสร้างแบบจำลองจากต้นทางถึงปลายทาง ขณะนี้โวโคเดอร์และโมเดลอะคูสติกถูกนำมาใช้ในระบบแปลงข้อความเป็นคำพูด (TTS) แบบเรียงซ้อน โดยมีสเปกโตรแกรมทำหน้าที่เป็นตัวแทนตัวกลาง

ลำโพงตัวเดียวหรือแผงลำโพงสามารถให้เสียงพูดคุณภาพสูงได้โดยใช้ระบบ TTS ที่ทันสมัย

นอกจากนี้ เทคโนโลยี TTS ยังรวมอยู่ในซอฟต์แวร์และฮาร์ดแวร์ที่หลากหลาย รวมถึงระบบอีเลิร์นนิง และผู้ช่วยเสมือน เช่น Alexa จาก Amazon และ Google Assistant

นอกจากนี้ยังใช้ในด้านการตลาด การบริการลูกค้า และการโฆษณาเพื่อกระตุ้นและปรับความสัมพันธ์ส่วนบุคคล

เขียนความเห็น

ที่อยู่อีเมลของคุณจะไม่ถูกเผยแพร่ ช่องที่ต้องการถูกทำเครื่องหมาย *