OpenAI ประกาศ Whisper API ซึ่งเป็นเวอร์ชันโฮสต์ของโมเดลคำพูดเป็นข้อความ Whisper แบบโอเพ่นซอร์สที่ธุรกิจเผยแพร่ในเดือนกันยายน เพื่อให้ตรงกับการเปิดตัว ChatGPT API
Whisper เป็นระบบจดจำเสียงประดิษฐ์ที่ OpenAI กล่าวว่าให้การถอดเสียงที่ "มีประสิทธิภาพ" ในหลายภาษาและการแปลจากภาษาเหล่านั้นเป็นภาษาอังกฤษ โดยมีราคา 0.006 ดอลลาร์ต่อนาที M4A, MP3, MP4, MPEG, MPGA, WAV และ WEBM เป็นเพียงไฟล์บางประเภทที่ยอมรับ
บริษัทหลายแห่งได้พัฒนาระบบรู้จำเสียง ซึ่งเป็นหัวใจหลักของซอฟต์แวร์และบริการที่นำเสนอโดยยักษ์ใหญ่ด้านดิจิทัล เช่น Google, Amazon และ Meta
ตามที่ Greg Brockman ประธานและประธาน OpenAI กล่าว สำเนียงส่วนบุคคล เสียงพื้นหลัง และศัพท์แสงทางเทคนิคสามารถจดจำได้แม่นยำยิ่งขึ้นด้วยการฝึกอบรมของ Whisper เกี่ยวกับข้อมูลออนไลน์หลายภาษาและ "มัลติทาสก์" จำนวน 680,000 ชั่วโมง
"เราพัฒนาโมเดลขึ้นมา แต่จริงๆ แล้วโมเดลนั้นไม่เพียงพอที่จะทำให้ชุมชนนักพัฒนาทั้งหมดสร้างโมเดลขึ้นมาโดยรอบโมเดลนั้น” Brockman กล่าวในการสนทนาทางวิดีโอกับ TechCrunch เมื่อวานตอนบ่าย
การขอ แบบจำลองการกระซิบคำพูดเป็นข้อความ API เป็นเวอร์ชันที่ได้รับการปรับแต่งอย่างสูงของโมเดลโอเพนซอร์สขนาดใหญ่ ใช้งานได้รวดเร็วและสะดวกยิ่งขึ้น
เพื่อเน้นย้ำวิทยานิพนธ์ของ Brockman มีอุปสรรคหลายประการในการใช้เทคโนโลยีการถอดเสียงพูดสำหรับธุรกิจ
บริษัทต่างๆ กล่าวว่าสาเหตุหลักที่พวกเขาไม่ใช้เทคโนโลยีเช่นเทคโนโลยีเป็นคำพูดคือความแม่นยำ ความท้าทายในการระบุตัวตนที่เกี่ยวข้องกับสำเนียงหรือภาษาถิ่น และค่าใช้จ่าย ตามการสำรวจของ Statista ในปี 2020
อย่างไรก็ตาม Whisper ไม่มีคำตอบทั้งหมด โดยเฉพาะอย่างยิ่งเมื่อพูดถึงการทำนาย "คำถัดไป"
การกระซิบอาจรวมคำในการถอดเสียงที่ไม่ได้พูดจริงๆ เนื่องจากระบบได้รับการฝึกฝนกับข้อมูลที่มีเสียงดังจำนวนมาก สันนิษฐานว่าเป็นเพราะมันพยายามคาดเดาคำถัดไปในเสียงและถอดเสียงการบันทึกเสียงไปพร้อมๆ กัน
นอกจากนี้ ประสิทธิภาพของ Whisper ยังไม่สอดคล้องกันข้ามขอบเขตทางภาษา มีอัตราความผิดพลาดมากกว่าเมื่อต้องรับมือกับผู้พูดภาษาที่ไม่ได้เป็นตัวแทนในชุดการฝึกอบรม
น่าเศร้าที่ข้อความหลังนี้ไม่ใช่เรื่องแปลกใหม่ในด้านการจดจำเสียง อคติได้ขัดขวางมายาวนานแม้กระทั่งระบบที่ยิ่งใหญ่ที่สุด ผลการวิจัยของมหาวิทยาลัยสแตนฟอร์ดในปี 2020 พบว่าระบบจาก Amazon, Apple, Google, IBM และ Microsoft ทำข้อผิดพลาดกับผู้ใช้ผิวขาวน้อยกว่ามาก — ประมาณ 19% — มากกว่าผู้ใช้ผิวดำ

แม้ว่าจะเป็นกรณีนี้ แต่ OpenAI ก็มองเห็นทักษะการถอดเสียงของ Whisper ที่จะนำไปใช้เพื่อปรับปรุงเครื่องมือ บริการ และผลิตภัณฑ์ที่มีอยู่แล้ว Whisper API ถูกใช้เพื่อสร้างคู่หูการพูดเสมือนในแอปตัวใหม่โดยแอปเรียนภาษาที่ขับเคลื่อนด้วย AI Speak
สำหรับธุรกิจที่ได้รับการสนับสนุนจาก Microsoft อย่าง OpenAI การเข้าสู่ภาคเสียงพูดเป็นข้อความอย่างมีนัยสำคัญอาจสร้างผลกำไรได้สูง ตลาดอาจเพิ่มขึ้นจาก 2.2 พันล้านดอลลาร์ในปี 2021 เป็น 5.4 พันล้านดอลลาร์ภายในปี 2026 ตามการวิจัยชิ้นหนึ่ง
บร็อคแมนกล่าวว่าอุดมคติของเราคือการเป็นผู้มีสติปัญญารอบรู้ทุกสิ่ง เราต้องการเป็นตัวทวีคูณสำหรับความสนใจนั้นโดยมีความยืดหยุ่นในการรับข้อมูลทุกประเภทที่คุณมีและงานประเภทใดก็ได้ที่คุณต้องการทำ
