Whisper API: การพัฒนาคำพูดเป็นข้อความล่าสุดของ OpenAI

Whisper API: การพัฒนาคำพูดเป็นข้อความล่าสุดของ OpenAI

OpenAI ประกาศ Whisper API ซึ่งเป็นเวอร์ชันโฮสต์ของโมเดลคำพูดเป็นข้อความ Whisper แบบโอเพ่นซอร์สที่ธุรกิจเผยแพร่ในเดือนกันยายน เพื่อให้ตรงกับการเปิดตัว ChatGPT API

Whisper เป็นระบบจดจำเสียงประดิษฐ์ที่ OpenAI กล่าวว่าให้การถอดเสียงที่ "มีประสิทธิภาพ" ในหลายภาษาและการแปลจากภาษาเหล่านั้นเป็นภาษาอังกฤษ โดยมีราคา 0.006 ดอลลาร์ต่อนาที M4A, MP3, MP4, MPEG, MPGA, WAV และ WEBM เป็นเพียงไฟล์บางประเภทที่ยอมรับ

บริษัทหลายแห่งได้พัฒนาระบบรู้จำเสียง ซึ่งเป็นหัวใจหลักของซอฟต์แวร์และบริการที่นำเสนอโดยยักษ์ใหญ่ด้านดิจิทัล เช่น Google, Amazon และ Meta

ตามที่ Greg Brockman ประธานและประธาน OpenAI กล่าว สำเนียงส่วนบุคคล เสียงพื้นหลัง และศัพท์แสงทางเทคนิคสามารถจดจำได้แม่นยำยิ่งขึ้นด้วยการฝึกอบรมของ Whisper เกี่ยวกับข้อมูลออนไลน์หลายภาษาและ "มัลติทาสก์" จำนวน 680,000 ชั่วโมง

"เราพัฒนาโมเดลขึ้นมา แต่จริงๆ แล้วโมเดลนั้นไม่เพียงพอที่จะทำให้ชุมชนนักพัฒนาทั้งหมดสร้างโมเดลขึ้นมาโดยรอบโมเดลนั้น” Brockman กล่าวในการสนทนาทางวิดีโอกับ TechCrunch เมื่อวานตอนบ่าย

การขอ แบบจำลองการกระซิบคำพูดเป็นข้อความ API เป็นเวอร์ชันที่ได้รับการปรับแต่งอย่างสูงของโมเดลโอเพนซอร์สขนาดใหญ่ ใช้งานได้รวดเร็วและสะดวกยิ่งขึ้น

เพื่อเน้นย้ำวิทยานิพนธ์ของ Brockman มีอุปสรรคหลายประการในการใช้เทคโนโลยีการถอดเสียงพูดสำหรับธุรกิจ

บริษัทต่างๆ กล่าวว่าสาเหตุหลักที่พวกเขาไม่ใช้เทคโนโลยีเช่นเทคโนโลยีเป็นคำพูดคือความแม่นยำ ความท้าทายในการระบุตัวตนที่เกี่ยวข้องกับสำเนียงหรือภาษาถิ่น และค่าใช้จ่าย ตามการสำรวจของ Statista ในปี 2020

อย่างไรก็ตาม Whisper ไม่มีคำตอบทั้งหมด โดยเฉพาะอย่างยิ่งเมื่อพูดถึงการทำนาย "คำถัดไป" 

การกระซิบอาจรวมคำในการถอดเสียงที่ไม่ได้พูดจริงๆ เนื่องจากระบบได้รับการฝึกฝนกับข้อมูลที่มีเสียงดังจำนวนมาก สันนิษฐานว่าเป็นเพราะมันพยายามคาดเดาคำถัดไปในเสียงและถอดเสียงการบันทึกเสียงไปพร้อมๆ กัน

นอกจากนี้ ประสิทธิภาพของ Whisper ยังไม่สอดคล้องกันข้ามขอบเขตทางภาษา มีอัตราความผิดพลาดมากกว่าเมื่อต้องรับมือกับผู้พูดภาษาที่ไม่ได้เป็นตัวแทนในชุดการฝึกอบรม

น่าเศร้าที่ข้อความหลังนี้ไม่ใช่เรื่องแปลกใหม่ในด้านการจดจำเสียง อคติได้ขัดขวางมายาวนานแม้กระทั่งระบบที่ยิ่งใหญ่ที่สุด ผลการวิจัยของมหาวิทยาลัยสแตนฟอร์ดในปี 2020 พบว่าระบบจาก Amazon, Apple, Google, IBM และ Microsoft ทำข้อผิดพลาดกับผู้ใช้ผิวขาวน้อยกว่ามาก — ประมาณ 19% — มากกว่าผู้ใช้ผิวดำ

แม้ว่าจะเป็นกรณีนี้ แต่ OpenAI ก็มองเห็นทักษะการถอดเสียงของ Whisper ที่จะนำไปใช้เพื่อปรับปรุงเครื่องมือ บริการ และผลิตภัณฑ์ที่มีอยู่แล้ว Whisper API ถูกใช้เพื่อสร้างคู่หูการพูดเสมือนในแอปตัวใหม่โดยแอปเรียนภาษาที่ขับเคลื่อนด้วย AI Speak

สำหรับธุรกิจที่ได้รับการสนับสนุนจาก Microsoft อย่าง OpenAI การเข้าสู่ภาคเสียงพูดเป็นข้อความอย่างมีนัยสำคัญอาจสร้างผลกำไรได้สูง ตลาดอาจเพิ่มขึ้นจาก 2.2 พันล้านดอลลาร์ในปี 2021 เป็น 5.4 พันล้านดอลลาร์ภายในปี 2026 ตามการวิจัยชิ้นหนึ่ง

บร็อคแมนกล่าวว่าอุดมคติของเราคือการเป็นผู้มีสติปัญญารอบรู้ทุกสิ่ง เราต้องการเป็นตัวทวีคูณสำหรับความสนใจนั้นโดยมีความยืดหยุ่นในการรับข้อมูลทุกประเภทที่คุณมีและงานประเภทใดก็ได้ที่คุณต้องการทำ

เขียนความเห็น

ที่อยู่อีเมลของคุณจะไม่ถูกเผยแพร่ ช่องที่ต้องการถูกทำเครื่องหมาย *