Whisper API: Terobosan Speech-to-Text Terbaru OpenAI

Whisper API: Terobosan Speech-to-Text Terbaru OpenAI

OpenAI mengumumkan Whisper API, versi host dari model ucapan-ke-teks Whisper sumber terbuka yang diterbitkan oleh bisnis tersebut pada bulan September, bertepatan dengan debut ChatGPT API.

Whisper adalah sistem pengenalan suara buatan yang menurut OpenAI menyediakan transkripsi “kuat” dalam beberapa bahasa dan terjemahan dari bahasa tersebut ke dalam bahasa Inggris, dengan biaya $0.006 per menit. M4A, MP3, MP4, MPEG, MPGA, WAV, dan WEBM hanyalah beberapa jenis file yang diterimanya.

Beberapa perusahaan telah mengembangkan sistem pengenalan suara, yang merupakan inti dari perangkat lunak dan layanan yang ditawarkan oleh raksasa digital seperti Google, Amazon, dan Meta.

Menurut presiden dan ketua OpenAI Greg Brockman, aksen individu, kebisingan latar belakang, dan jargon teknis kini dapat dikenali dengan lebih akurat berkat pelatihan Whisper tentang 680,000 jam data online multibahasa dan “multitask”.

“Kami mengembangkan sebuah model, tapi sebenarnya itu tidak cukup untuk membuat seluruh komunitas pengembang membangun model tersebut,” kata Brockman dalam percakapan video dengan TechCrunch kemarin sore.

Whisper API adalah versi yang sangat optimal dari model besar yang sama yang tersedia sebagai sumber terbuka. Ini sangat berguna dan jauh lebih cepat.

Untuk menekankan tesis Brockman, ada beberapa kendala bagi bisnis yang menerapkan teknologi transkripsi ucapan.

Perusahaan mengatakan alasan utama mereka belum menggunakan teknologi seperti tech-to-speech adalah akurasi, tantangan identifikasi terkait aksen atau dialek, dan biaya, menurut jajak pendapat Statista tahun 2020.

Namun, Whisper tidak memiliki semua jawaban, terutama dalam hal prediksi “kata berikutnya”. 

Whisper mungkin menyertakan kata-kata dalam transkripsinya yang tidak benar-benar diucapkan karena sistem dilatih pada banyak data yang berisik, mungkin karena sistem secara bersamaan mencoba mengantisipasi kata berikutnya dalam audio dan menyalin rekaman audio.

Selain itu, kinerja Whisper tidak konsisten melintasi batas-batas linguistik; tingkat kesalahannya lebih besar ketika berhadapan dengan penutur bahasa yang tidak terwakili dengan baik dalam rangkaian pelatihan.

Sayangnya, pernyataan terakhir ini bukanlah hal baru di bidang pengenalan suara. Bias telah lama menghambat sistem yang paling hebat sekalipun; penelitian Stanford pada tahun 2020 menemukan bahwa sistem dari Amazon, Apple, Google, IBM, dan Microsoft membuat kesalahan yang jauh lebih sedikit — sekitar 19% — pada pengguna kulit putih dibandingkan dengan pengguna kulit hitam.

Meskipun demikian, OpenAI membayangkan keterampilan transkripsi Whisper diterapkan untuk menyempurnakan alat, layanan, dan produk yang sudah ada. Whisper API sudah digunakan untuk membuat pendamping berbicara virtual baru dalam aplikasi oleh aplikasi belajar bahasa yang didukung AI, Speak.

Bagi bisnis yang didukung Microsoft, OpenAI, masuknya secara signifikan ke dalam sektor ucapan-ke-teks mungkin akan sangat menguntungkan. Pasar mungkin meningkat dari $2.2 miliar pada tahun 2021 menjadi $5.4 miliar pada tahun 2026, menurut sebuah penelitian.

Cita-cita kita, menurut Brockman, adalah menjadi intelek yang maha tahu. Kami ingin menjadi pengganda kekuatan untuk perhatian tersebut dengan memiliki fleksibilitas untuk menerima segala jenis data yang Anda miliki dan segala jenis pekerjaan yang ingin Anda lakukan.

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Bidang yang harus diisi ditandai *