Teknologi TTS Microsoft Ditetapkan untuk Mengubah Pengalaman Audio

Teknologi TTS Microsoft Ditetapkan untuk Mengubah Pengalaman Audio

Di beberapa bidang, termasuk layanan kesehatan dan pendidikan, AI text-to-speech (TTS) telah mempermudah pengoperasian dan memungkinkan melakukan banyak tugas, baik di rumah atau di tempat kerja.

Bayangkan bot ucapan menilai pasien COVID-19, dengan kontak langsung yang minimal, dan meringankan beban kerja dokter. Namun pertimbangkan juga kejadian-kejadian di mana hal ini dapat menjadi faktor pendukung, misalnya ketika hal ini membantu penyandang disabilitas atau membuat kegiatan membaca menjadi lebih mudah.

Contoh terbaiknya tidak lain adalah Stephen Hawking, yang menggunakan perangkat lunak komputer untuk memutar rekaman suara yang disintesis. Berkat ini, banyak orang sekarang dapat mendengarkan suara mendiang fisikawan tersebut.

Teknologi bantu yang dikenal sebagai TTS membacakan teks di layar pengguna dengan lantang di komputer atau tablet. Alhasil, gadget ini banyak disukai oleh anak-anak yang kesulitan membaca, terutama yang kesulitan decoding.

TTS dapat mengubah teks menjadi suara dengan komputer atau perangkat digital lainnya. Anak-anak yang kesulitan membaca dapat memperoleh manfaat besar dari TTS, yang juga dapat membantu mereka dalam menulis, mengedit, dan bahkan memperhatikan.

Hal ini memungkinkan setiap konten digital, apa pun jenisnya, memiliki suara (aplikasi, situs web, eBook, dokumen online). Selain itu, sistem TTS menawarkan cara yang lancar untuk membaca teks dari desktop dan perangkat seluler.

Karena memberikan kenyamanan tingkat tinggi bagi pembaca untuk keperluan pribadi dan bisnis, solusi ini menjadi semakin populer. Microsoft baru-baru ini menciptakan pendekatan TTS baru.

Model bahasa codec saraf VALL-E dibuat oleh Microsoft. Sebelum membuat gelombang yang meniru pembicara sambil mempertahankan timbre dan nada emosional pembicara, AI memberi token pada ucapannya.

Laporan penelitian menegaskan bahwa VALL-E mampu menghasilkan ucapan yang dipersonalisasi dan berkualitas tinggi hanya dengan menggunakan rekaman terdaftar selama tiga detik dari speaker miring sebagai rangsangan audio.

Metode ini menghasilkan efek yang diperlukan tanpa memerlukan pekerjaan struktural tambahan, komponen akustik yang telah direncanakan sebelumnya, atau penyempurnaan. Untuk teknik TTS zero-shot yang bergantung pada petunjuk dan pembelajaran kontekstual, ini bermanfaat.

Teknik TTS end-to-end atau cascaded adalah dua kategori yang ada saat ini. Sistem TTS bertingkat dibuat pada tahun 2018 oleh peneliti Google dan Universitas California, Berkeley. Sistem ini biasanya menggunakan saluran pipa yang mencakup model akustik.

Peneliti dari Korea dan Microsoft Research Asia mempresentasikan model TTS end-to-end pada tahun 2021 untuk secara bersamaan meningkatkan model akustik dan vocoder guna mengatasi kelemahan vocoder.

Dalam penggunaan sebenarnya, lebih disukai untuk mengadopsi sistem TTS pada suara apa pun dengan memasukkan rekaman yang tidak biasa.

Hasilnya, solusi TTS multi-speaker zero-shot menjadi lebih populer, dengan sebagian besar penelitian terkonsentrasi pada sistem TTS berjenjang.

Model tersebut kemudian terbukti mampu menghasilkan keluaran berkualitas tinggi untuk speaker dalam domain hanya dengan menggunakan rekaman terdaftar selama tiga detik berdasarkan pengujian yang dilakukan peneliti Google pada tahun 2019.

Kualitas speaker tak kasat mata juga ditingkatkan oleh peneliti Tiongkok pada tahun 2018 dengan menggunakan model penyematan speaker yang canggih, namun masih ada ruang untuk perbaikan.

Selain itu, VALL-E mempertahankan warisan TTS berjenjang tetapi menggunakan kode codec audio sebagai representasi perantara berbeda dengan penelitian sebelumnya dari akademisi Tiongkok di Universitas Zhejiang.

Tanpa memerlukan penyempurnaan, fitur yang telah dirancang sebelumnya, atau encoder speaker yang canggih, ini adalah yang pertama yang memiliki kemampuan pembelajaran dalam konteks yang kuat seperti GPT-3.

Bagaimana cara kerjanya?

VALL-E memberikan contoh audio model AI yang digunakan. Salah satu contohnya mengharuskan VALL-E untuk menduplikasi “Speaker Prompt”, sebuah indikasi pendengaran tiga detik. Contoh pertama, “Baseline,” mewakili sintesis text-to-speech tradisional, dan sampel kedua, “VALL-E,” adalah keluaran model.

Temuan evaluasi menunjukkan bahwa VALL-E bekerja lebih baik pada LibriSpeech dan VCTK dibandingkan sistem TTS zero-shot yang paling canggih. Selain itu, dengan menggunakan VCTK dan LibriSpeech, VALL-E bahkan menghasilkan hasil TTS zero-shot yang mutakhir.

Tantangan

Para peneliti mengklaim bahwa meskipun VALL-E telah membuat kemajuan besar, masih terdapat permasalahan berikut:

  • Penulis studi tersebut menunjukkan bahwa sintesis suara terkadang menghasilkan kata-kata yang membingungkan, hilang, atau berlebihan. Penyebab utamanya adalah keselarasan perhatian yang tidak teratur karena bagian bahasa fonem-ke-akustik merupakan model autoregresif, yang berarti tidak ada kendala dalam menyelesaikan masalah tersebut.
  • Bahkan 60,000 jam data pelatihan tidak dapat menjelaskan setiap suara yang mungkin ada. Hal ini terutama berlaku untuk pembicara dengan aksen. Karena LibriLight adalah kumpulan data buku audio, sebagian besar kata yang diucapkan memiliki aksen gaya membaca. Jadi, ragam mode berbicaranya perlu diperluas.
  • Untuk memperkirakan kode berbagai kuantiser, para peneliti kini menggunakan dua model. Langkah selanjutnya yang menjanjikan adalah memprediksinya menggunakan model universal yang luas.
  • Karena kemampuan VALL E untuk mensintesis ucapan sambil mempertahankan identitas pembicara, terdapat potensi risiko penyalahgunaan model. Risiko ini mencakup kejadian seperti spoofing atau peniruan ID suara.

Kesimpulan

Dalam beberapa tahun terakhir, sintesis ucapan telah ditingkatkan melalui jaringan saraf dan pemodelan ujung ke ujung. Vocoder dan model akustik sekarang digunakan dalam sistem cascaded text-to-speech (TTS), dengan spektogram bertindak sebagai representasi perantara.

Seorang pembicara tunggal atau panel speaker dapat memberikan pidato berkualitas tinggi menggunakan sistem TTS modern.

Selain itu, teknologi TTS telah disertakan dalam berbagai perangkat lunak dan perangkat keras, termasuk sistem e-learning, dan asisten virtual seperti Alexa dari Amazon, dan Google Assistant.

Selain itu, ini digunakan dalam pemasaran, layanan pelanggan, dan periklanan untuk memberi energi dan mempersonalisasikan hubungan.

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Bidang yang harus diisi ditandai *