OpenAI ogłosiło Whisper API, hostowaną wersję modelu zamiany mowy na tekst Whisper o otwartym kodzie źródłowym, który firma opublikowała we wrześniu, zbiegając się z debiutem API ChatGPT.
Whisper to system sztucznego rozpoznawania głosu, który według OpenAI zapewnia „solidną” transkrypcję w kilku językach i tłumaczenie z tych języków na angielski, kosztując 0.006 dolara za minutę. M4A, MP3, MP4, MPEG, MPGA, WAV i WEBM to tylko kilka akceptowanych typów plików.
Kilka firm opracowało systemy rozpoznawania mowy, które stanowią rdzeń oprogramowania i usług oferowanych przez cyfrowe giganty, takie jak Google, Amazon i Meta.
Według prezesa i przewodniczącego OpenAI, Grega Brockmana, poszczególne akcenty, hałasy w tle i żargon techniczny można teraz dokładniej rozpoznać dzięki szkoleniu Whisper na 680,000 XNUMX godzinach wielojęzycznych i „wielozadaniowych” danych online.
"Opracowaliśmy model, ale nie był on na tyle duży, aby skłonić całą społeczność programistów do zbudowania wokół niego czegoś nowego„– powiedział Brockman wczoraj po południu w rozmowie wideo z TechCrunch.
Model szeptanej mowy na tekst API to wysoce zoptymalizowana wersja rozbudowanego modelu open source. Jest szybsze i wygodniejsze w użyciu.
Aby podkreślić tezę Brockmana, istnieje kilka przeszkód dla przedsiębiorstw wdrażających technologię transkrypcji mowy.
Według sondażu Statista 2020 firmy twierdzą, że głównymi powodami, dla których nie korzystają z technologii takich jak zamiana mowy na mowę, są dokładność, wyzwania związane z identyfikacją związaną z akcentem lub dialektem oraz koszty.
Szept nie zna jednak odpowiedzi na wszystkie pytania, szczególnie jeśli chodzi o przewidywanie „następnego słowa”.
Whisper może zawierać w swoich transkrypcjach słowa, które w rzeczywistości nie zostały wypowiedziane, ponieważ system został przeszkolony na dużej liczbie zaszumionych danych, prawdopodobnie dlatego, że jednocześnie próbuje przewidzieć następne słowo w dźwięku i dokonać transkrypcji nagrania audio.
Co więcej, występ Whispera nie jest spójny ponad granicami językowymi; ma większy wskaźnik błędów w przypadku osób posługujących się językami, które nie są dobrze reprezentowane w zestawie treningowym.
Niestety to ostatnie stwierdzenie nie jest nowością w dziedzinie rozpoznawania głosu. Uprzedzenia od dawna utrudniają nawet największe systemy; badanie Stanforda przeprowadzone w 2020 r. wykazało, że systemy firm Amazon, Apple, Google, IBM i Microsoft popełniały znacznie mniej błędów – około 19% – w przypadku białych użytkowników niż w przypadku czarnych użytkowników.

Chociaż tak jest, OpenAI przewiduje, że umiejętności Whispera w zakresie transkrypcji zostaną zastosowane w celu ulepszenia już istniejących narzędzi, usług i produktów. Interfejs API Whisper jest już używany do stworzenia nowego, wirtualnego towarzysza do mówienia w aplikacji, opartego na sztucznej inteligencji, aplikacji do nauki języków Speak.
Dla wspieranej przez Microsoft firmy OpenAI znaczące wejście w sektor zamiany mowy na tekst może być bardzo opłacalne. Według jednego z badań, rynek ten może wzrosnąć z 2.2 miliarda dolarów w 2021 roku do 5.4 miliarda dolarów w 2026 roku.
Według Brockmana naszym ideałem jest stać się wszechwiedzącym intelektem. Chcemy pomnożyć tę uwagę, zapewniając elastyczność w zakresie przyjmowania dowolnych danych i każdego rodzaju pracy, którą chcesz wykonać.
