Conjunto de tecnologia TTS da Microsoft para transformar experiências de áudio

Conjunto de tecnologia TTS da Microsoft para transformar experiências de áudio

Em vários campos, incluindo saúde e educação, a IA de conversão de texto em fala (TTS) tornou as operações mais fáceis e possibilitou a realização de multitarefas, seja em casa ou no trabalho.

Imagine bots de fala avaliando pacientes com COVID-19, com contato pessoal mínimo, e aliviando a carga de trabalho dos médicos. Mas considere também os casos em que é um facilitador, como quando ajuda pessoas com deficiência ou facilita a leitura.

O melhor exemplo é ninguém menos que Stephen Hawking, que usou software de computador para reproduzir gravações de voz sintetizadas. Graças a isso, muitas pessoas podem agora ouvir a voz do falecido físico.

A tecnologia assistiva conhecida como TTS lê o texto na tela do usuário em voz alta em um computador ou tablet. Como resultado, este gadget é muito apreciado por crianças com dificuldades de leitura, especialmente aquelas que têm dificuldade de decodificação.

O TTS pode converter texto em som com um computador ou outro dispositivo digital. As crianças que têm dificuldade de leitura podem se beneficiar muito com o TTS, que também pode ajudá-las a escrever, editar e até mesmo prestar atenção.

Permite que todo conteúdo digital, independente do tipo, tenha voz (aplicativos, sites, e-books, documentos online). Além disso, os sistemas TTS oferecem uma maneira fácil de ler texto em desktops e dispositivos móveis.

Por proporcionarem aos leitores um alto nível de conveniência tanto para fins pessoais quanto comerciais, essas soluções estão se tornando cada vez mais populares. A Microsoft criou recentemente uma abordagem TTS totalmente nova.

O modelo de linguagem do codec neural VALL-E foi criado pela Microsoft. Antes de fazer ondas que imitam o orador, preservando o timbre e o tom emocional do orador, a IA simboliza a fala.

O relatório do estudo afirma que o VALL-E é capaz de produzir fala personalizada e de alta qualidade usando apenas uma gravação registrada de três segundos de um alto-falante oblíquo como estímulo de áudio.

O método produz os efeitos necessários sem a necessidade de trabalhos estruturais adicionais, componentes acústicos pré-planejados ou ajustes finos. Para técnicas TTS de disparo zero que dependem de instruções e aprendizado contextual, é benéfico.

Técnicas TTS ponta a ponta ou em cascata são as duas categorias que existem agora. Os sistemas TTS em cascata foram criados em 2018 por pesquisadores do Google e da Universidade da Califórnia, Berkeley. Esses sistemas normalmente usam uma tubulação que inclui um modelo acústico.

Pesquisadores da Coreia e da Microsoft Research Asia apresentaram um modelo TTS ponta a ponta em 2021 para melhorar simultaneamente o modelo acústico e o vocoder, a fim de resolver as desvantagens do vocoder.

No uso real, é preferível adotar um sistema TTS para qualquer voz, recrutando gravações incomuns.

Como resultado, as soluções TTS com múltiplos alto-falantes zero-shot estão se tornando mais populares, com a maioria das pesquisas concentrando-se em sistemas TTS em cascata.

Posteriormente, foi demonstrado que o modelo é capaz de produzir resultados de alta qualidade para falantes no domínio usando apenas três segundos de gravações registradas pelos testes dos pesquisadores do Google em 2019.

A qualidade dos alto-falantes invisíveis também foi melhorada por pesquisadores chineses em 2018, utilizando modelos sofisticados de incorporação de alto-falantes, embora ainda haja espaço para melhorias.

Além disso, o VALL-E mantém o legado do TTS em cascata, mas usa código de codec de áudio como representações intermediárias, em contraste com pesquisas anteriores de acadêmicos chineses da Universidade de Zhejiang.

Sem exigir ajustes finos, recursos pré-projetados ou um codificador de alto-falante sofisticado, ele é o primeiro a ter fortes recursos de aprendizagem no contexto, como o GPT-3.

Como isso funciona?

VALL-E fornece exemplos de áudio do modelo de IA em uso. Um dos exemplos exige que o VALL-E duplique o “Speaker Prompt”, uma indicação auditiva de três segundos. O primeiro exemplo, “Baseline”, representa a síntese tradicional de conversão de texto em fala, e a segunda amostra, “VALL-E”, é o resultado do modelo.

Os resultados das avaliações mostram que o VALL-E funciona melhor no LibriSpeech e no VCTK do que no mais sofisticado sistema TTS de disparo zero. Além disso, usando VCTK e LibriSpeech, o VALL-E ainda produziu resultados TTS de ponta zero.

Desafios

Os pesquisadores afirmam que embora o VALL-E tenha feito grandes progressos, ainda apresenta os seguintes problemas:

  • Os autores do estudo apontam que a síntese de voz ocasionalmente gera palavras confusas, faltantes ou redundantes. A principal causa é que os alinhamentos de atenção estão desordenados, uma vez que a seção fonema-linguagem acústica é um modelo autorregressivo, o que significa que não há restrições na resolução do problema.
  • Mesmo 60,000 horas de dados de treinamento não podem dar conta de todas as vozes concebíveis. Isto é especialmente verdadeiro para alto-falantes com sotaque. Como o LibriLight é um conjunto de dados de audiolivros, a maioria das palavras faladas tem sotaque de leitura. Portanto, a variedade de modos de falar precisa ser ampliada.
  • Para prever códigos para vários quantizadores, os pesquisadores empregam agora dois modelos. Um próximo passo promissor é prevê-los usando um modelo universal amplo.
  • Devido à capacidade do VALL E de sintetizar a fala enquanto mantém a identidade do locutor, existem riscos potenciais no uso indevido do modelo. Esses riscos incluem casos como falsificação ou falsificação de identidade de voz.

Conclusão

Nos últimos anos, a síntese de fala foi aprimorada por meio de redes neurais e modelagem ponta a ponta. Vocoders e modelos acústicos são agora usados ​​em sistemas de conversão de texto em fala (TTS) em cascata, com espectrogramas atuando como representações intermediárias.

Um único alto-falante ou um painel de alto-falantes pode fornecer fala de alta qualidade usando sistemas TTS modernos.

Além disso, a tecnologia TTS foi incluída em uma variedade de software e hardware, incluindo sistemas de e-learning e assistentes virtuais como Alexa da Amazon e Google Assistant.

Além disso, é usado em marketing, atendimento ao cliente e publicidade para energizar e personalizar relacionamentos.

Deixe um comentário

O seu endereço de e-mail não será publicado. Os campos obrigatórios são marcados com *