Uma parceria com a OpenAI permitirá que podcasters repliquem suas vozes para criar automaticamente versões de seus programas em idiomas estrangeiros
E se os produtores de podcasts pudessem simplesmente pressionar um botão e imediatamente comunicar em outro idioma? Essa é a ideia por trás do novo recurso de tradução de voz com tecnologia de IA do Spotify, que permite a reprodução de podcasts em diferentes idiomas usando a voz original do apresentador.
O Spotify estabeleceu parcerias com diversos produtores de podcasts para traduzir seus episódios em inglês para espanhol utilizando essa inovadora ferramenta, e planeja lançar traduções para francês e alemão nas próximas semanas. Entre os primeiros episódios traduzidos, estão alguns de grandes nomes como Dax Shepard, Monica Padman, Lex Fridman, Bill Simmons e Steven Bartlett. A plataforma pretende expandir essa iniciativa para incluir “The Rewatchables” do The Ringer e o próximo programa de Trevor Noah.
A base desse recurso de tradução é a tecnologia de transcrição de voz Whisper da OpenAI, que é capaz de transcrever o discurso em inglês e traduzi-lo para outros idiomas. No entanto, o Spotify vai além da mera tradução de voz para texto; ele traduzirá o podcast para outro idioma e o apresentará em uma versão sintetizada da voz original do produtor.
“Combinando a voz do criador com a Voice Translation, estamos oferecendo aos ouvintes de todo o mundo a oportunidade de descobrir e se inspirar em novos produtores de podcasts de uma maneira mais autêntica do que nunca”, declarou Ziad Sultan, vice-presidente de personalização do Spotify.
É provável que a OpenAI também esteja envolvida na parte de replicação de voz desse novo recurso. A empresa de IA anunciou recentemente o lançamento de uma ferramenta capaz de criar “áudio semelhante ao humano a partir de apenas texto e alguns segundos de amostra de fala”. No entanto, a OpenAI está limitando deliberadamente a disponibilidade desta ferramenta devido a preocupações com segurança e privacidade.
Por isso, o Spotify está testando a tecnologia de tradução apenas com um “grupo seleto” de produtores de podcasts por enquanto, sem detalhar completamente seus planos de disponibilidade futura e expansão.