MADRID 21 abr. (EUROPA PRESS) -
As vozes clonadas são mais fáceis de entender do que as humanas em ambientes ruidosos, de acordo com um estudo realizado por dois pesquisadores do University College London e da Universidade de Roehampton, ambas no Reino Unido. Conforme publicado na revista 'JASA', editada pela AIP Publishing em nome da Acoustical Society of America, os pesquisadores avaliaram a inteligibilidade da voz humana e das vozes clonadas, chegando a esse resultado surpreendente.
Cada vez mais, as vozes sintéticas fazem parte do nosso dia a dia. Desde assistentes digitais como a Siri e a Alexa até operadores de call center automatizados e secretárias eletrônicas. Com a expansão da IA generativa, desenvolveu-se um novo tipo de voz sintética: os clones de voz, capazes de recriar uma réplica exata da voz de uma pessoa a partir de apenas alguns segundos de gravação.
As vozes clonadas diferem das vozes sintéticas tradicionais na quantidade de amostras que requerem. Vozes sintéticas como a Siri exigem que um dublador passe horas em uma cabine de gravação. Em contrapartida, uma voz clonada pode ser criada com apenas 10 segundos de fala, o que amplia significativamente o número de vozes potenciais, bem como o número de aplicações possíveis.
Os pesquisadores Patti Adank e Han Wang, especializados no estudo da percepção humana da fala pouco clara, ficaram fascinados com a ideia da voz replicada por máquinas. Uma questão fundamental que buscavam responder era quão fácil é para a pessoa comum compreender os clones de voz.
Eles suspeitavam que esses clones seriam simplesmente representações deficientes de vozes humanas reais e que as pessoas teriam dificuldade em entendê-los. No entanto, o que descobriram foi completamente diferente.
“No início, pensei que as vozes clonadas seriam menos inteligíveis por serem desconhecidas”, reflete Adank. “Descobri que elas eram até 20% mais inteligíveis, o que foi bastante surpreendente. Uma pequena parte do nosso artigo trata desse experimento, e a maior parte consiste em que meu colaborador e eu tentamos desesperadamente descobrir o que faz com que essas vozes clonadas sejam mais inteligíveis”.
Inicialmente, a dupla apresentou a voluntários vozes humanas e vozes clonadas, pedindo que classificassem sua inteligibilidade. Depois de constatar que as vozes clonadas eram consistentemente consideradas mais fáceis de entender, eles repetiram o experimento com voluntários idosos para determinar se a perda auditiva alterava o efeito; com voluntários americanos (o grupo original era britânico) para avaliar se o sotaque influenciava; e com um filtro projetado para imitar implantes cocleares. Em todos os casos, as vozes clonadas se mostraram superiores.
Após examinar mais de 100 medições acústicas, Adank acredita que a única maneira de resolver o mistério é trabalhar com colaboradores especializados em sistemas de conversão de texto em voz para adaptar um sistema de clonagem de código aberto já existente.
“Agora vamos tentar recriar [o efeito] estudando como os sintetizadores funcionam e como utilizam o processamento digital de sinais para gerar essas vozes, simplesmente para compreender melhor esse processo”, conclui Adank.
Esta notícia foi traduzida por um tradutor automático