Publicado 21/04/2026 12:25

As vozes clonadas pela IA são mais fáceis de entender do que as vozes humanas

MADRID 21 abr. (EUROPA PRESS) -

As vozes clonadas são mais fáceis de entender do que as humanas em ambientes ruidosos, de acordo com um estudo realizado por dois pesquisadores do University College London e da Universidade de Roehampton, ambas no Reino Unido. Conforme publicado na revista 'JASA', editada pela AIP Publishing em nome da Acoustical Society of America, os pesquisadores avaliaram a inteligibilidade da voz humana e das vozes clonadas, chegando a esse resultado surpreendente.

Cada vez mais, as vozes sintéticas fazem parte do nosso dia a dia. Desde assistentes digitais como a Siri e a Alexa até operadores de call center automatizados e secretárias eletrônicas. Com a expansão da IA generativa, desenvolveu-se um novo tipo de voz sintética: os clones de voz, capazes de recriar uma réplica exata da voz de uma pessoa a partir de apenas alguns segundos de gravação.

As vozes clonadas diferem das vozes sintéticas tradicionais na quantidade de amostras que requerem. Vozes sintéticas como a Siri exigem que um dublador passe horas em uma cabine de gravação. Em contrapartida, uma voz clonada pode ser criada com apenas 10 segundos de fala, o que amplia significativamente o número de vozes potenciais, bem como o número de aplicações possíveis.

Os pesquisadores Patti Adank e Han Wang, especializados no estudo da percepção humana da fala pouco clara, ficaram fascinados com a ideia da voz replicada por máquinas. Uma questão fundamental que buscavam responder era quão fácil é para a pessoa comum compreender os clones de voz.

Eles suspeitavam que esses clones seriam simplesmente representações deficientes de vozes humanas reais e que as pessoas teriam dificuldade em entendê-los. No entanto, o que descobriram foi completamente diferente.

“No início, pensei que as vozes clonadas seriam menos inteligíveis por serem desconhecidas”, reflete Adank. “Descobri que elas eram até 20% mais inteligíveis, o que foi bastante surpreendente. Uma pequena parte do nosso artigo trata desse experimento, e a maior parte consiste em que meu colaborador e eu tentamos desesperadamente descobrir o que faz com que essas vozes clonadas sejam mais inteligíveis”.

Inicialmente, a dupla apresentou a voluntários vozes humanas e vozes clonadas, pedindo que classificassem sua inteligibilidade. Depois de constatar que as vozes clonadas eram consistentemente consideradas mais fáceis de entender, eles repetiram o experimento com voluntários idosos para determinar se a perda auditiva alterava o efeito; com voluntários americanos (o grupo original era britânico) para avaliar se o sotaque influenciava; e com um filtro projetado para imitar implantes cocleares. Em todos os casos, as vozes clonadas se mostraram superiores.

Após examinar mais de 100 medições acústicas, Adank acredita que a única maneira de resolver o mistério é trabalhar com colaboradores especializados em sistemas de conversão de texto em voz para adaptar um sistema de clonagem de código aberto já existente.

“Agora vamos tentar recriar [o efeito] estudando como os sintetizadores funcionam e como utilizam o processamento digital de sinais para gerar essas vozes, simplesmente para compreender melhor esse processo”, conclui Adank.

Esta notícia foi traduzida por um tradutor automático

Contador

Contenido patrocinado