Publicado 31/03/2025 14:30

Uma mulher consegue "falar" 30 anos após um derrame, traduzindo seus pensamentos em uma voz usando um implante cerebral.

O paciente trabalha com a equipe no treinamento do algoritmo de IA.
NOAH BERGER

MADRID 31 mar. (EUROPA PRESS) -

Uma mulher que sofreu um derrame há quase 20 anos conseguiu traduzir seus pensamentos em fala em um instante graças a um implante cerebral desenvolvido por pesquisadores da Universidade da Califórnia em São Francisco e da Universidade da Califórnia em Berkeley (EUA).

Os cientistas, que publicaram a descoberta na revista Nature Neuroscience, aprimoraram o dispositivo, conhecido como interface cérebro-computador (BCI), com algoritmos de inteligência artificial (IA) que decodificavam as frases à medida que a mulher as pensava e, em seguida, as falava em voz alta usando uma voz sintética.

Assim, ao contrário das iniciativas anteriores, que só produziam sons quando o usuário terminava de pronunciar uma frase, o método atual pode detectar palavras simultaneamente e convertê-las em fala em menos de três segundos.

A participante do estudo, Ann, perdeu a capacidade de falar depois de sofrer um derrame no tronco cerebral em 2005. Cerca de 18 anos depois, ela foi submetida a uma cirurgia para colocar um retângulo fino como papel com 253 eletrodos na superfície de seu córtex cerebral. O implante pode registrar a atividade combinada de milhares de neurônios ao mesmo tempo.

Os pesquisadores personalizaram a voz sintética para que soasse como a voz de Ann antes da lesão, treinando algoritmos de inteligência artificial com gravações de seu vídeo de casamento.

"Adotamos técnicas de transdutor de streaming, semelhantes às usadas por métodos populares de ASR, como Siri ou Alexa, e as reutilizamos para síntese personalizada de cérebro para voz", disse Kaylo Littlejohn, coautor principal do estudo.

"Essa abordagem resultou em melhorias significativas na velocidade de decodificação da neuroprótese cérebro-voz em comparação com abordagens anteriores com atrasos maiores", disse Littlejohn.

No estudo, os cientistas explicam que a comunicação oral natural é instantânea e que atrasos na fala superiores a alguns segundos podem atrapalhar o fluxo natural da conversa.

"Isso torna difícil para as pessoas com paralisia participar de um diálogo significativo, o que pode levar a sentimentos de isolamento e frustração", observam.

Assim, eles projetaram e usaram modelos de transdutores de rede neural recorrente de aprendizagem profunda para obter uma síntese de fala fluente e inteligível de um grande vocabulário on-line personalizado para a voz do participante.

"Nossas descobertas introduzem um paradigma de neuroprótese de fala para restaurar a comunicação falada naturalista em pessoas com paralisia", observam os cientistas.

TREINAMENTO DA ANN

Os pesquisadores projetaram uma neuroprótese de síntese de fala que permite que Ann sintetize a fala desejada a partir de sinais neurais adquiridos de uma matriz de ECoG de 253 canais implantada na superfície de seu córtex sensório-motor e em uma pequena parte do lobo temporal.

Para treinar o sistema, eles registraram os dados neurais enquanto Ann tentava pronunciar frases simples. Foi apresentado a ela um texto em um monitor e solicitado que começasse a tentar falar silenciosamente assim que aparecesse um "GO" visual.

Além disso, a fala sintetizada foi transmitida por um alto-falante analógico próximo e o texto decodificado foi exibido no monitor. Os decodificadores neurais do sistema eram bimodais, pois foram treinados juntos não apenas para sintetizar a fala, mas também para decodificar o texto simultaneamente.

Eles também avaliaram o sistema usando um conjunto de frases de vocabulário reduzido de 50 frases e um conjunto de frases de vocabulário amplo de 1.024 palavras gerais. O conjunto de 50 frases foi projetado como um conjunto de frases predefinidas para expressar as principais necessidades dos cuidadores.

Por outro lado, o conjunto de 1.024 palavras gerais foi projetado como um conjunto de frases de vocabulário amplo contendo 12.379 frases exclusivas compostas de 1.024 palavras exclusivas extraídas da rede social X e das transcrições de filmes.

Esta notícia foi traduzida por um tradutor automático

Contenido patrocinado