Publicado 21/03/2025 10:00

OpenAI lança novos modelos para transcrição e conversão de fala

Archivo - Arquivo - FILED - 18 de abril de 2023, Berlim: Uma visão do logotipo do ChatGPT exibido na tela de um telefone celular. A organização sem fins lucrativos noyb - European Center for Digital Rights, juntamente com um cidadão europeu afetado, entro
Hannes P Albert/dpa - Arquivo

MADRI 21 mar. (Portaltic/EP) -

A OpenAI anunciou novos modelos de áudio e voz com os quais pretende aumentar os recursos de agente dos chatbots, com o objetivo de, no futuro, permitir que os desenvolvedores "incorporem suas próprias vozes personalizadas".

A empresa de tecnologia revelou dois novos modelos de fala para texto que facilitam a transcrição, com base no GPT-4o e no GPT-4o mini, que melhoram a taxa de erros e o reconhecimento do idioma.

A OpenAI os compara aos modelos originais de fala para texto da Whisper. Especificamente, ela explica que o gpt-4o-transcribe melhora o desempenho da taxa de erro de palavras devido aos novos recursos aplicados ao aprendizado por reforço e ao treinamento intermediário com conjuntos de dados de áudio diversificados e de alta qualidade.

Por outro lado, a OpenAI anunciou um modelo que realiza a ação inversa: converter texto em fala. Nesse caso, o modelo gpt-4o-mini-tts permite experiências mais personalizadas, já que "os desenvolvedores podem dizer ao modelo não apenas o que dizer, mas também como dizer", conforme declarado no blog oficial.

No futuro, a OpenAI planeja aprimorar a "inteligência e a precisão" dos modelos de áudio para que os desenvolvedores possam "incorporar suas próprias vozes personalizadas".

Esta notícia foi traduzida por um tradutor automático

Contenido patrocinado