A Microsoft apresenta seus novos modelos próprios de transcrição e geração de voz

Recurso do modelo de transcrição MAI-Transcribe-1

MICROSOFT

MADRID 3 abr. (Portaltic/EP) -

A Microsoft apresentou seus primeiros modelos de inteligência artificial para transcrição e geração de voz, que já estão em funcionamento em serviços próprios da empresa, como o Copilot e o Azure Speech, e fazem parte de uma estratégia que visa lançar, em 2027, os modelos de ponta mais avançados.

A empresa de tecnologia lançou, em regime de acesso antecipado ao público, seus três modelos mais recentes: o gerador de imagens MAI-Image-2, o gerador de voz MAI-Voice-1 e o novo gerador de transcrições MAI-Transcribe-1.

Enquanto o MAI-Image-2 foi apresentado em meados de março como um modelo capaz de gerar resultados fotorrealistas profissionais a partir de texto, o MAI-Transcribe-1 e o MAI-Voice-1 são a primeira geração de dois novos modelos com os quais a Microsoft pretende criar “uma plataforma integral de IA de áudio própria, projetada especificamente para desenvolvedores”.

Nesse contexto, o MAI-Transcribe-1 é um modelo de reconhecimento de voz de alta precisão, com suporte para 25 idiomas. A Microsoft destacou em seu blog sua eficiência, já que tem um custo de GPU aproximadamente 50% menor do que o das principais alternativas.

Ele foi projetado para oferecer transcrições e legendas em tempo real de eventos ao vivo, assistentes virtuais, fluxos de trabalho de centrais de atendimento, reuniões e módulos de aprendizagem, entre outros casos de uso.

Quanto ao MAI-Voice-1, a Microsoft garante que ele é “ultrarrápido”, já que pode gerar até 60 segundos de áudio em menos de um segundo utilizando uma única GPU. Atualmente, ele impulsiona experiências de voz expressivas nos recursos de áudio e podcast do Copilot.

Os três modelos já estão sendo utilizados nos serviços Microsoft Copilot, Bing, PowerPoint e Azure Speech, e podem ser encontrados no Playground e no Foundry.

Esses modelos fazem parte da estratégia de desenvolvimento próprio da Microsoft, com a qual pretende criar modelos de ponta no próximo ano para competir com empresas como a OpenAI e a Anthropic.

Conforme explicou o diretor executivo da Microsoft AI, Mustafa Suleyman, em entrevista à Bloomberg, eles pretendem alcançar “a fronteira absoluta” e, em 2027, estabeleceram a meta de “chegar realmente à tecnologia de ponta” em modelos capazes de responder ou gerar texto, imagens e áudio.

Esta notícia foi traduzida por um tradutor automático

A Microsoft apresenta seus novos modelos próprios de transcrição e geração de voz

Contenido patrocinado