A Mistral lança o Voxtral, seu primeiro modelo de fala aberta capaz de transcrever com precisão áudios de até 30 minutos de duração.

Ondas de fala com inteligência artificial.

UNSPLASH

MADRI 16 jul. (Portaltic/EP) -

A Mistral lançou seu primeiro modelo de fala aberta, o Voxtral, com recursos para transcrever áudios de até 30 minutos ou até 40 minutos para compreensão, além de responder a perguntas sobre o contexto do áudio e gerar resumos estruturados.

A empresa enfatizou a importância da fala como a forma "mais natural" de interação humano-computador e compartilhou sua intenção de oferecer ferramentas de transcrição "excepcionais", conhecimento profundo e fluência multilíngue, tudo com uma implementação aberta e flexível.

Nesse sentido, a Mistral apresentou a família Voxtral de modelos de compreensão de fala, que consiste em uma versão 24B para aplicativos em escala de produção e uma variante 3B para implementações locais e de borda.

Esses modelos foram projetados com o objetivo de oferecer ferramentas de qualidade para inteligência de fala de forma aberta e gratuita, como uma alternativa às APIs "fechadas e proprietárias" oferecidas por outras empresas do setor, conforme explicou a empresa de tecnologia em um comunicado em seu site.

Assim, a Mistral assegurou que o Voxtral oferece "precisão de ponta" e capacidades de compreensão semântica nativa aberta, permitindo que ambas as versões do tamanho realizem transcrições de áudios de até 30 minutos, bem como a compreensão de áudios de até 40 minutos, com um comprimento de contexto de token de 32K.

Da mesma forma, esse modelo também é capaz de responder às perguntas dos usuários sobre o conteúdo de áudio e, ao mesmo tempo, gerar resumos estruturados "sem a necessidade de encadear modelos separados de ASR e de linguagem".

Além disso, o Voxtral é multilíngue, detectando automaticamente os idiomas usados nos áudios e é capaz de entender inglês, espanhol, francês, português, hindi, alemão, holandês e italiano, entre outros, com alto desempenho.

Por outro lado, ele também inclui recursos como a chamada de funções diretamente por voz. Isso permite a ativação direta de funções de back-end, fluxos de trabalho ou chamadas de API, com base nas intenções de voz do usuário. Em outras palavras, ele converte as interações de voz em comandos acionáveis do sistema.

Isso é aprimorado ainda mais pela alta compreensão de texto, pois mantém os recursos de seu modelo de linguagem principal, que é o Mistral Small 3.1, conforme detalhado pela empresa.

Portanto, os modelos Voxtral se tornam um serviço projetado para interações reais e ações subsequentes, como resumos, respostas, análises e recuperação de informações.

De fato, a Mistral disse que "para casos de uso com um orçamento apertado", o Voxtral Mini (3B) supera o Whisper da OpenAI quando se trata de transcrever áudio "por menos da metade do preço". Da mesma forma, para casos de uso premium, o Voxtral iguala o desempenho do ElevenLabs Scribe.

Esses modelos foram disponibilizados gratuitamente e publicados abertamente sob a licença Apache 2.0. Assim, o Voxtral pode ser acessado a partir da API Mistral e do assistente Le Chat, e a empresa em breve fornecerá "um ponto de extremidade altamente otimizado" apenas para transcrição.

Esta notícia foi traduzida por um tradutor automático

A Mistral lança o Voxtral, seu primeiro modelo de fala aberta capaz de transcrever com precisão áudios de até 30 minutos de duração.

Contenido patrocinado