Publicado 11/03/2025 08:00

O EuroBERT é um modelo de codificador multilíngue projetado para melhorar o desempenho em todos os idiomas europeus.

O modelo EuroBERT
EUROBERT

MADRI 11 mar. (Portaltic/EP) -

A Hugging Face apresentou o EuroBERT, uma família de modelos de codificadores multilíngues de última geração projetados para melhorar o desempenho em todos os idiomas europeus e nos idiomas mais falados no mundo, que é otimizado para tarefas em nível de documento e se destaca até mesmo em raciocínio matemático.

O EuroBERT representa "um grande avanço" nesse tipo de modelo e "estabelece novos padrões de referência em várias tarefas", de acordo com a Hugging Face, que afirmou que ele pode ser usado em aplicações industriais e de pesquisa.

Essa família de modelos foi projetada para ampliar os limites de desempenho em idiomas europeus e amplamente usados em todo o mundo, bem como para melhorar o desempenho em todos os idiomas europeus e mais falados no mundo. Ela também apresenta várias inovações na arquitetura do modelo, na metodologia de treinamento e na preservação do conjunto de dados.

Ele aproveita o conhecimento moderno de modelagem generativa e oferece "desempenho de última geração", mantendo a eficiência e a robustez das arquiteturas baseadas em codificadores; e foi otimizado para tarefas em nível de documento.

Assim, ele suporta fluxos de contexto longos de até 8.192 tokens e é excelente em recuperação multilíngue, classificação, regressão e até mesmo raciocínio matemático e de código. Ele também melhora os modelos tradicionais de codificadores multilíngues, como o XLM-RoBERTa e o mGTE.

A Hugging Face também informou que o EuroBERT foi treinado em um conjunto de dados de 5 trilhões de tokens, abrangendo 15 idiomas, e incorpora atenção a consultas agrupadas e conjuntos de dados para matemática e linguagens de programação, para aprimorar os recursos de raciocínio.

Em termos de metodologia de treinamento, os desenvolvedores do modelo indicaram que ele aprende estruturas linguísticas usando um alvo de modelagem de linguagem mascarada (MLM) e aproveitando dados multilíngues de alta qualidade. Após a conclusão dessa fase, ele ajusta a combinação de dados e refina o treinamento para obter o desempenho ideal no futuro.

Como resultado, ele garante alta adaptabilidade a várias tarefas de processamento de idioma natural e "alcança resultados de última geração" em um conjunto diversificado de tarefas de processamento de idioma natural (NLP) multilíngue. Dessa forma, ele "apresenta resultados sólidos em pesquisa de código (CodeSearchNet) e raciocínio matemático (MathShepherd) e supera os modelos existentes em tarefas de classificação e pesquisa de documentos".

Deve-se observar que essa família foi desenvolvida graças à colaboração de diferentes instituições de pesquisa e parceiros industriais, como MICS, Diabolocom, Artefact e Unbabel do CentraleSupélec, além das empresas de tecnologia AMD e CINES, de acordo com a declaração.

Esta notícia foi traduzida por um tradutor automático

Contador