MADRI 22 abr. (Portaltic/EP) -
A Microsoft compartilhou um novo modelo de linguagem grande (LLM) da família BitNet projetado com uma arquitetura nativa de 1 bit, o que permite que eles sejam pequenos, mas tenham desempenho semelhante aos modelos de tamanho normal.
O BitNet b1.58 2B4T é um modelo aberto projetado com uma arquitetura nativa de 1 bit, o que significa que, ao armazenar informações, ele trabalha com os valores -1, 0, +1, "uma forma extrema, mas promissora, de quantização de modelos", conforme apontaram os pesquisadores da Microsoft Research.
Com essa arquitetura, que é limitada a três valores, ele ocupa menos espaço na memória para as informações, que são processadas rapidamente, exigindo menos energia para isso.
É "uma solução atraente para os desafios de eficiência" porque "ao reduzir drasticamente a memória necessária para armazenar pesos e permitir cálculos bit a bit altamente eficientes, ela tem o potencial de reduzir significativamente os custos de implementação, reduzir o consumo de energia e acelerar as velocidades de inferência", explicam os pesquisadores no texto da pesquisa.
Esse modelo foi treinado em uma escala de 2 bilhões de parâmetros, com 4 trilhões de tokens, e tem 400 MB de tamanho, o que o torna um modelo pequeno, mas mostra "desempenho comparável aos principais modelos de peso aberto de tamanho semelhante e precisão geral em uma ampla gama de tarefas". Ele está disponível na Hugging Face.
Esta notícia foi traduzida por um tradutor automático