Publicado 15/09/2025 06:58

A nova tecnologia de "cascatas especulativas" do Google consegue uma inferência LLM mais inteligente e mais rápida

Archivo - Arquivo - A nova família de modelos de IA do Google, Gemma.
GOOGLE - Arquivo

MADRI 15 set. (Portaltic/EP) -

O Google apresentou uma nova tecnologia de "cascatas especulativas", que melhora a eficiência computacional e o custo de modelos de linguagem de grande porte (LLM), como o Gemma, para obter uma inferência mais inteligente e rápida sem perder a qualidade, combinando sistemas de decodificação especulativa com cascatas padrão.

Os LLMs têm altos recursos de Inteligência Artificial (IA) para potencializar tudo, desde funções de pesquisa avançada até assistentes de programação criativos. No entanto, essas ações exigem um alto nível de inferência, ou seja, o processo que o modelo executa para gerar uma resposta.

Dependendo da tarefa que o modelo LLM tiver que realizar, o processo pode ser lento e "computacionalmente caro", algo que é exacerbado à medida que esses modelos são implementados para mais usuários, conforme apontado pelo Google. Portanto, a empresa colocou na mesa a necessidade de obter um "LLM mais rápido e mais barato sem sacrificar a qualidade".

Para isso, desenvolveu uma nova tecnologia denominada "cascata especulativa", que combina sistemas em cascata padrão e codificação especulativa em modelos para obter uma inferência mais inteligente e rápida em LLMs como o Gemma, sem perder a qualidade.

Especificamente, o Google explicou em uma declaração em seu site de pesquisa, as cascatas são um sistema projetado para otimizar a eficiência dos LLMs usando estrategicamente modelos menores e mais rápidos, dependendo da tarefa.

Usando uma "regra de adiamento", as cascatas apresentam uma abordagem na qual o modelo menor decide se pode processar uma consulta ou se é necessário transferir a tarefa para um modelo maior e, portanto, mais caro, mas ainda capaz de executar a tarefa em questão.

Assim, o objetivo é que os modelos pequenos e rápidos processem o maior número de tarefas de que são capazes, de modo que o façam de forma mais econômica e em menos tempo. Enquanto isso, o alto custo do LLM grande é deixado "apenas para tarefas complexas que realmente exigem seus recursos avançados". Isso permite uma alocação eficiente de recursos e prioriza a redução dos custos computacionais, de acordo com a empresa de tecnologia.

A decodificação especulativa, por sua vez, é um sistema que usa um modelo de rascunho menor e mais rápido para prever "uma sequência de tokens futuros", que são verificados em relação ao modelo "alvo" maior.

Se o modelo maior aceita o rascunho, ele gera vários tokens em uma única etapa, acelerando o processo e "garantindo que o resultado seja idêntico ao que o modelo maior teria produzido sozinho", conforme explicou a empresa. Como resultado, a latência é reduzida e a velocidade é aumentada.

Com tudo isso em mente, a nova abordagem de "cascatas especulativas" do Google combina o melhor dos dois sistemas e, ao fazê-lo, consegue fornecer "resultados LLM de maior qualidade a um custo computacional menor" em comparação com o uso dessas técnicas separadamente.

A empresa de tecnologia testou essa nova técnica usando os modelos Gemma e T5 em várias tarefas de linguagem, como resumos, traduções, raciocínio, codificação e respostas a perguntas. Como resultado, o Google garantiu que os resultados oferecidos alcançam "um melhor equilíbrio entre custo e qualidade", pois geram maior aceleração e melhores métricas de qualidade "em comparação com as linhas de base".

A diferença se baseia, em parte, no fato de que a cascata especulativa suporta o uso de respostas úteis dos modelos pequenos, mesmo que os tokens não correspondam aos tokens do modelo grande quando se trata de decodificação especulativa.

Ao repensar a interação entre cascatas e decodificação especulativa, as cascatas especulativas "oferecem uma ferramenta mais poderosa e flexível para os desenvolvedores", disse o Google, observando que essa abordagem híbrida "permite o controle preciso do equilíbrio entre custo e qualidade, abrindo caminho para aplicativos mais inteligentes e rápidos".

Esta notícia foi traduzida por um tradutor automático

Contenido patrocinado