MADRID 28 jan. (Portaltic/EP) - O Google melhorou a capacidade do Gemini 3 Flash para compreender imagens com “agentic vision” (visão agênica), uma característica com a qual amplia, inspeciona e manipula imagens passo a passo antes de gerar uma resposta para o usuário.
O Gemini 3 Flash é uma versão mais rápida e de menor custo do Gemini 3, projetada para agilizar tarefas diárias e fluxos de trabalho com agentes de inteligência artificial, que o Google lançou em dezembro. A atualização deste modelo incorporou a “visão agênica” para resolver um dos problemas que os modelos têm ao analisar imagens. Em vez de processar o conteúdo de uma imagem com uma “única olhada estática”, o novo recurso permite adotar uma abordagem mais ativa para examiná-la detalhadamente.
Especificamente, e como explica o Google em um comunicado, o Gemini 3 Flash “introduz um ciclo de pensamento, ação e observação nas tarefas de compreensão de imagens”, e faz isso combinando raciocínio visual com execução de código para “fundamentar as respostas em evidências visuais”. Isso significa que o modelo estabelece um plano de várias etapas ao analisar a consulta do usuário e a imagem. Posteriormente, ele gera e executa código Python para manipular (ampliar, girar, recortar ou anotar) e analisar as imagens. Com esse processo, a IA gera uma imagem transformada com novos dados para facilitar sua compreensão e que ela inspeciona antes de gerar uma resposta.
Esta notícia foi traduzida por um tradutor automático