O Gemini 2.5 Computer Use permite que os agentes de IA interajam com interfaces gráficas de páginas da Web e aplicativos.

GOOGLE

MADRI 8 out. (Portaltic/EP) -

O Google lançou a prévia de seu novo modelo de inteligência artificial (IA) Gemini 2.5 Computer Use, projetado com recursos para navegar e interagir com páginas da Web e aplicativos "clicando", para que os agentes possam executar tarefas de forma autônoma, interagindo diretamente com o ambiente visual, como o navegador da Web.

Atualmente, a maioria dos modelos de IA pode interagir com o "software" de forma autônoma por meio de APIs estruturadas. Entretanto, o Google enfatizou que, "para muitas tarefas digitais", ainda é necessária a interação direta com interfaces gráficas de usuário (UIs). Por exemplo, ao preencher e enviar um formulário.

Para que a IA conclua essas tarefas, a empresa especificou que os agentes devem ser capazes de navegar em páginas da Web e aplicativos "como os humanos fazem". Ou seja, clicando, digitando e rolando pela interface.

Nesse sentido, com o objetivo de avançar em direção a esses recursos, o Google lançou a prévia do Gemini 2.5 Computer Use, que, com base na compreensão visual e no raciocínio do Gemini 2.5 Pro, permite que os agentes de IA interajam com as interfaces de usuário, com um alto nível de controle na Web e em dispositivos móveis.

Conforme explicado em uma publicação no blog, ao compreender e raciocinar com base no contexto visual, esse modelo pode visitar páginas da Web, percorrer a interface e pesquisar informações, além de clicar em botões, preencher e enviar formulários, arrastar e soltar itens e muito mais.

Ele é otimizado principalmente para navegadores da Web, mas também foi projetado para tarefas de controle de interface de usuário móvel. No entanto, ainda não foi otimizado para o controle no nível do sistema operacional do desktop, como o Google deixou claro.

Os principais recursos do modelo estão disponíveis por meio da nova ferramenta 'computer_use' na API Gemini e usam como entradas a solicitação de tarefa do usuário, uma captura de tela do ambiente e um histórico de ações recentes.

Em seguida, o modelo analisa essas entradas e gera uma resposta que representa uma ação da interface do usuário, como clicar ou digitar. No entanto, a resposta também pode incluir uma solicitação de confirmação do usuário para determinadas ações, como fazer compras na Web. Além disso, tudo isso é avaliado por um sistema de segurança externo.

O Google também garantiu que o Gemini 2.5 Computer Use oferece "excelente desempenho" em diferentes testes de controle na Web e em dispositivos móveis, superando as principais avaliações realizadas pela Broserbase e as avaliações da própria empresa de tecnologia. Especificamente, os testes indicam que o modelo oferece alta precisão no controle do navegador, mantendo baixa latência.

"A capacidade de preencher formulários nativamente, manipular elementos interativos, como menus suspensos e filtros, e operar após logins é uma etapa crucial no desenvolvimento de agentes poderosos e de uso geral", disse a empresa.

No entanto, a prévia do Gemini 2.5 Computer Use já está disponível para os desenvolvedores por meio do Google AI Studio e do Vertex AI. Ele também já foi usado para potencializar algumas funções de agente no Search AI Mode e no Project Mariner, a pesquisa que usa agentes de IA para executar tarefas por conta própria em um navegador.

Esta notícia foi traduzida por um tradutor automático

O Gemini 2.5 Computer Use permite que os agentes de IA interajam com interfaces gráficas de páginas da Web e aplicativos.

Contenido patrocinado