MADRI 12 mar. (Portaltic/EP) -
O Google DeepMind revelou dois novos modelos que levam a inteligência artificial ao mundo físico por meio da robótica, ambos baseados no Gemini 2.0, para que os robôs possam realizar uma variedade maior de tarefas complexas.
A inteligência artificial demonstrou uma série de recursos para resolver problemas complexos usando raciocínio multimodal. No entanto, esses avanços foram limitados ao mundo digital, sem nunca transferir essas habilidades para o mundo físico.
Para preencher essa lacuna, o Google DeepMind apresentou o Gemini Robotics e o Gemini Robotics-ER, dois modelos de linguagem de visão baseados no Gemini 2.0 que permitem que os robôs realizem "uma variedade maior de tarefas do mundo real do que nunca", conforme explicado no blog da empresa.
O Gemini Robotics é, especificamente, um modelo avançado de visão-linguagem-ação (VLA) que incorpora ações físicas como uma nova modalidade para controlar diretamente os robôs. Isso torna possível lidar com tarefas extremamente complexas e de várias etapas que exigem manipulação precisa, como dobrar origami ou colocar um sanduíche em um saco com fecho de correr.
O Gemini Robotics-ER é um modelo de linguagem de visão (VLM) com compreensão espacial avançada, que permite que os programas sejam executados usando o raciocínio corporal do Gemini. Isso aprimora recursos como apontar e sensoriamento 3D para, por exemplo, intuir uma pegada adequada para pegar uma xícara de café pela alça e uma trajetória segura para se aproximar dela.
Além disso, o Google DeepMind anunciou uma parceria com a Apptronik para criar a próxima geração de robôs humanoides. A Agile Robots, a Agility Robots, a Boston Dynamics e a Enchanted Tools também obtiveram acesso ao Gemini Robotics-ER.
Esta notícia foi traduzida por um tradutor automático