Publicado 11/04/2025 05:36

O Google DeepMind planeja combinar o Gemini e o Veo no futuro

Archivo - Arquivo - Logotipo Gemini AI do Google
GOOGLE - Archivo

MADRI 11 abr. (Portaltic/EP) -

O GoogleDeepMind planeja combinar no futuro dois de seus modelos, Gemini e Veo, com o objetivo de melhorar a compreensão da física do mundo do primeiro e avançar tanto na criação de um assistente universal quanto na robótica.

O Gemini surgiu em dezembro de 2023 como um modelo de linguagem fundamental nativamente multimodal, com a capacidade de compreender diferentes tipos de informações apresentadas em texto, código, áudio, imagem e vídeo.

Um ano e meio depois, o CEO do Google DeepMind, Demis Hassabis, reiterou essa ideia no podcast Possible, do cofundador do LinkedIn, Reid Hoffman, no qual delineou a intenção de combiná-lo no futuro com o Veo, seu modelo de geração de vídeo, que oferece resultados de alta qualidade com movimentos realistas.

A razão para isso é que o Veo, "ao assistir a muitos vídeos do YouTube, pode entender a física do mundo", e isso contribuirá para uma melhor compreensão do contexto do Gemini. Isso contribuirá para o desenvolvimento de um assistente universal e da robótica.

Conforme explicou Hassabis, o Google DeepMind tem a ideia de criar um assistente digital universal, "um assistente que o acompanha [...], que o ajuda no mundo real: ele recomenda coisas, ajuda a navegar, ajuda com coisas físicas no mundo, como cozinhar".

Mas em termos de robótica, "é o começo de mostrar o que podemos fazer com esses modelos multimodais que entendem a física do mundo com um pouco de ajuste fino da robótica, bem como as ações, as ações motoras e o planejamento que um robô precisa fazer", disse ele.

Esta notícia foi traduzida por um tradutor automático

Contador