MADRI 11 abr. (Portaltic/EP) -
O GoogleDeepMind planeja combinar no futuro dois de seus modelos, Gemini e Veo, com o objetivo de melhorar a compreensão da física do mundo do primeiro e avançar tanto na criação de um assistente universal quanto na robótica.
O Gemini surgiu em dezembro de 2023 como um modelo de linguagem fundamental nativamente multimodal, com a capacidade de compreender diferentes tipos de informações apresentadas em texto, código, áudio, imagem e vídeo.
Um ano e meio depois, o CEO do Google DeepMind, Demis Hassabis, reiterou essa ideia no podcast Possible, do cofundador do LinkedIn, Reid Hoffman, no qual delineou a intenção de combiná-lo no futuro com o Veo, seu modelo de geração de vídeo, que oferece resultados de alta qualidade com movimentos realistas.
A razão para isso é que o Veo, "ao assistir a muitos vídeos do YouTube, pode entender a física do mundo", e isso contribuirá para uma melhor compreensão do contexto do Gemini. Isso contribuirá para o desenvolvimento de um assistente universal e da robótica.
Conforme explicou Hassabis, o Google DeepMind tem a ideia de criar um assistente digital universal, "um assistente que o acompanha [...], que o ajuda no mundo real: ele recomenda coisas, ajuda a navegar, ajuda com coisas físicas no mundo, como cozinhar".
Mas em termos de robótica, "é o começo de mostrar o que podemos fazer com esses modelos multimodais que entendem a física do mundo com um pouco de ajuste fino da robótica, bem como as ações, as ações motoras e o planejamento que um robô precisa fazer", disse ele.
Esta notícia foi traduzida por um tradutor automático