MADRI 11 jun. (Portaltic/EP) -
O V-JEPA 2 é um novo modelo Meta treinado com vídeos e projetado para que a inteligência artificial aprenda a funcionar no mundo real da mesma forma que os humanos.
O novo modelo faz parte do trabalho do Meta para obter inteligência de máquina avançada (AMI) e desenvolver agentes que possam operar no mundo real. Ele é a próxima geração do V-JEPA, que a Meta apresentou em fevereiro do ano passado como um modelo não gerativo desenvolvido para ensinar as máquinas a entender e modelar o mundo físico por meio da visualização de vídeo.
O V-JEPA 2 aprimora os recursos de previsão de ação e modelagem do mundo, permitindo que os robôs interajam com objetos e ambientes desconhecidos para concluir tarefas, explica a empresa em um comunicado à imprensa.
Ele tem 1,2 bilhão de parâmetros e foi treinado com vídeos sem a necessidade de anotações humanas adicionais, usando técnicas avançadas de aprendizado de máquina, em um processo que consiste em duas fases: pré-treinamento sem ações e treinamento adicional condicionado por ações.
A Meta treinou o V-JEPA 2 com o banco de dados DROID de código aberto e o implantou diretamente em robôs, que demonstraram ser capazes de planejar o que fazer em novos ambientes, mesmo com objetos que nunca viram antes, e executar ações básicas, como alcançar, pegar um objeto e colocá-lo em um novo local.
A partir de uma imagem, que mostra a meta (deixar um copo em uma mesa pequena), o robô planeja como alcançá-la, o que, nesse caso, inclui duas submetas: pegar o copo e movê-lo. Para isso, ele elabora um plano de ação que pode ser usado para alcançar a meta. Para fazer isso, ele planeja "futuros possíveis em um espaço latente" e seleciona aquele com a maior probabilidade de sucesso.
O V-JEPA 2 aprende e faz previsões em uma única escala de tempo, o que significa que atualmente ele não pode executar uma tarefa de várias etapas, como assar um bolo. Portanto, o Meta espera aprimorar seus recursos em várias escalas temporais e espaciais e incorporar a multimodalidade, para estender a previsão a outros sentidos além da visão.
Esta notícia foi traduzida por um tradutor automático