MADRI 21 fev. (Portaltic/EP) -
A Microsoft revelou o Magma, um novo modelo básico projetado para executar tarefas multimodais de Inteligência Artificial (IA) em formatos digitais e físicos, pois é capaz de processar informações visuais e de linguagem para planejar e executar ações de acordo, desde a navegação em uma interface de usuário até a manipulação de robôs.
A empresa de tecnologia continua a inovar em IA, especificamente com o desenvolvimento do que ela define como o primeiro modelo básico capaz de "interpretar e fundamentar entradas multimodais em seu ambiente".
Esse é o Magma, o novo modelo multimodal da Microsoft que, com base em uma meta descrita, é capaz de formular planos e executar ações para alcançá-la de forma independente, tanto em ambientes digitais quanto físicos.
Isso ocorre porque o modelo é capaz de unificar a inteligência verbal, espacial e temporal para "navegar em tarefas e ambientes complexos", como a Microsoft explicou em uma publicação sobre como o modelo funciona no GitHub.
Especificamente, de acordo com a empresa, o Magama é "uma extensão" dos modelos de visão-linguagem (VL). Isso porque ele não apenas mantém a capacidade de entender entre visão e linguagem, mas também é equipado com a capacidade de planejar e agir em relação ao mundo "visual-espacial", ou seja, ele tem inteligência espacial.
Dessa forma, enfatizou a Microsoft, ele tem as habilidades necessárias para realizar tarefas que vão desde a navegação em uma interface gráfica do usuário (GUI) até a manipulação de robôs.
Para isso, a empresa de tecnologia detalhou que o modelo é pré-treinado em grandes quantidades de conjuntos de dados heterogêneos de VL, que incluem imagens, vídeos e dados robóticos.
No entanto, nesses conjuntos de dados, os alvos visuais acionáveis, por exemplo, botões clicáveis em uma interface de usuário, são rotulados como Set-of-Mark (SoM). Da mesma forma, os movimentos de objetos em vídeos, como o movimento de um braço robótico, são rotulados como Trace-of-Mark (ToM).
Com isso em mente, os rótulos SoM e ToM nos dados de treinamento em larga escala facilitam a aquisição de inteligência espacial pelo Magma, para que ele possa criar posteriormente "resultados de última geração", seja para navegar pelo software ou operar robôs.
Em suma, o Magma é um projeto de IA da Microsoft ainda em desenvolvimento em colaboração com pesquisadores do KAIST (Instituto Avançado de Ciência e Tecnologia da Coreia), da Universidade de Mayrland, da Universidade de Wisconsin-Madison e da Universidade de Washington.
Esta notícia foi traduzida por um tradutor automático