MADRID 18 jun. (Portaltic/EP) -
A Tongyi Lab, divisão de IA da Alibaba Cloud, anunciou o Qwen-RobotSuite, um conjunto de modelos de linguagem e visão projetados com o objetivo de preencher a lacuna existente entre “compreender” o mundo físico e “agir nele” no âmbito da robótica.
O Tongyi Lab tornou-se um dos pilares do software livre em inteligência artificial graças à estratégia de modelos de pesos abertos (open-weights), como o Qwen 2.5 e o Qwen3, que se caracterizam pela execução local nos equipamentos dos usuários.
O objetivo do Qwen-RobotSuite é permitir que, a partir do software, seja possível controlar uma grande variedade de hardware na forma de robôs e se tornar o cérebro da próxima geração de robótica industrial e comercial.
A nova família de modelos de IA é capaz de reconhecer objetos, compreender relações espaciais, seguir instruções visuais complexas e raciocinar sobre ambientes do mundo real. Isso significa que ela poderia entender um comando como “Vá até a cozinha, encontre um prato azul, pegue-o e coloque-o na prateleira”.
No anúncio publicado no blog, são explicados cada um dos objetivos dos três modelos fundamentais da nova “suíte”, e destaca-se que as fases piloto e os testes de desempenho já tiveram início com clientes corporativos selecionados por meio da plataforma Alibaba Cloud.
O primeiro dos três modelos é o Qwen-RobotNav, que se caracteriza por reunir tarefas — como seguir instruções de voz, busca de objetos, rastreamento de alvos e direção autônoma — em um único modelo, e foi testado com sucesso no cão-robô Unitree Go2 usando apenas sua câmera integrada de baixa resolução.
O objetivo do Nav é gerenciar a memória visual para considerar o contexto como um parâmetro controlável.
O Qwen-RobotManip é o modelo fundamental encarregado de resolver o grande problema que os robôs com diferentes configurações de braços costumam enfrentar, seja devido ao número variável de articulações ou às câmeras posicionadas em ângulos distintos.
Ele resolve isso mapeando os movimentos em um espaço de estado e ação de 80 dimensões, utilizando um sistema de coordenadas de câmera. Isso faz com que o Manip seja realmente um “tradutor universal”, ao traduzir qualquer ação — como um vídeo de uma pessoa lavando pratos — para um formato matemático padrão.
Sua principal vantagem reside na capacidade de se recuperar de erros em tempo real e na transferência de habilidades de um tipo de robô para outro que tenha um projeto ou configuração totalmente diferente.
O Qwen-RobotWorld, por outro lado, é o modelo dedicado a atuar como um simulador mental que funciona de tal forma que, ao receber uma imagem e uma instrução em linguagem natural, prevê ou gera um vídeo do que acontecerá a seguir no ambiente físico.
É aqui que entra em jogo o uso de um LLM para compreender como funcionam certas propriedades físicas de objetos e líquidos e interagir com braços rígidos. Na verdade, ele gera vídeos de diferentes ângulos para entender melhor o ambiente e, assim, treinar robôs em simuladores antes de levá-los à produção ou à realidade.
Esses são os três modelos fundamentais do Qwen-RobotSuite, mas o potencial surge quando o modelo superior, como um generalista do tipo Qwen3.7, se encarrega de orientá-los para que interajam entre si, atuando como o “cérebro pensante” que decompõe uma ordem complexa em diferentes subtarefas para enviar os comandos detalhados ao Qwen-RobotManip ou ao Qwen-RobotNav.
O gerenciamento de imprevistos também está presente nessa “suite” e, se o robô falhar ao tentar agarrar algo, o planejador entra em ação para detectar o impasse e replanejar uma nova subtarefa para corrigir a falha.
Esta notícia foi traduzida por um tradutor automático