MADRI 30 jun. (Portaltic/EP) -
A Alibaba apresentou seu novo modelo de Inteligência Artificial (IA) Qwen VLo, com recursos de compreensão e geração de conteúdo multimodal, projetado para gerar e modificar imagens de alta qualidade a partir de entradas de texto, com uma técnica de geração progressiva.
A empresa chinesa de tecnologia lançou o mais recente membro de sua família de modelos multimodais de linguagem ampla (LLM), o Qwen2.5-VL, em janeiro deste ano, destacando sua capacidade de analisar documentos, compreender vídeos completos e executar tarefas de forma autônoma. Depois disso, a empresa continuou a trabalhar para aprimorar a capacidade do modelo de entender o conteúdo das imagens.
Como resultado, a Alibaba revelou seu novo modelo unificado de compreensão e geração multimodal Qwen VLo, projetado para gerar e modificar facilmente imagens de alta qualidade a partir de entradas de texto por meio de um processo de geração progressiva.
De acordo com a empresa em uma declaração em seu blog, esse modelo atualizado "não apenas compreende o mundo", mas também gera recriações de alta qualidade com base nessa capacidade de compreensão, "encurtando a percepção e a criação". Em outras palavras, é um modelo que entende o que vê e cria conteúdo com base nessa realidade.
Nesse sentido, os usuários podem enviar uma solicitação na forma de texto em linguagem natural para que o Qwen VLo gere uma nova imagem, bem como compartilhar uma ou várias fotografias reais e pedir que ele as modifique, indicando as características que deseja alterar.
Para realizar essas tarefas, o Qwen VLo se baseia em um método de geração progressiva. Ou seja, um sistema pelo qual ele constrói gradualmente a imagem inteira, da esquerda para a direita e de cima para baixo, a partir de uma estrutura básica ou imagem borrada, conforme explicado pelo Alibaba. Portanto, o modelo gera o conteúdo adicionando camadas, cores e texturas.
Esse processo permite que o conteúdo seja gerado por meio do refinamento e da otimização contínuos das previsões do modelo à medida que ele constrói a imagem, garantindo que o resultado final seja "coerente e harmônico". Ele também oferece resultados de melhor qualidade visual e uma experiência criativa "mais flexível e controlável" para os usuários, pois eles podem observar e ajustar o processo de criação em tempo real com base em suas necessidades.
Com tudo isso, a Alibaba destacou as melhorias abrangentes tanto na compreensão multimodal, ao processar texto, imagens, áudio e vídeo, quanto nos recursos de geração oferecidos com o Qwen VLo.
Os modelos multimodais anteriores "costumavam apresentar inconsistências semânticas durante o processo de geração", como a incapacidade de reter os principais recursos estruturais da imagem original, mas o Qwen VLo consegue capturar esses detalhes e mantém um "alto nível de consistência semântica" durante todo o processo, afirmou.
Isso permite que os usuários forneçam instruções criativas em linguagem natural, incluindo referências de estilo artístico ou retoques detalhados, e o modelo lida com elas "com facilidade". Por exemplo, modificar objetos, editar texto e alterar planos de fundo, tudo com um único comando.
Por enquanto, a Alibaba observou que o Qwen VLo foi lançado em formato de visualização, para que os usuários possam começar a testar suas habilidades de geração de imagens por meio do chat do Qwen. Além disso, o Qwen VLo suporta vários idiomas, incluindo chinês e inglês.
Esta notícia foi traduzida por um tradutor automático