O ChatGPT Images 2.0 é capaz de raciocinar, pesquisar na web e gerar até oito imagens inter-relacionadas de forma coerente

OPENAI

MADRID 22 abr. (Portaltic/EP) -

A OpenAI apresentou seu novo modelo de geração de imagens, o ChatGPT Images 2.0, que traz novos recursos de processamento, maior precisão e melhorias na geração de texto, além de poder pesquisar conteúdo na Internet e verificar seus resultados graças ao seu raciocínio, gerando até oito imagens relacionadas de uma só vez.

A empresa divulgou o sucessor do ChatGPT Images e se referiu a este modelo como uma “mudança radical” no que diz respeito ao seguimento de instruções detalhadas, ao posicionamento de elementos e à relação precisa entre objetos.

Especificamente, a OpenAI lançou o ChatGPT Images 2.0 como um “modelo de ponta” capaz de realizar tarefas visuais complexas e produzir imagens “precisas e prontas para uso”, conforme divulgado em um comunicado em seu blog.

Isso se deve ao fato de que ele não apenas permite conceber imagens mais sofisticadas, mas também as gera de forma mais eficaz, seguindo as instruções dos usuários com maior fidelidade, preservando os detalhes solicitados e renderizando os elementos mais sutis que costumam causar falhas, como textos pequenos, ícones, interfaces de usuário em um computador ou composições densas com muitos detalhes, com uma resolução de até 2K.

Além disso, destacou melhorias notáveis na capacidade de gerar conteúdo em diferentes formatos e, sobretudo, na representação de texto denso. Além disso, agora é mais preciso na criação de imagens em qualquer idioma, não apenas em inglês, e utiliza “conhecimento visual e do mundo” para completar as informações ausentes.

Seguindo essa linha, a empresa detalhou igualmente que também aprimorou sua compreensão multilíngue além dos idiomas com alfabeto latino, gerando assim melhores resultados em idiomas como japonês, coreano, chinês, hindi e bengali.

CAPACIDADE DE RAZIONAMENTO E PESQUISA NA WEB

Outro aspecto a destacar é que, pela primeira vez em um modelo de geração de imagens, a OpenAI introduziu a capacidade de raciocínio. Como resultado, o ChatGPT Images 2.0 pode buscar informações reais na web, utilizar essas informações para criar imagens diferentes a partir de uma única indicação e, finalmente, verificar seus resultados para confirmar se estão corretos.

Conforme explicou a empresa de tecnologia, essa capacidade permite que o modelo simplifique o processo entre a ideia e a imagem, atuando como um assistente visual, “especialmente quando a precisão, as informações atualizadas, a coerência e a coesão visual são fundamentais”.

Ou seja, a partir do conteúdo compartilhado pelos usuários e do encontrado na web, o modelo identifica quais dados são importantes, os estrutura e transforma essas informações em materiais gráficos com sentido de forma autônoma.

Esse recurso é útil, por exemplo, na hora de gerar conteúdo gráfico educacional ou resumos visuais, já que o modelo pode sintetizar as informações por conta própria, escrever uma história e apresentá-la com uma estrutura clara e um forte fluxo visual.

Assim, os usuários podem solicitar um conjunto de imagens coerentes entre si, obtendo até oito resultados de uma só vez. Por exemplo, para a criação de uma história em quadrinhos com continuidade de personagens, uma infografia ou mapas precisos.

IMAGENS MAIS REALISTAS

A OpenAI também destacou que o Images 2.0 melhorou na geração de imagens realistas. Por exemplo, ao recriar uma fotografia, ele inclui as pequenas imperfeições comuns nessas imagens para conferir mais realismo.

Da mesma forma, em outras imagens estáticas, como pixel art ou mangá, apresenta maior consistência na textura, iluminação ou composição. Também oferece maior flexibilidade de formato com proporções de até 3:1 e 1:3, para conteúdo de pôsteres, telas de celulares ou computadores.

Como resultado, os usuários obterão imagens aprimoradas e mais nítidas de “colagens”, mangás escritos em japonês de forma coerente, protótipos de videogames ou fotografias com um estilo realista específico. Também poderão gerar material publicitário e roteiros gráficos.

Com tudo isso, o ChatGPT Images 2.0 já está disponível para todos os usuários do ChatGPT e do Codex, embora as funções avançadas de análise estejam disponíveis apenas para usuários assinantes das versões ChatGPT Plus, Pro e Business. Além disso, o novo modelo também está disponível na API.

Esta notícia foi traduzida por um tradutor automático

O ChatGPT Images 2.0 é capaz de raciocinar, pesquisar na web e gerar até oito imagens inter-relacionadas de forma coerente

CAPACIDADE DE RAZIONAMENTO E PESQUISA NA WEB

IMAGENS MAIS REALISTAS

Contenido patrocinado