MADRI 20 nov. (Portaltic/EP) -
A Meta apresentou a nova versão de seu modelo de segmentação, o SAM 3, que introduz a capacidade de usar avisos em texto e imagens de exemplo para que possa reconhecer mais conceitos e identificá-los melhor em uma imagem ou vídeo.
A família Segment Anything Model (SAM) consiste em modelos de segmentação de imagens - que identificam os pixels da imagem que pertencem a um objeto - para auxiliar na identificação e diferenciação de objetos.
Com o primeiro modelo, apresentado em 2023, o Meta visava democratizar essa tecnologia para que ela pudesse ser usada em áreas como edição de vídeo ou criação de animais. Um ano depois, veio o SAM 2, que introduziu a capacidade de segmentar qualquer objeto e rastreá-lo de forma consistente em todos os quadros de um vídeo em tempo real.
O SAM 3 leva as pistas um passo adiante, pois além das pistas audiovisuais, ele suporta pistas conceituais, como frases simples e exemplos de imagens, disse a Meta em um comunicado.
Em grandes modelos de linguagem multimodal, o SAM 3 também pode segmentar objetos descritos por sinais mais complexos, como: "pessoas sentadas, mas não segurando uma caixa de presente nas mãos".
A Meta observou o desempenho do SAM 3, a ponto de ele "processar uma única imagem com mais de cem objetos detectados em 30 milissegundos em uma GPU H200". Em vídeo, ele afirma manter um desempenho "quase em tempo real" para cerca de cinco objetos simultâneos.
A Meta também criou um banco de dados de treinamento com mais de 4 milhões de conceitos exclusivos, usando um sistema híbrido de anotadores humanos e modelos de inteligência artificial.
Esta notícia foi traduzida por um tradutor automático