Os novos modelos o3 e o4-mini da OpenAI são mais impressionantes do que os modelos de raciocínio anteriores da empresa.

PEXELS - Arquivo

MADRI 21 abr. (Portaltic/EP) -

Os novos modelos de raciocínio o3 e o4-mini da OpenAI apresentam mais resultados com alucinações do que os modelos de raciocínio anteriores da empresa, com quase o dobro da taxa de alucinações registrada no modelo o1, de acordo com testes internos da avaliação PersonQA.

A empresa de tecnologia revelou sua nova família de modelos da série o focados em raciocínio na semana passada com os modelos o3 e o4-mini, projetados para programação, navegação na Web e geração autônoma de imagens, incluindo a capacidade de "pensar com imagens".

Apesar dos novos recursos dos modelos OpenAI mais recentes, foram encontrados problemas relacionados a alucinações em seus resultados, ou seja, um problema sofrido por alguns modelos de Inteligência Artificial (IA), que se baseia no fornecimento de resultados que, apesar de serem apresentados de forma coerente, incluem informações incorretas, tendenciosas, errôneas ou até mesmo inventadas.

Em particular, os novos modelos de raciocínio o3 e o4-mini são mais frequentemente enganosos do que os modelos de raciocínio apresentados anteriormente pela OpenAI, como os modelos o1, o1-mini e o3-mini, incluindo modelos anteriores como o GPT-4o.

Isso é o que a OpenAI apontou, com base nos resultados obtidos em seus testes internos sobre alucinações, com a avaliação PersonQA, um sistema que testa modelos medindo a precisão das tentativas de resposta. Conforme explicado no relatório técnico, o PersonQA avalia a precisão, ou seja, se o modelo responde corretamente à pergunta, e a taxa de alucinação, ou seja, a frequência com que o modelo alucina em suas respostas.

Nesse sentido, o modelo o4-mini teve um desempenho pior do que os modelos o1 e o3 em termos de alucinações, embora a OpenAI tenha apontado que isso era "esperado" porque os modelos menores "têm mais conhecimento do mundo e tendem a alucinar mais".

Os resultados do PersonQA também refletiram algumas "diferenças de desempenho" ao comparar o o1 e o o3, observando que o o3 tende a fazer mais afirmações em geral, levando a declarações mais precisas, bem como a declarações "mais imprecisas ou alucinatórias".

De acordo com os resultados apresentados, o3 foi delirante ao responder 33% das perguntas feitas pela avaliação PersonQA. Isso é quase o dobro da taxa de alucinações do modelo o1 da OpenAI. O o4-mini, por outro lado, obteve uma pontuação de 48% na taxa de alucinação.

Apesar dos resultados do teste, a OpenAI disse que, por enquanto, continuará investigando para "entender a causa desse resultado" e por que as alucinações aumentaram especificamente com os modelos de raciocínio.

Da mesma forma, o porta-voz da OpenAI, Niko Felix, disse ao TechCrunch que abordar as alucinações em todos os modelos da OpenAI "é uma área de pesquisa em andamento", pois eles trabalham para melhorar a precisão e a confiabilidade.

Esta notícia foi traduzida por um tradutor automático

Os novos modelos o3 e o4-mini da OpenAI são mais impressionantes do que os modelos de raciocínio anteriores da empresa.

Contenido patrocinado