MADRI 8 set. (Portaltic/EP) -
A OpenAI investigou a origem das alucinações em modelos de linguagem, um fenômeno que põe em risco a confiabilidade da inteligência artificial, e sua persistência, que está relacionada a avaliações que incentivam a adivinhação.
As alucinações são um fenômeno em que a IA fornece respostas que, apesar de parecerem coerentes, incluem informações tendenciosas ou errôneas que não são apoiadas pelos dados com os quais foram treinadas.
Elas representam um problema que afeta a interação com modelos de linguagem, pois os usuários podem acreditar que as informações estão corretas e tomar decisões com base nelas. Elas também são um desafio para as empresas que desenvolvem esses modelos porque sua origem não é clara.
A OpenAI, no entanto, afirma que eles se originam no pré-treinamento, no processo de previsão da próxima palavra em grandes quantidades de texto, quando não há rótulos para ajudar a distinguir o que é válido do que é inválido.
Esse é o resultado da pesquisa que ele compartilhou recentemente, intitulada 'Why language models hallucinate' (Por que os modelos de linguagem alucinam), na qual ele também investigou a persistência de alucinações nos modelos mais recentes, que ele relata em seu blog oficial.
Ele afirma que "as alucinações persistem, em parte, porque os métodos de avaliação atuais estabelecem os incentivos errados" e, para explicar isso, ele compara sua resposta à de um aluno que enfrenta um teste de múltipla escolha.
"Se você não sabe a resposta, mas tenta adivinhar, pode ter sorte e acertar. Deixar a resposta em branco garante um zero. Da mesma forma, quando os modelos são avaliados apenas pela precisão, a porcentagem de perguntas que eles respondem corretamente, eles são incentivados a adivinhar em vez de dizer 'não sei'."
Diante dessa descoberta, a OpenAI propõe atualizar os testes baseados em precisão para que a adivinhação também seja penalizada e os modelos possam "se abster diante da incerteza".
Ainda assim, a empresa reconhece que não é possível obter modelos de linguagem 100% precisos, porque "independentemente do tamanho do modelo e de seus recursos de pesquisa e raciocínio, algumas perguntas do mundo real são inerentemente não testáveis".
Esta notícia foi traduzida por um tradutor automático