MADRID 6 jun. (Portaltic/EP) -
Um grupo de cientistas demonstrou que é possível treinar grandes modelos de linguagem (LLMs) com um banco de dados ético, que não prejudica os detentores de direitos autorais, com resultados de desempenho comparáveis aos dos modelos mais populares.
Os LLMs que impulsionam a inteligência artificial generativa precisam de grandes quantidades de dados em seu treinamento para ter um bom desempenho, e é por isso que empresas como Meta, Google e OpenAI acabaram recorrendo à Internet e até mesmo a seus próprios produtos para obtê-los.
Essa situação levou a um debate sobre o uso de documentos protegidos por direitos autorais para treinar esses LLMs, com alguns defendendo a compensação dos detentores de direitos autorais e outros a preservação da capacidade dos modelos de aprender com material protegido por direitos autorais.
Compensar os detentores de direitos autorais custaria bilhões de dólares, e até mesmo reivindicações de não compensação poderiam resultar em danos financeiros na casa dos bilhões de dólares, conforme relatam cientistas de 14 instituições em um estudo recente, descrevendo a alternativa de um banco de dados ético.
Especificamente, eles dizem que criaram um banco de dados de domínio público com licença aberta de 8 TB, chamado The Common Pile, que coleta dados de 30 fontes, incluindo pesquisa, áudio, livros, enciclopédias, material educacional, código de programação e transcrições, entre outros.
Para demonstrar que é possível treinar o LLM sem prejudicar os autores e com resultados alinhados com os modelos mais populares, eles treinaram dois modelos de 7 bilhões de parâmetros, um trilhão e dois trilhões de tokens, respectivamente, com texto extraído do The Common Pile.
Eles afirmam que os dois modelos oferecem "desempenho competitivo" com modelos como o Llama 1 e o Llama 2 de 7 bilhões de parâmetros. "Nossos resultados demonstram que o Common Pile não é apenas o conjunto de dados mais robusto para pré-treinamento sob uma restrição de licença aberta, mas também produz modelos comparáveis aos treinados em uma quantidade equivalente de dados não licenciados", afirmam eles no texto da pesquisa publicada no GitHub.
Eles também acreditam que o banco de dados "representa o primeiro passo no caminho para um ecossistema de modelos de linguagem mais ético, em que o desempenho não precisa ser obtido às custas dos direitos dos criadores e da transparência legal".
Esta notícia foi traduzida por um tradutor automático