Publicado 18/04/2025 06:16

Wikimedia Foundation compartilha conjunto de dados estruturados para treinamento de IA

Archivo - Arquivo - Artigos mais visitados durante 2023.
WIKIPEDIA - Arquivo

MADRI 18 abr. (Portaltic/EP) -

A Wikimedia Foundation decidiu criar um conjunto de dados estruturado que disponibilizou para a comunidade de aprendizado de máquina, para que eles possam usá-lo para treinar seus modelos.

A organização responsável pela popular enciclopédia on-line Wikipédia alertou recentemente sobre o aumento do tráfego de programas automatizados para baixar seu conteúdo e usá-lo para treinar modelos de inteligência artificial.

Isso estava afetando sua capacidade de operação, pois eles tinham que gastar mais tempo e recursos para responder ao tráfego não humano, o que significava custos mais altos para uso e manutenção da infraestrutura.

Agora, a empresa anunciou a criação de um conjunto de dados estruturados da Wikipédia que foi compartilhado no Kaggle de forma gratuita e aberta, para que possa ser usado no "treinamento de modelos, na criação de recursos e no teste de pipelines de processamento de linguagem natural", conforme explica em um comunicado.

Os dados foram compartilhados em um formato legível por computador, em inglês e francês, e incluem "resumos, descrições curtas, dados de valor-chave no estilo infobox, links de imagens e seções de artigos claramente segmentadas".

Esta notícia foi traduzida por um tradutor automático

Contenido patrocinado