MADRI 18 abr. (Portaltic/EP) -
A Wikimedia Foundation decidiu criar um conjunto de dados estruturado que disponibilizou para a comunidade de aprendizado de máquina, para que eles possam usá-lo para treinar seus modelos.
A organização responsável pela popular enciclopédia on-line Wikipédia alertou recentemente sobre o aumento do tráfego de programas automatizados para baixar seu conteúdo e usá-lo para treinar modelos de inteligência artificial.
Isso estava afetando sua capacidade de operação, pois eles tinham que gastar mais tempo e recursos para responder ao tráfego não humano, o que significava custos mais altos para uso e manutenção da infraestrutura.
Agora, a empresa anunciou a criação de um conjunto de dados estruturados da Wikipédia que foi compartilhado no Kaggle de forma gratuita e aberta, para que possa ser usado no "treinamento de modelos, na criação de recursos e no teste de pipelines de processamento de linguagem natural", conforme explica em um comunicado.
Os dados foram compartilhados em um formato legível por computador, em inglês e francês, e incluem "resumos, descrições curtas, dados de valor-chave no estilo infobox, links de imagens e seções de artigos claramente segmentadas".
Esta notícia foi traduzida por um tradutor automático