Publicado 30/01/2026 06:44

Os meios de comunicação bloqueiam o acesso ao Internet Archive para evitar o "web scrapping" destinado a treinar a IA.

Archivo - Arquivo - O serviço web do Internet Archive e Wayback Machine.
INTERNET ARCHIVE - Arquivo

MADRID 30 jan. (Portaltic/EP) - Alguns meios de comunicação decidiram bloquear o acesso do Internet Archive às suas publicações devido ao fato de os rastreadores da web utilizarem esta biblioteca digital para coletar seu conteúdo e utilizá-lo no treinamento de modelos de inteligência artificial (IA).

Jornais como The Guardian e The New York Times e grupos editoriais como USA Today começaram a introduzir em suas páginas web limitações aos rastreadores 'bots' (robots.txt) para que não possam extrair seus artigos, e as estenderam ao Internet Archive (archive.org_bot e ia_archiver-web.archive.org).

O motivo é que essa biblioteca digital sem fins lucrativos se dedica à preservação da internet e possui um arquivo histórico, o Wayback Machine, que captura páginas da web para que fiquem acessíveis a qualquer pessoa. Entre elas estão artigos da mídia, incluindo muitos protegidos por um paywall. Esse arquivo histórico é um recurso valioso para empresas que treinam modelos de inteligência artificial, que utilizam “bots”, conhecidos como rastreadores de IA, para extrair conteúdos disponíveis de forma aberta e gratuita, em uma prática conhecida como “web scrapping”.

Isso tem suscitado a preocupação dos meios de comunicação que tentam proteger seus conteúdos dessa atividade, pois detectaram que parte do conteúdo roubado por esses “bots” de IA provém do Internet Archive, conforme relatado pelo Nieman Lab. Alguns dos meios afetados chegaram a processar empresas de IA pelo uso que fizeram de suas publicações. É o caso, por exemplo, do The New York Times, que processou a OpenAI, a Microsoft e a Perplexity, e do The Wall Street Journal e do New York Post, que processaram a Perplexity.

De acordo com uma análise feita pelo Nieman Lab a partir do banco de dados do jornalista Ben Welsh sobre os meios de comunicação que bloquearam o acesso aos rastreadores, no final de dezembro, 241 páginas de notícias de nove países haviam desativado pelo menos um dos rastreadores do Internet Archive. A maioria desses sites pertencia ao conglomerado USA Today.

Esta notícia foi traduzida por um tradutor automático

Contador

Contenido patrocinado