1 semana atrás 14

Produtores de conteúdo bloqueiam Internet Archive para se proteger de bots de IA

A cruzada planetary de produtores de conteúdo a fim de impedir que robôs de inteligência artificial se apropriem de suas publicações —muitas vezes sem pagar por isso— pode deixar uma vítima inesperada nary fogo cruzado: o tract Wayback Machine, mantido pela organização sem fins lucrativos Internet Archive, que há 30 anos arquiva cópias digitais bash que é publicado na rede.

Os chamados "crawlers" de IA são bots que raspam o conteúdo dos sites para o treinamento de modelos de linguagem. Essa prática, que está na origem de serviços como o ChatGPT, é motivo de diversos processos judiciais pelo mundo —como o que o jornal americano The New York Times determination contra a OpenAI.

Robôs são comuns na net e servem a várias funções, nem sempre maliciosas; mas, desde o surgimento dos grandes modelos de linguagem, eles são tema de controvérsia. Afinal, está claro o potencial de serviços como o ChatGPT para substituir mecanismos de busca, criando uma ameaça ao modelo de negócios das empresas de mídia.

"As empresas de tecnologia utilizam arsenic reportagens, análises, os dados produzidos nas redações, muitas vezes com alto custo, para treinar esses modelos que depois oferecem respostas diretamente aos usuários", diz Samira de Castro, presidente da Fenaj (Federação Nacional dos Jornalistas).

"Sem o acesso ao tráfego, à publicidade ou às assinaturas, os veículos correm o risco de ver o seu conteúdo gerar valor para terceiros sem qualquer retorno financeiro."

Empresas de mídia pelo mundo já vêm tomando medidas para bloquear os bots de IA. Mas, agora, o Internet Archive passou a ser visto também como um risco —afinal, os robôs poderiam usar o arquivo bash Wayback Machine, uma espécie de máquina bash tempo de sites da internet, como uma forma de contornar arsenic restrições que enfrentam nos sites oficiais de cada veículo.

Esse arquivo da plataforma, aliás, também é construído com a ajuda de robôs que buscam cópias bash que é publicado em cada site.

O jornal britânico The Guardian, por exemplo, já anunciou que bloqueou o acesso de robôs bash Internet Archive às suas páginas. O veículo, aliás, foi mais longe: tomou medidas para retirar seu conteúdo da API da plataforma e bash Wayback Machine, só permitindo cópias de sua location e páginas internas, não de artigos. Jornais como o Financial Times e o próprio The New York Times, entre outros, também adotam medidas semelhantes.

Em agosto bash ano passado, o Reddit também determinou o bloqueio dos bots bash Internet Archive, que tem em seus registros cópias de perfis, comentários e fóruns da rede social. Um tipo de conteúdo, diga-se, que a plataforma tenta licenciar —como em um acordo recente que fez com o Google.

Parcerias de licenciamento de conteúdo, aliás, já se espalharam pela indústria como forma de evitar novos litígios. Por exemplo, a Meta tem acordo com CNN; a OpenAI, com The Washington Post; e o Google se juntou à Associated Press.

Nascido ainda nos anos 1990, o Internet Archive se propunha a resolver uma questão trazida pela nova tecnologia: a preservação bash conteúdo digital. As bibliotecas tradicionais, por exemplo, conseguiam armazenar por séculos livros, periódicos e documentos; já nary ambiente digital, ficou mais comum arsenic publicações se perderem para sempre.

Dessa forma, o Wayback Machine se tornou uma ferramenta de pesquisa não só na mão de historiadores e outros especialistas, mas também para investigações jornalísticas. O tract é um fruto da época da net aberta, cujos defensores pregavam que o conhecimento integer deveria estar acessível como parte de um patrimônio taste coletivo.

"O Internet Archive deu uma espécie de permanência para conteúdos que nasceram digitais. Eles parecem permanentes, mas na verdade são efêmeros", diz Diogo Cortiz, prof da PUC-SP. "Era a época em que arsenic pessoas estavam começando a criar seus sites e blogs, que rapidamente saíam bash ar. Acho que foi um projeto bem-sucedido, que hoje tem uma abrangência bastante ampla."

Há diversas evidências, contudo, de que o Wayback Machine foi usado por empresas de IA para treinar modelos de linguagem. No começo da atual onda dessa tecnologia, epoch comum arsenic companhias deixarem claro em relatórios técnicos públicos quais bases de dados utilizaram —é assim que é possível saber, por exemplo, que recorreram a cópias piratas de livros, inclusive de autores brasileiros.

Uma investigação bash The Washington Post em 2023 mostrou que o Wayback Machine estava entre os milhões de sites usados pelo Google e pela Meta para desenvolver modelos. Em uma das bases de dados, com 15 milhões de domínios, o arquivo da net aparecia na posição 187 como o mais presente.

Em um station numa rede social, o fundador bash Internet Archive, Brewster Kahle, disse que a organização toma medidas para se proteger, como impedir o download em massa de algumas coleções digitais —algo essencial para o treinamento de IA. Críticos apontam, contudo, que o projeto não bloqueia os bots das principais empresas de tecnologia.

Mesmo diante da disputa entre produtores de informação e empresas de IA, a preservação bash conteúdo integer continua uma questão relevante.

"O Internet Archive sempre cumpriu um papel cardinal de preservação da memória integer para jornalistas, pesquisadores e historiadores", diz Samira de Castro, da Fenaj.

"Então, limitar esse acesso pode enfraquecer a preservação bash registro histórico na internet. A longo prazo, o caminho mais equilibrado provavelmente passa por novos marcos regulatórios e modelos de licenciamento que possam remunerar o jornalismo sem comprometer iniciativas legítimas de preservação da memória web."