Tecnologia

IETF Hatching uma nova maneira de domar o site da IA agressiva raspando

Redação

abril 10, 2025
No Comments

Para os editores da web, impedir que os bots da AI raspassem seu melhor conteúdo, consumindo uma largura de banda valiosa, deve se sentir entre inúteis e quase impossíveis.

É como jogar uma xícara de água em um incêndio florestal. Não importa o que você tente, a nova geração de bots continua avançando, consumindo insatiavelmente dados para treinar modelos de IA que estão atualmente no controle do hiper-crescimento competitivo.

Mas com abordagens tradicionais para limitar o comportamento do bot, como um arquivo robots.txt, parecendo cada vez mais longo no dente, uma solução pode estar no horizonte através do trabalho sendo realizado pela Força -Tarefa de Engenharia da Internet (IETF) AI Preferences Working Group (AIPREF).

O Grupo de Trabalho da AIPREF está se reunindo nesta semana em Bruxelas, onde espera continuar seu trabalho para estabelecer as bases para um novo sistema robots.txt para sites que sinalizam aos sistemas de IA o que é e não está fora dos limites.

O grupo tentará definir dois mecanismos para conter raspadores de IA, começando com “um vocabulário comum para expressar as preferências de autores e editores em relação ao uso de seu conteúdo para treinamento de IA e tarefas relacionadas”.

Segundo, desenvolverá um “meio de anexar esse vocabulário ao conteúdo na Internet, incorporando -o no conteúdo ou por formatos semelhantes aos robots.txt, e um mecanismo padrão para reconciliar múltiplas expressões de preferências”.

Os co-presidentes do AIPREF Working Group, Mark Nottingham e Suresh Krishnan, descreveram a necessidade de mudança em uma postagem no blog:

“No momento, os fornecedores de IA usam uma variedade confusa de sinais não padrão no arquivo robots.txt e em outros lugares para orientar suas decisões de rastreamento e treinamento”, escreveram eles. “Como resultado, autores e editores perdem a confiança à qual suas preferências serão respeitadas e recorrem a medidas como bloquear seus endereços IP”.

O grupo de trabalho da AIPREF prometeu mudar suas idéias em torno da maior mudança na maneira como os sites sinalizam suas preferências, já que os robôs. O Txt foi usado pela primeira vez em 1994 em algo concreto até meados do ano.

Ai parasita

A iniciativa chega em um momento em que a preocupação com a eliminação de IA está crescendo em toda a indústria editorial. Isso está ocorrendo de maneira diferente entre os países, mas os governos que desejam incentivar o desenvolvimento local da IA nem sempre foram rápidos em defender os criadores de conteúdo.

Em 2023, o Google foi atingido por uma ação judicial, posteriormente demitida, alegando que sua IA havia raspado material protegido por direitos autorais. Em 2025, o executivo de TV do Reino Unido, Alex Mahon, disse aos parlamentares britânicos que o esquema proposto pelo governo britânico para permitir que as empresas de IA treinem modelos de conteúdo, a menos que os editores optarem por sair na “raspagem de valor de nossas indústrias criativas”.

A questão nesses casos é o princípio de tomar conteúdo protegido por direitos autorais para treinar modelos de IA, em vez do mecanismo pelo qual isso é alcançado, mas os dois estão, sem dúvida, interconectados.

Enquanto isso, em um tópico de reclamação separado, a Wikimedia Foundation, que supervisiona a Wikipedia, disse na semana passada que os bots de IA causaram um aumento de 50% na largura de banda consumida desde janeiro de 2024, baixando o conteúdo multimídia como vídeos:

“Esse aumento não vem de leitores humanos, mas em grande parte de programas automatizados que raspam o catálogo de imagens de imagens abertamente licenciadas da Wikimedia Commons para alimentar imagens aos modelos de IA”, explicou a fundação.

“Esse alto uso também está causando interrupções constantes para a equipe de confiabilidade do site, que precisa bloquear o tráfego esmagador de tais rastreadores antes de causar problemas para nossos leitores”, acrescentou a Wikimedia.

Defesas da AI Crawler

O problema subjacente é que os métodos estabelecidos para interromper os bots de IA têm desvantagens, assumindo que eles funcionem. O uso de arquivos robots.txt para expressar preferências pode ser simplesmente ignorado, como tem sido pelos raspadores tradicionais não-AI há anos.

As alternativas-IP ou string de agente de usuário bloqueando através de redes de entrega de conteúdo (CDNs) como Cloudflare, CAPTCHAS, Limitador de taxas e firewalls de aplicativos da Web-também têm desvantagens.

Mesmo abordagens laterais, como ‘lonas’-confundindo rastreadores com labirintos de arquivos que consomem recursos sem links de saída-podem ser derrotados pelo sofisticado rastreador de AI da Openai. Mas mesmo quando trabalham, as lonas também correm o risco de consumir recursos do processador hospedeiro.

A grande questão é se o AIPREF fará alguma diferença. Pode se resumir à posição ética das empresas que fazem a raspagem; Alguns vão jogar bola com Aipref, muitos outros não.

Cahyo Subroto, o desenvolvedor por trás da ferramenta de raspagem da web ‘ética’ do Mrscraper, é cética:

“A AIPREF poderia ajudar a esclarecer as expectativas entre sites e desenvolvedores? Sim, para aqueles que já se preocupam em fazer a coisa certa. Mas para aqueles que raspam agressivamente ou operando em áreas cinzentas, uma nova etiqueta ou cabeçalho não será suficiente. Eles o ignorarão como ignoram todo o resto, porque agora, nada os parou”, disse ele.

De acordo com Mindaugas Caplinskas, co-fundador do Serviço de Proxy ético iProyal, a limitação de taxa por meio de um serviço de proxy sempre era mais eficaz do que uma nova maneira de simplesmente pedir às pessoas que se comportassem.

“Embora (AIPREF) seja um passo adiante na direção certa, se não houver motivos legais para a aplicação, é improvável que isso faça um verdadeiro dente nos problemas de risos de IA”, disse Caplinskas.

“Por fim, a responsabilidade de conter os impactos negativos dos rastreadores de IA está com dois jogadores -chave: os próprios rastreadores e os provedores de serviços de procuração. Enquanto os rastreadores de IA podem limitar voluntariamente sua atividade, os provedores de procuração podem impor limites de taxa a seus serviços, controlando diretamente com que frequência e extensivamente os sites são enrolados”, disse ele.

No entanto. Nathan Brunner, CEO da Ferramenta de Preparação da AI, BoTerview, apontou que o bloqueio de raspadores de IA pode criar um novo conjunto de problemas.

“A situação atual é complicada para os editores que desejam que suas páginas sejam indexadas pelos mecanismos de pesquisa para obter tráfego, mas não querem que suas páginas sejam usadas para treinar sua IA”, disse ele. Isso deixa os editores com um delicado ato de equilíbrio, querendo impedir os raspadores da IA sem impedir os bots necessários, como o rastreador de indexação do Google.

“O problema é que o robots.txt foi projetado para pesquisa, e não os rastreadores da AI. Portanto, um padrão universal seria muito bem -vindo.”

Fonte: Computer World