Uma guerra pública de palavras entrou em erupção entre líder de infraestrutura em nuvem Cloudflare e perplexidade da empresa de pesquisa de IA, com os dois lados fazendo alegações sérias sobre a competência técnica uns dos outros em uma disputa que os analistas do setor afirmam que expõe falhas fundamentais em como as empresas protegem o conteúdo da coleta de dados da IA.
A controvérsia começou quando o CloudFlare publicou um relatório técnico contundente acusando a perplexidade de “furtivo rastejando” – usando navegadores da Web disfarçados para esgueirar blocos de sites e raspar o conteúdo que os proprietários de sites queriam explicitamente evitar o treinamento da IA. A perplexidade rapidamente revidou, acusando a CloudFlare de criar um “golpe publicitário”, atribuindo erros de milhões de solicitações da Web de serviços não relacionados para aumentar seus próprios esforços de marketing.
Especialistas do setor alertam que a troca acalorada revela que as ferramentas atuais de detecção de bot estão deixando de distinguir entre serviços legítimos de IA e rastreadores problemáticos, deixando empresas sem estratégias de proteção confiáveis.
As alegações técnicas da Cloudflare
A investigação da Cloudflare começou depois que os clientes reclamaram que a perplexidade ainda estava acessando seu conteúdo, apesar de bloquear seus rastreadores conhecidos através de arquivos robôs.txt e regras de firewall. Para testar isso, o CloudFlare criou domínios novos, bloqueou todos os rastreadores de AI e fez perguntas perplexidades sobre esses sites.
“Descobrimos que a perplexidade ainda estava fornecendo informações detalhadas sobre o conteúdo exato hospedado em cada um desses domínios restritos”, relatou Cloudflare em uma postagem no blog. “Essa resposta foi inesperada, pois tomamos todas as precauções necessárias para impedir que esses dados sejam recuperáveis por seus rastreadores”.
A empresa descobriu que, quando o rastreador declarado da Perplexity foi bloqueado, ela supostamente mudou para um agente de usuário do navegador genérico projetado para se parecer com o Chrome no macOS. Esse suposto rastreador furtivo gerou 3-6 milhões de solicitações diárias em dezenas de milhares de sites, enquanto o RAWLER DO RAWLER DE PERPLEXITY lidou com 20 a 25 milhões de solicitações diárias.
A Cloudflare enfatizou que esse comportamento violou os princípios básicos da Web: “A Internet como a conhecemos nas últimas três décadas está mudando rapidamente, mas uma coisa permanece constante: é construída com base na confiança. Há preferências claras de que os rastreadores devem ser transparentes, servir a um propósito claro, executar uma atividade específica e, mais importante, seguir as diretrizes e preferências do site.”
Por outro lado, quando o CloudFlare testou o Chatgpt do OpenAI com os mesmos domínios bloqueados, “descobrimos que o usuário do ChatGPT buscava o arquivo robots e parou de rastejar quando não foi permitido. Não observamos rastreamentos de acompanhamento de outros agentes usuários ou de terceiros.”
A acusação de ‘dublê publicitária’ da Perplexity
Perplexidade não estava tendo nada disso. Em um post do LinkedIn que não deu socos, a empresa acusou o CloudFlare de direcionar deliberadamente seu próprio cliente para vantagem de marketing.
A empresa de IA sugeriu duas explicações possíveis para o relatório da Cloudflare: “O CloudFlare precisava de um momento de publicidade inteligente e nós-seu próprio cliente-foi um nome útil para obtê-los um” ou “Cloudflare fundamentalmente atribuído a 3 a 6 milhões de solicitações diárias do BrowSerBase do serviço de navegador automatizado para perplexidade”.
A Perplexity afirmou que o tráfego disputado veio da BrowserBase, um serviço de navegador de nuvem de terceiros que a perplexidade usa com moderação, representando menos de 45.000 de suas solicitações diárias em relação aos 3-6 milhões de cloudflare atribuídos à furtividade.
“O Cloudflare fundamentalmente atribuiu solicitações diárias de 3 a 6m do serviço automatizado do navegador da BrowserBase para a perplexidade, uma falha básica de análise de tráfego que é particularmente embaraçosa para uma empresa cujo negócio principal é entender e categorizar o tráfego da web”, repeliu a perplexidade.
A empresa também argumentou que o CloudFlare entende mal como os assistentes de IA modernos funcionam: “Quando você faz uma perplexidade uma pergunta que requer informações atuais – digamos: ‘Quais são os comentários mais recentes para esse novo restaurante?’ – A IA já não possui essas informações em um banco de dados em algum lugar.
A Perplexity pretendia direto a competência do Cloudflare: “Se você não pode dizer a um assistente digital útil de um raspador malicioso, provavelmente não deve tomar decisões sobre o que constitui tráfego legítimo da Web”.
Análise de especialistas revela problemas mais profundos
Analistas do setor dizem que a disputa expõe vulnerabilidades mais amplas em estratégias de proteção de conteúdo corporativo que vão além dessa controvérsia única.
“Algumas ferramentas de detecção de bot exibem questões significativas de confiabilidade, incluindo altos falsos positivos e suscetibilidade às táticas de evasão, como evidenciado pelo desempenho inconsistente na distinção de serviços legítimos de IA de rastreadores maliciosos”, disse Charlie Dai, vice -presidente de analista da Forrester.
O Sanchit Vir Gogia, analista-chefe e CEO da Greyhound Research, argumentou que a disputa “sinaliza um ponto de inflexão urgente para as equipes de segurança corporativa: ferramentas tradicionais de detecção de bot-construídas para rastreadores estáticos da Web e automação volumétrica-não estão mais equipados para lidar com a subtenimento de agentes operacionais de AI de um baseado em relação aos usuários.
O desafio técnico é sutil, explicou Gogia: “Enquanto os assistentes avançados de IA frequentemente buscam conteúdo em tempo real para a consulta de um usuário-sem armazenar ou treinar esses dados-eles o fazem usando estruturas de automação, como o boneco ou dramaturgos, que têm uma aparência impressionante.”
O caminho para novos padrões
Essa luta não se trata apenas de detalhes técnicos-trata-se de estabelecer regras para a interação AI-Web. A perplexidade alertou sobre consequências mais amplas: “O resultado é uma Internet de duas camadas, onde seu acesso não depende de suas necessidades, mas se as ferramentas escolhidas foram abençoadas por controladores de infraestrutura”.
As estruturas do setor estão surgindo, mas lentamente. “Os padrões maduros são improváveis antes de 2026. As empresas ainda podem ter que confiar em contratos personalizados, robots.txt e evoluir precedentes legais nesse meio tempo”, observou Dai. Enquanto isso, algumas empresas estão desenvolvendo soluções: o OpenAI está pilotando a verificação da identidade por meio da Web Bot Auth, permitindo que os sites confirmem criptograficamente solicitações de agentes.
Gogia alertou sobre implicações mais amplas: “O risco é uma web balcanizada, onde apenas fornecedores considerados compatíveis com os principais provedores de infraestrutura podem ter acesso, favorecendo assim os titulares e congelando a inovação aberta”.
Fonte: Computer World