Una guerra pública de palabras ha estallado entre el líder de infraestructura de la nube Cloudflare y la perplejidad de la compañía de búsqueda de IA, con ambas partes haciendo serias acusaciones sobre la competencia técnica de los demás en una disputa que los analistas de la industria dicen que expone fallas fundamentales en cómo las empresas protegen el contenido de la recopilación de datos de IA.
La controversia comenzó cuando Cloudflare publicó un informe técnico mordaz que acusó a la perplejidad de «rastreo sigiloso», utilizando navegadores web disfrazados para pasar por alto los bloques de sitios web y raspar contenido que los propietarios del sitio querían explícitamente mantener alejados de la capacitación de IA. La perplejidad rápidamente retrocedió, acusando a Cloudflare de crear un «truco publicitario» al atribuir mal millones de solicitudes web de servicios no relacionados para impulsar sus propios esfuerzos de marketing.
Los expertos de la industria advierten que el intercambio acalorado revela que las herramientas actuales de detección de BOT no están distinguiendo entre servicios de IA legítimos y rastreadores problemáticos, dejando a las empresas sin estrategias de protección confiables.
Las acusaciones técnicas de Cloudflare
La investigación de Cloudflare comenzó después de que los clientes se quejaron de que la perplejidad todavía estaba accediendo a su contenido a pesar de bloquear a sus rastreadores conocidos a través de robots.txt archivos y reglas de firewall. Para probar esto, Cloudflare creó dominios nuevos, bloqueó todos los rastreadores de IA y luego hizo preguntas de perplejidad sobre esos sitios.
«Descubrimos que la perplejidad aún estaba proporcionando información detallada sobre el contenido exacto alojado en cada uno de estos dominios restringidos». Cloudflare informado en una publicación de blog. «Esta respuesta fue inesperada, ya que habíamos tomado todas las precauciones necesarias para evitar que estos datos fueran recuperables por sus rastreadores».
La compañía descubrió que cuando el rastreador declarado de Perplexity estaba bloqueado, supuestamente cambió a un agente de usuario de navegador genérico diseñado para parecerse a Chrome en MacOS. Este supuesto rastreador sigiloso generó 3-6 millones de solicitudes diarias en decenas de miles de sitios web, mientras que la perplejidad declaró a Crawler manejó 20-25 millones de solicitudes diarias.
Cloudflare enfatizó que este comportamiento violaba los principios web básicos: «Internet, como lo hemos conocido durante las últimas tres décadas, está cambiando rápidamente, pero una cosa sigue siendo constante: se basa en la confianza. Hay preferencias claras de que los rastreadores deben ser transparentes, tienen un propósito claro, realizar una actividad específica y, lo más importante, seguir las directivas y preferencias del sitio web».
Por el contrario, cuando Cloudflare probó el chatgpt de OpenAi con los mismos dominios bloqueados, «descubrimos que el usuario de ChatGPT obtuvo el archivo de robots y dejó de arrastrarse cuando se no permitió. No observamos rastreos de seguimiento de ningún otro agente de usuario o bots de terceros».
Acusación de ‘truco publicitario’ de Perplexity
La perplejidad no tenía nada de eso. En Publicación de LinkedIn Eso no logró golpes, la compañía acusó a Cloudflare de apuntar deliberadamente a su propio cliente para la ventaja de marketing.
La compañía de IA sugirió dos posibles explicaciones para el informe de Cloudflare: «Cloudflare necesitaba un momento publicitario inteligente y nosotros, su propio cliente, resultó ser un nombre útil para obtener uno» o «Cloudflare fundamentalmente mal de 3 a 6 millones de solicitudes diarias del servicio de navegador automatizado de BrowserBase a la perplejidad».
La perplejidad afirmó que el tráfico en disputa realmente provino de BrowserBase, un servicio de navegador en la nube de terceros que la perplejidad utiliza con moderación, que representa menos de 45,000 de sus solicitudes diarias frente a los 3-6 millones de manchas de nube atribuidas al rango de riqueza.
«Cloudflare atribuyó fundamentalmente las solicitudes diarias de 3 a 6 millones de del servicio de navegador automatizado de BrowserBase a la perplejidad, una falla básica en el análisis de tráfico que es particularmente vergonzosa para una empresa cuyo negocio principal es comprender y categorizar el tráfico web», la perplejidad respondió.
La compañía también argumentó que Cloudflare malinterpreta cómo funcionan los asistentes modernos de IA: «Cuando le hace a la perplejidad una pregunta que requiere información actual, digamos:» ¿Cuáles son las últimas revisiones para ese nuevo restaurante? » – La IA aún no tiene esa información en una base de datos en algún lugar.
La perplejidad apuntó directamente a la competencia de Cloudflare: «Si no puede decirle a un asistente digital útil de un raspador malicioso, entonces probablemente no debería tomar decisiones sobre lo que constituye un tráfico web legítimo».
El análisis de expertos revela problemas más profundos
Los analistas de la industria dicen que la disputa expone vulnerabilidades más amplias en estrategias de protección de contenido empresarial que van más allá de esta sola controversia.
«Algunas herramientas de detección de bot exhiben problemas de confiabilidad significativos, incluidos los altos falsos positivos y la susceptibilidad a las tácticas de evasión, como lo demuestran el rendimiento inconsistente para distinguir los servicios de IA legítimos de los rastreadores maliciosos», dijo Charlie Dai, vicepresidente y analista principal de Forrester.
Sanchit Vir Gogia, jefe de analistas y directores ejecutivos de Greyhound Research, argumentó que la disputa «señala un punto de inflexión urgente para los equipos de seguridad empresarial: herramientas tradicionales de detección de bots: construidas para rastreadores estáticos y automatización volumétrica ya no están equipadas para manejar la subtletía de los agentes con AI a los agentes que operan en nombre de los usuarios».
El desafío técnico es matizado, explicó Gogia, «mientras que los asistentes avanzados de IA a menudo obtienen contenido en tiempo real para la consulta de un usuario, sin almacenar o capacitar en esos datos, lo hacen utilizando marcos de automatización como titiriteros o dramaturgos que tienen una parecido sorprendente con las herramientas de liquidez. Esto deja a los sistemas de detección de bots entre ayuda y daño».
El camino hacia los nuevos estándares
Esta pelea no se trata solo de detalles técnicos, se trata de establecer reglas para la interacción AI-Web. La perplejidad advirtió sobre consecuencias más amplias: «El resultado es un Internet de dos niveles donde su acceso no depende de sus necesidades, sino de si sus herramientas elegidas han sido bendecidas por los controladores de infraestructura».
Los marcos de la industria están surgiendo, pero lentamente. «Los estándares maduros son poco probables antes de 2026. Las empresas aún podrían tener que confiar en contratos personalizados, robots.txt y precedentes legales en evolución en el ínterin», señaló Dai. Mientras tanto, algunas compañías están desarrollando soluciones: OpenAI está pilotando la verificación de identidad a través de la autenticación de Bot Bot, lo que permite que los sitios web confirman criptográficamente las solicitudes de agentes.
Gogia advirtió sobre implicaciones más amplias: «El riesgo es una web balcanizada, donde solo los proveedores considerados cumplidos por los principales proveedores de infraestructura tienen el acceso, favoreciendo así los titulares y congelando la innovación abierta».