Para los editores web, evitar que los bots de IA raspen su mejor contenido mientras consume un valioso ancho de banda debe sentirse en algún lugar entre inútil y casi imposible.
Es como arrojar una taza de agua a un fuego forestal. No importa lo que intente, la nueva generación de bots sigue avanzando, consumiendo datos insaciables para capacitar a los modelos de IA que actualmente están en control de hiper-crecimiento competitivo.
Pero con los enfoques tradicionales para limitar el comportamiento de BOT, como un archivo robots.txt, que se ve cada vez más largo en el diente, una especie de solución podría estar en el horizonte a través del trabajo realizado por el Grupo de Trabajo del Grupo de Trabajo de Ingeniería de Internet (IETF) (AIPREF).
El Grupo de Trabajo de Aipref se reunirá esta semana en Bruselas, donde espera continuar su trabajo para poner las bases Para un nuevo sistema de robots.txt para sitios web que indicarán a los sistemas de inteligencia artificial que están y no están fuera de los límites.
El grupo intentará definir dos mecanismos para contener raspadores de IA, comenzando con «un vocabulario común para expresar las preferencias de los autores y editores con respecto al uso de su contenido para la capacitación de IA y las tareas relacionadas».
En segundo lugar, desarrollará un «medio para adjuntar ese vocabulario al contenido en Internet, ya sea integrándolo en el contenido o mediante formatos similares a robots.txt, y un mecanismo estándar para conciliar múltiples expresiones de preferencias».
Copresidentes del grupo de trabajo de Aipref Mark Nottingham y Suresh Krishnan descrito La necesidad de cambiar en una publicación de blog:
«En este momento, los proveedores de IA usan una variedad confusa de señales no estándar en el archivo robots.txt y en otros lugares para guiar sus decisiones de rastreo y capacitación», escribieron. «Como resultado, los autores y editores pierden la confianza de que sus preferencias se cumplirán y recurrirán a medidas como bloquear sus direcciones IP».
El grupo de trabajo AIPREF ha prometido Para convertir sus ideas en torno al mayor cambio en la forma en que los sitios web indican sus preferencias desde Robots.txt se usó por primera vez en 1994 en algo concreto a mediados de año.
IA parásita
La iniciativa llega en un momento en que la preocupación por el raspado de IA está creciendo en toda la industria editorial. Esto se está desarrollando de manera diferente en todos los países, pero los gobiernos desean alentar el desarrollo local de IA no siempre se han apresurado a defender a los creadores de contenido.
En 2023, Google fue golpeado por una demanda, luego despedidoalegando que su IA había raspado material con derechos de autor. En 2025, el ejecutivo de televisión del canal 4 del Reino Unido Alex Mahon Dijo a los parlamentarios británicos Que el esquema propuesto por el gobierno británico para permitir que las compañías de IA capaciten modelos en contenido a menos que los editores optaran por no participar en el «raspado de valor de nuestras industrias creativas».
En este problema en estos casos es el principio de tomar contenido con derechos de autor para entrenar modelos de IA, en lugar del mecanismo a través del cual se logra, pero los dos están, posiblemente, interconectados.
Mientras tanto, en un hilo de queja separado, la Fundación Wikimedia, que supervisa Wikipedia, dijo la semana pasada Que los bots de IA habían causado un aumento del 50% en el ancho de banda consumido desde enero de 2024 al descargar contenido multimedia, como videos:
«Este aumento no proviene de lectores humanos, sino en gran medida de programas automatizados que raspan el catálogo de imágenes de Wikimedia Commons de imágenes con licencia abierta para alimentar imágenes a modelos de IA», explicó la fundación.
«Este alto uso también está causando una interrupción constante para nuestro equipo de confiabilidad del sitio, que tiene que bloquear el tráfico abrumador de tales rastreadores antes de causar problemas para nuestros lectores», agregó Wikimedia.
Defensas de AI Crawler
El problema subyacente es que los métodos establecidos para detener los bots de IA tienen desventajas, suponiendo que funcionen en absoluto. El uso de archivos robots.txt para expresar preferencias se puede ignorar, como lo ha sido por raspadores tradicionales que no son AI durante años.
Las alternativas (IP o cadena de agente de usuario a través de redes de entrega de contenido (CDN) como CloudFlare, CAPTCHAS, Limitation y Firewalls de aplicaciones web) también tienen desventajas.
Incluso enfoques laterales como ‘Tarpits’ -Los rastreadores confusos con laberintos de archivos que consumen recursos sin enlaces de salida pueden ser derrotados por el sofisticado rastreador de IA de OpenAI. Pero incluso cuando trabajan, los tarpits también corren el riesgo de consumir recursos del procesador host.
La gran pregunta es si AIPREF hará alguna diferencia. Podría llegar a la postura ética de las empresas que se raspan; Algunos jugarán a la pelota con Aipref, muchos otros no.
Cahyo Subroto, el desarrollador detrás de la herramienta de raspado web «ética» de Mrscraper, es escéptico:
«¿Podría Aipref ayudar a aclarar las expectativas entre los sitios y los desarrolladores? Sí, para aquellos que ya les importa hacer lo correcto. Pero para aquellos que raspan agresivamente u operan en áreas grises, una nueva etiqueta o encabezado no será suficiente. Lo ignorarán como ignoran todo lo demás, porque en este momento, nada los detiene», dijo.
Según Mindaugas Caplinskas, cofundador del servicio de proxy ético iproyal, la limitación de tarifas a través de un servicio de representación siempre fue más efectivo que una nueva forma de simplemente pedirle a la gente que se comporte.
«Mientras [AIPREF] Es un paso adelante en la dirección correcta, si no hay motivos legales para la aplicación, es poco probable que haga una verdadera mella en los problemas de IA Crawler ”, dijo Caplinskas.
«En última instancia, la responsabilidad de frenar los impactos negativos de los rastreadores de IA recae en dos jugadores clave: los rastreadores en sí y los proveedores de servicios de poder. Si bien los rastreadores de IA pueden limitar voluntariamente su actividad, los proveedores proxy pueden imponer límites de tarifas en sus servicios, controlando directamente cómo se rastrean voluntariamente», dijo.
Sin embargo. Nathan Brunner, CEO de la herramienta de preparación de entrevistas con AI Boterview, señaló que el bloqueo de los raspadores de IA podría crear un nuevo conjunto de problemas.
«La situación actual es complicada para los editores que desean que sus páginas sean indexadas por los motores de búsqueda para obtener tráfico, pero no quieren que sus páginas se usen para entrenar su IA», dijo. Esto deja a los editores con un delicado acto de equilibrio, deseando evitar los raspadores de IA sin impedir los bots necesarios como el rastreador de indexación de Google.
«El problema es que Robots.txt fue diseñado para la búsqueda, no los rastreadores de IA. Por lo tanto, un estándar universal sería bienvenido».