Señaló que una gran fuente de tráfico son los rastreadores de inteligencia artificial, que están cada vez más bajo escrutinio a medida que escanean la web y devoran grandes cantidades de datos para entrenar grandes modelos de lenguaje (LLM). Una gran preocupación es que algunos toman datos incluso cuando no se supone que deben hacerlo, a diferencia de los buenos bots «verificados» que generalmente provienen de motores de búsqueda y son transparentes sobre quiénes son (como GoogleBot, GPTBot, Qualys y BingBot). .
Cloudflare rastrea el tráfico de bots de IA para determinar cuáles son los más agresivos, cuáles tienen el mayor volumen de solicitudes y cuáles realizan rastreos de forma regular. Los investigadores descubrieron que «facebookexternalhit» representó la mayor parte del tráfico durante todo el año (27,16%): el robot es conocido por crear tráfico excesivo — seguido por Bytespider (del propietario de TikTok, ByteDance) con un 23,35%, Amazonbot (13,34%), ClaudeBot de Anthropic (8,06%) y GPTBot (5,60%).
Curiosamente, el tráfico de Bytespider disminuyó gradualmente a lo largo del año, terminando aproximadamente entre un 80 % y un 85 % más bajo que a principios de año, mientras que el tráfico de ClaudeBot de Anthropic experimentó un aumento a mediados de año y luego se estabilizó. El tráfico de GPTBot, por su parte, se mantuvo bastante constante durante 2024.
GIPHY App Key not set. Please check settings