in

Los modelos de lenguaje de gran tamaño pueden ayudar a detectar bots en redes sociales, pero también pueden empeorar el problema

robot conversacional

robot conversacional

Crédito: Pixabay/CC0 Dominio público

Un estudio externo de Twitter en 2022 estimó que entre un tercio y dos tercios de las cuentas en la red social eran bots. Y muchos de estos autómatas que inundan las redes sociales están destinados a sembrar polarización política, odio, desinformación, propaganda y estafas. La capacidad de distinguirlos de las multitudes en línea es vital para una Internet más segura y más humana (o al menos más humana).

Pero la reciente proliferación de modelos de lenguaje de gran tamaño (conocidos como “LLM”), como ChatGPT de OpenAI y Llama de Meta, complica el mundo de los bots de las redes sociales.

Un equipo dirigido por investigadores de la Universidad de Washington descubrió que, si bien los operadores pueden utilizar LLM personalizados para hacer que los bots sean más sofisticados a la hora de evadir los detectores automáticos, los LLM también pueden mejorar los sistemas que detectan bots. En las pruebas del equipo, los bots basados ​​en LLM redujeron el rendimiento de los detectores existentes en un 30 %. Sin embargo, los investigadores también descubrieron que un LLM entrenado específicamente para detectar bots de redes sociales superó a los sistemas de última generación en un 9 %.

El equipo presentado Esta investigación el 11 de agosto en 62.ª Reunión Anual de la Asociación de Lingüística Computacional en Bangkok.

«Siempre ha habido una carrera armamentista entre los operadores de bots y los investigadores que intentan detenerlos», dijo el autor principal Shangbin Feng, estudiante de doctorado en la Escuela Paul G. Allen de Ciencias Informáticas e Ingeniería. «Cada avance en la detección de bots suele ir acompañado de un avance en la sofisticación de los mismos, por lo que exploramos las oportunidades y los riesgos que presentan los grandes modelos de lenguaje en esta carrera armamentista».

Los investigadores probaron el potencial de los LLM para detectar bots de varias maneras. Cuando introdujeron conjuntos de datos de Twitter (seleccionados antes de que la plataforma se convirtiera en X) en LLM listos para usar, incluidos ChatGPT y Llama, los sistemas no detectaron bots con mayor precisión que las tecnologías que se utilizan actualmente.

«Analizar si un usuario es un bot o no es mucho más complejo que algunas de las tareas en las que hemos visto que estos LLM generales se destacan, como recordar un hecho o resolver un problema de matemáticas de primaria», dijo Feng.

Esta complejidad proviene en parte de la necesidad de analizar tres tipos de información en busca de diferentes atributos para detectar un bot: los metadatos (número de seguidores, geolocalización, etc.), el texto publicado en línea y las propiedades de la red (como qué cuentas sigue un usuario).

Cuando el equipo afinó los LLM con instrucciones sobre cómo detectar bots basándose en estos tres tipos de información, los modelos pudieron detectar bots con mayor precisión que los sistemas actuales de última generación.

El equipo también exploró cómo los LLM podrían hacer que los bots sean más sofisticados y más difíciles de detectar. Primero, los investigadores simplemente dieron a los LLM indicaciones como: «Por favor, reescriba la descripción de esta cuenta de bot para que suene como un usuario genuino».

También probaron enfoques más iterativos y complicados. En una prueba, el LLM reescribía la publicación del bot. Luego, el equipo la ejecutaba a través de un sistema de detección de bots existente, que estimaba la probabilidad de que una publicación fuera escrita por un bot. Este proceso se repetía a medida que el LLM trabajaba para reducir esa estimación. El equipo realizó una prueba similar mientras eliminaba y añadía cuentas que el bot seguía para ajustar su puntuación de probabilidad.

Estas estrategias, en particular la reescritura de las publicaciones de los bots, redujeron la eficacia de los sistemas de detección de bots hasta en un 30%. Pero los detectores basados ​​en LLM que el equipo entrenó solo vieron una caída del 2,3% en la eficacia en estas publicaciones manipuladas, lo que sugiere que la mejor manera de detectar bots impulsados ​​por LLM podría ser con los propios LLM.

«Este trabajo es sólo un prototipo científico», dijo la autora principal Yulia Tsvetkov, profesora adjunta de la Escuela Allen. «No estamos lanzando estos sistemas como herramientas que cualquiera pueda descargar, porque además de desarrollar tecnología para defenderse de los bots maliciosos, estamos experimentando con el modelado de amenazas para crear un bot evasivo, lo que continúa el juego del gato y el ratón de construir bots más fuertes que necesitan detectores más fuertes».

Los investigadores señalan que existen limitaciones importantes para el uso de los LLM como detectores de bots, como la posibilidad de que los sistemas filtren información privada. También destacan que los datos utilizados en el artículo son de 2022, antes de que Twitter cerrara efectivamente sus datos a los investigadores académicos.

En el futuro, los investigadores quieren estudiar la detección de bots más allá del texto, como memes o vídeos en otras plataformas como TikTok, donde hay disponibles conjuntos de datos más nuevos. El equipo también quiere ampliar la investigación a otros idiomas.

«Realizar esta investigación en diferentes idiomas es sumamente importante», afirmó Tsvetkov. «Estamos viendo mucha desinformación, manipulación y ataques a poblaciones específicas como resultado de varios conflictos mundiales».

Los coautores adicionales de este artículo son Herun Wan y Ningnan Wang, ambos estudiantes de pregrado en la Universidad Xi’an Jiaotong; Minnan Luo, profesor asistente en la Universidad Xi’an Jiaotong; y Zhaoxuan Tan, estudiante de doctorado en la Universidad de Notre Dame.

Más información:
Shangbin Feng et al. ¿Qué dice el bot? Oportunidades y riesgos de los modelos de lenguaje de gran tamaño en la detección de bots en redes sociales. aclanthology.org/2024.acl-long.196/

Proporcionado por la Universidad de Washington


Citación:Los modelos de lenguaje de gran tamaño pueden ayudar a detectar bots en las redes sociales, pero también pueden empeorar el problema (28 de agosto de 2024) recuperado el 28 de agosto de 2024 de https://techxplore.com/news/2024-08-large-language-social-media-bots.html

Este documento está sujeto a derechos de autor. Salvo que se haga un uso legítimo con fines de estudio o investigación privados, no se podrá reproducir ninguna parte del mismo sin autorización por escrito. El contenido se ofrece únicamente con fines informativos.



Fuente

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

GIPHY App Key not set. Please check settings

Beats y Verdy presentan una figura de oso coleccionable que sostiene tu pastilla Beats

Mando inalámbrico Razer Wolverine V3 Pro para Xbox y PC

Reseña del Razer Wolverine V3 Pro: el primer control inalámbrico para Xbox de Razer es fantástico