in

Una investigación sugiere que la intuición es tan eficaz para desbloquear chatbots de IA como los métodos técnicos

Considere que la intuición es tan eficaz para desbloquear chatbots de IA como los métodos técnicos

Considere que la intuición es tan eficaz para desbloquear chatbots de IA como los métodos técnicos

Consultas enviadas a un chatbot de IA por un participante de Bias-a-Thon y las respuestas generadas por IA muestran prejuicios religiosos. Crédito: CSRAI / Penn State

No se necesita experiencia técnica para sortear las barreras integradas de los chatbots de inteligencia artificial (IA) como ChatGPT y Gemini, cuyo objetivo es garantizar que los chatbots operen dentro de un conjunto de límites legales y éticos y no discriminen a personas de cierta edad, raza o género.

Una sola pregunta intuitiva puede desencadenar la misma respuesta sesgada de un modelo de IA que las consultas técnicas avanzadas, según un equipo dirigido por investigadores de Penn State.

«Muchas investigaciones sobre el sesgo de la IA se han basado en sofisticadas técnicas de ‘jailbreak'», dijo Amulya Yadav, profesora asociada de la Facultad de Ciencias de la Información y Tecnología de Penn State. «Estos métodos a menudo implican generar cadenas de caracteres aleatorios calculados mediante algoritmos para engañar a los modelos y revelar respuestas discriminatorias.

«Si bien estas técnicas prueban que estos sesgos existen teóricamente, no reflejan cómo la gente real usa la IA. El usuario promedio no realiza ingeniería inversa en las probabilidades de los tokens ni pega secuencias de caracteres crípticas en ChatGPT; escribe mensajes sencillos e intuitivos. Y esa realidad vivida es lo que captura este enfoque».

Expertos han realizado trabajos anteriores que investigan el sesgo de la IA (resultados sesgados o discriminatorios de los sistemas de IA causados ​​por influencias humanas en los datos de entrenamiento, como el lenguaje o el sesgo cultural) utilizando conocimientos técnicos para diseñar respuestas de modelos de lenguaje grandes (LLM). Para ver cómo los usuarios promedio de Internet encuentran prejuicios en los chatbots impulsados ​​por IA, los investigadores estudiaron las entradas enviadas a un concurso llamado «Bias-a-Thon». Organizada por el Centro para la IA Socialmente Responsable (CSRAI) de Penn State, la competencia desafió a los concursantes a idear indicaciones que llevarían a los sistemas generativos de IA a responder con respuestas sesgadas.

Descubrieron que las estrategias intuitivas empleadas por los usuarios cotidianos eran tan efectivas para inducir respuestas sesgadas como las estrategias técnicas de los expertos. los investigadores presentaron sus hallazgos al Octava Conferencia AAAI/ACM sobre IA, Ética y Sociedad.

Cincuenta y dos personas participaron en el Bias-a-Thon y enviaron capturas de pantalla de 75 indicaciones y respuestas de IA de ocho modelos generativos de IA. También proporcionaron una explicación del sesgo o estereotipo que identificaron en la respuesta, como el sesgo histórico o relacionado con la edad.

Los investigadores realizaron entrevistas por Zoom con un subconjunto de participantes para comprender mejor sus estrategias de motivación y sus concepciones de ideas como la justicia, la representación y los estereotipos al interactuar con herramientas de IA generativa. Una vez que llegaron a una definición funcional de «sesgo» informada por los participantes, que incluía falta de representación, estereotipos y prejuicios, y preferencias injustificadas hacia grupos, los investigadores probaron las indicaciones del concurso en varios LLM para ver si provocarían respuestas similares.

Considere que la intuición es tan eficaz para desbloquear chatbots de IA como los métodos técnicos

Una consulta enviada por un participante de Bias-a-Thon y la respuesta generativa de la IA que muestra un sesgo hacia los estándares de belleza convencionales. Crédito: CSRAI / Penn State

«Los modelos de lenguaje grandes son inherentemente aleatorios», dijo el autor principal Hangzhi Guo, candidato a doctorado en ciencias de la información y tecnología en Penn State. «Si les hace la misma pregunta a estos modelos dos veces, es posible que devuelvan respuestas diferentes. Queríamos utilizar sólo las indicaciones que fueran reproducibles, lo que significa que arrojaron respuestas similares en todos los LLM».

Los investigadores encontraron que 53 de las indicaciones generaron resultados reproducibles. Los prejuicios se dividieron en ocho categorías: prejuicio de género; prejuicios raciales, étnicos y religiosos; sesgo de edad; sesgo de discapacidad; sesgo lingüístico; sesgo histórico que favorece a las naciones occidentales; sesgo cultural; y parcialidad política.

Los investigadores también encontraron que los participantes utilizaron siete estrategias para provocar estos sesgos: juegos de roles o pedirle al LLM que asumiera una personalidad; escenarios hipotéticos; utilizar el conocimiento humano para preguntar sobre temas específicos, donde es más fácil identificar respuestas sesgadas; utilizar preguntas capciosas sobre temas controvertidos; investigar sesgos en grupos subrepresentados; alimentar al LLM con información falsa; y enmarcar la tarea como si tuviera un propósito de investigación.

«La competencia reveló una serie de prejuicios completamente nuevos», dijo Yadav, organizador del Bias-a-Thon. «Por ejemplo, el trabajo ganador descubrió una extraña preferencia por los estándares de belleza convencionales. Los LLM consideraron consistentemente que una persona con un rostro claro era más confiable que una persona con acné facial, o una persona con pómulos altos era más empleable que una persona con pómulos bajos.

«Esto ilustra cómo los usuarios promedio pueden ayudarnos a descubrir puntos ciegos en nuestra comprensión de dónde están sesgados los LLM. Puede haber muchos más ejemplos como estos que han sido pasados ​​por alto en la literatura sobre jailbreak sobre el sesgo de LLM».

Los investigadores describieron la mitigación de sesgos en los LLM como un juego del gato y el ratón, lo que significa que los desarrolladores abordan constantemente los problemas a medida que surgen. Sugirieron estrategias que los desarrolladores pueden usar para mitigar estos problemas ahora, incluida la implementación de un filtro de clasificación sólido para filtrar los resultados antes de enviarlos a los usuarios, realizar pruebas exhaustivas, educar a los usuarios y proporcionar referencias o citas específicas para que los usuarios puedan verificar la información.

«Al arrojar luz sobre los prejuicios inherentes y reproducibles que los profanos pueden identificar, el Bias-a-Thon cumple una función de alfabetización en IA», dijo el coautor S. Shyam Sundar, profesor de la Universidad Evan Pugh en Penn State y director del Centro de Inteligencia Artificial Socialmente Responsable de Penn State, que desde entonces ha organizado otras competencias de IA como Fake-a-thon, Diagnose-a-thon y Cheat-a-thon.

«El objetivo general de estos esfuerzos es aumentar la conciencia sobre los problemas sistemáticos de la IA, promover el uso informado de la IA entre los legos y estimular formas más socialmente responsables de desarrollar estas herramientas».

Más información:
Hangzhi Guo et al, Exponiendo el sesgo de la IA mediante el crowdsourcing: crítica democratizadora de los grandes modelos lingüísticos, Actas de la Conferencia AAAI/ACM sobre IA, Ética y Sociedad (2025). DOI: 10.1609/aies.v8i2.36620

Proporcionado por la Universidad Estatal de Pensilvania


Citación: La intuición es tan eficaz para desbloquear chatbots de IA como los métodos técnicos, sugiere una investigación (2025, 4 de noviembre) recuperado el 4 de noviembre de 2025 de https://techxplore.com/news/2025-11-lay-intuition- Effective-jailbreaking-ai.html

Este documento está sujeto a derechos de autor. Aparte de cualquier trato justo con fines de estudio o investigación privados, ninguna parte puede reproducirse sin el permiso por escrito. El contenido se proporciona únicamente con fines informativos.



Fuente

iOS 26.2 beta trae cambios a Sleep Score, Apple News y más

La actualización de Los Simpson de Fortnite provocó un gran aumento de jugadores, el mayor en mucho tiempo

La actualización de Los Simpson de Fortnite provocó un gran aumento de jugadores, el mayor en mucho tiempo