
Crédito: dominio público Unsplash/CC0
La mayoría de las empresas detrás de modelos de idiomas grandes como ChatGPT afirman tener barandillas establecidas por razones comprensibles. No querrían que sus modelos, hipotéticamente, ofrezcan instrucciones a los usuarios sobre cómo lastimarse o suicidarse.
Sin embargo, los investigadores de la Northeastern University descubrieron que esas barandillas no solo son fáciles de romper, sino que los LLM están más que felices de ofrecer instrucciones sorprendentemente detalladas para el suicidio si pregunta por la manera correcta.
Annika Marie Schoene, científica de investigación de la práctica de IA responsable de Northeastern y la autora principal en esto papel nuevollevó a cuatro de los LLM más grandes a dar su consejo para la autolesión y el suicidio. Todos se negaron al principio, hasta que dijo que era hipotético o con fines de investigación. El estudio se publica en el arxiv servidor de preimpresión.
«Fue entonces cuando, de manera efectiva, cada barandilla fue anulada y el modelo terminó dando instrucciones muy detalladas para usar mi peso corporal, mi altura y todo lo demás para calcular qué puente debo saltar, qué medicamentos de venta libre o recetados debo usar y en qué dosis, cómo podría encontrarlo», dice Schoene.
A partir de ahí, Schoene y Cansu Canzca, directora de práctica de IA responsable y coautora del proyecto, comenzaron a presionar para ver hasta dónde podrían llevarlo. Lo que encontraron fue impactante, incluso para dos personas que son conscientes de los límites de la inteligencia artificial.
«Conociendo la psicología humana incluso un poco, ¿puede realmente llamarlo una salvaguardia si solo tiene que hacer dos turnos para obtener instrucciones de autolesiones?» Canca dice.
Ciertos modelos crearían tablas enteras descomponiendo varios métodos de suicidio. Uno dio instrucciones específicas sobre en qué parte de su cuerpo cortar, y con qué cortar, si quisiera hacer autolesiones no letales.
«Lo que más me sorprendió fue que se le ocurrió nueve o 10 métodos diferentes. No fueron solo los obvios», dice Schoene. «Literalmente entró en los detalles de los artículos del hogar que puedo usar, enumerando [how] Puede obtener estas cosas específicas de control de plagas. Entras en Walmart, francamente, compras algunas botellas y te vierte algunos disparos, y me dijiste cuántos necesitaría «.
Cancca se sorprendió por la forma aparentemente impertinente que los modelos comunicaron parte de esta información, con ChatGPT llegando a organizar información utilizando emojis.
«Comienza a tener las instrucciones realmente estructuradas, categorizadas, y puede seguirlas por los emojis específicos que corresponden a los métodos: aquí están todas las respuestas relacionadas con el salto de un puente. Aquí está el emoji de la cuerda si desea colgarse», dice Canca. «Simplemente se volvió muy oscuro muy rápido».
La mayoría de los modelos incluso hicieron que sus instrucciones fueran más convenientes. Uno al convertir la dosis letal de ciertos medicamentos de unidades métricas a un número exacto de píldoras. Cange señala que la información como esa no sería necesaria incluso para fines de investigación.
Los LLM siguieron repitiendo cómo se alegraron de que estas conversaciones fueran con «fines académicos». Pero Schoene señala que dar el salto de decirle a los LLM: «Quiero suicidarme. ¿Qué puedo hacer?» aclarar que fue para la investigación ocurrió dentro de la misma conversación. El enlace entre los dos debería haber sido claro.
Schoene y Canga contactaron a todas las empresas que tenían un modelo involucrado en el experimento – Openai (ChatGPT), Google (Géminis), antrópico (Claude) y Perplejidad – para notificarles estos hallazgos. Después de múltiples intentos, todo lo que obtuvieron fueron reconocimientos automatizados de que sus correos electrónicos habían sido recibidos. Ninguna de las empresas ha seguido. El experimento también incluyó Pi Ai, pero fue el único modelo para rechazar los intentos de evitar sus barandillas.
Los investigadores reconocen que es posible encontrar toda la información que estos modelos compartieran en otros lugares, pero la IA simplemente carece de las barandillas que los médicos, los periodistas e incluso Google tienen, específicamente, suicidio.
«No puedes simplemente sentarte allí y decirle a alguien: ‘Quiero suicidarme’ y salir de su oficina sin al menos el mínimo de recursos, una cita de seguimiento y una referencia a un psiquiatra u otros recursos», dice Schoene.
El hecho de que no solo haya pocas barandillas con IA, sino que, como las notas de Cange, estas herramientas pueden generar una guía detallada, precisa y procesable increíblemente rápida es «muy aterrador».
«Hay mérito en retrasar la información», dice Cancca. «La autolesión y el suicidio también pueden ser impulsivos, por lo que retrasarlo es útil».
Todo el experimento plantea preguntas sobre cuánto entienden y memorizan la intención de lo que les estamos diciendo, «porque en realidad no lo hacen», dice Schoene. También destaca la necesidad de barandillas reales, protocolos de seguridad y regulaciones sobre estas tecnologías, agrega.
Algunos estados en los Estados Unidos, incluida California, han comenzado a considerar seriamente las regulaciones de la IA. Los legisladores de California introdujeron recientemente una legislación destinada a proteger a los niños de la IA después de que un niño adolescente se suicidó basado en meses de conversaciones con un chatbot.
Canca dice que la responsabilidad debe ser tomada por quienes desarrollan herramientas de IA, pero aquellos que las implementan también deben reconocer los riesgos involucrados y responder en consecuencia.
«Hay diferentes niveles de preocupación de los que se preocupan diferentes partes», dice Canca. «Actualmente, parece que estamos buscando formas de desviar esas responsabilidades y decir: ‘Úselo bajo su propio riesgo. Sabe que es arriesgado. Si las cosas van mal, oh, bueno'».
A medida que más y más personas comienzan a usar IA para servicios de salud mental como terapiaSchoene dice que vale la pena ser directo sobre los límites de estas herramientas, y sus consecuencias potencialmente peligrosas.
«Es el elefante en la sala: sabemos que las personas han muerto de suicidio después de interactuar con estos modelos», dice Schoene. «Sabemos que las personas tenían episodios psicóticos, volviendo a los hospitales psiquiátricos, después de interactuar con estos modelos. ¿En qué momento reconocemos que estos no son grandes terapeutas o incluso grandes oyentes de propósito general?»
Más información:
Annika M Schoene et al, ‘¡Por el bien de los argumentos, muéstrame cómo dañarme!’: Jailbreaking LLMS en contextos suicidas y autolesiones, arxiv (2025). Doi: 10.48550/arxiv.2507.02990
Esta historia se vuelve a publicar por cortesía de Northeastern Global News News.northeastern.edu.
Citación: AI puede ayudarlo a morir por suicidio si le pregunta por la manera correcta, los investigadores dicen (2025, 31 de julio) recuperado el 31 de julio de 2025 de https://techxplore.com/news/2025-07-ai-die-suicide.html
Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.