in

El mayor error de la IA: fingir que las barandillas alguna vez te protegerán

El mayor error de la IA: fingir que las barandillas alguna vez te protegerán

El hecho de que las barreras de seguridad de los principales actores de la IA puedan sortearse fácilmente no es ninguna novedad. El problema que en su mayor parte no se aborda es qué deben hacer los líderes de TI empresariales al respecto.

Una vez que los tomadores de decisiones de TI aceptan que las barreras de seguridad no protegen nada consistentemente, las suposiciones que hacen sobre los proyectos de IA se vuelven en su mayoría discutibles. Se deben implementar otras técnicas para proteger los datos.

Los informes sobre desvíos de barandillas se están volviendo legión: la poesía desactiva las protecciones, al igual que el aprovechamiento historial de chat, insertando caracteres invisibles y usando formato hexadecimal y emojis. Más allá de eso, paciencia y jugar a largo plazoentre otros, pueden causar estragos, impactando casi todos los modelos generativos (genAI) y agentes.

Los riesgos no se limitan a lo que los atacantes pueden lograr. Los propios modelos han mostrado voluntad de ignorar sus propias protecciones cuando las ven como un impedimento para lograr un objetivo, como ha confirmado Anthropic.

Si intentamos ampliar la analogía de la carretera que da nombre a una barandilla, las “barandillas” no son barandillas en el sentido de barrera física de hormigón. Ni siquiera son elementos disuasorios fuertes, en el sentido de los badenes. Se parecen más a una única línea amarilla discontinua. Es una sugerencia débil que no se aplica o que incluso desalienta seriamente.

Si se me permite tomar prestada una frase del popular videobloguero de redes sociales Ryan George en su Serie de presentaciones de películas entre escritor y productor.un atacante que quiera sortear las barreras de seguridad actuales lo encontrará «súper fácil, apenas un inconveniente». Es como si los propietarios protegieran sus hogares colocando carteles de «No entrar» en todas sus puertas y luego mantuvieran las ventanas abiertas y las puertas sin seguro.

Así que lo que debería ¿Cómo se verá un proyecto de IA una vez que aceptemos que las barreras de seguridad no obligarán a un modelo o agente a hacer lo que se le dice?

TI tiene algunas opciones. Primero, bloquee el modelo/agente o los datos que desea proteger.

«Dejen de otorgar permisos a los sistemas de inteligencia artificial que no otorgarían a los humanos sin supervisión», dijo Yvette SchmitterCEO de la consultora Fusion Collective. «Implemente los mismos puntos de auditoría, flujos de trabajo de aprobación y estructuras de responsabilidad para las decisiones algorítmicas que necesita para las decisiones humanas. Saber que no se puede confiar en las barreras de seguridad significa diseñar sistemas donde las fallas sean visibles. No permitiría que un empleado alucinado tomara 10,000 decisiones importantes por hora sin supervisión. Deje de permitir que sus sistemas de inteligencia artificial hagan exactamente eso».

Gary Longsinedirector ejecutivo de IlluminateX, estuvo de acuerdo. Sostuvo que las mismas defensas que utilizan las empresas para bloquear el acceso no autorizado a datos de los empleados deben implementarse ahora en genAI y agentes de IA. «Lo único que realmente se puede hacer es proteger todo lo que existe fuera del LLM», dijo Longsine.

Llevado al extremo, eso podría significar mantener un modelo genAI en un entorno aislado, alimentándolo solo con los datos a los que desea acceder. No son exactamente servidores aislados, pero está cerca. No se puede engañar al modelo para que revele datos a los que no puede acceder.

Capital One jugó con algo similar; Creó sistemas genAI para concesionarios de automóviles, pero también le dio al modelo de lenguaje grande (LLM) que utilizaba acceso a datos públicos. La compañía también impulsó modelos de código abierto y evitó los hiperescaladores, lo que solucionó otro problema de barrera. Cuando los agentes son administrados activamente por una empresa externa en un entorno de nube, no necesariamente es necesario obedecer sus reglas. Recuperar el control podría significar literalmente hacerlo.

Longsine dijo que algunas empresas podrían cooperar para construir su propio centro de datos, pero ese esfuerzo sería ambicioso y costoso. (Longsine fijó el precio en 2.000 millones de dólares, pero fácilmente podría costar mucho más y tal vez ni siquiera abordara el problema de manera significativa).

Digamos que cinco empresas construyeron un centro de datos al que sólo esas cinco podían acceder. ¿Quién establecería las reglas? ¿Y en qué medida confiaría alguna de esas empresas en las otras cuatro, especialmente cuando cambia la dirección? Las empresas podrían terminar reemplazando un hiperescalador por uno improvisado mucho más pequeño y seguir teniendo los mismos problemas de control.

Aquí está la parte dolorosa: hoy en día existen muchas pruebas de concepto de GenAI que simplemente no funcionarán si la gerencia deja de creer en las barreras de seguridad. A nivel de junta directiva, al parecer, estrategia de campanilla sigue vivo y coleando. Parecen creer que las barreras de seguridad funcionarán si todos los inversores simplemente aplaudan muy fuerte.

Considere una implementación de IA que permita a los empleados acceder a información de recursos humanos. Solo le dirá a cualquier empleado o gerente la información a la que debería poder acceder. Pero esas aplicaciones (y muchas otras similares) adoptan un enfoque de codificación sencillo; le otorgan al modelo acceso a todo datos de recursos humanos y confiar en barreras de seguridad para hacer cumplir el acceso adecuado. Eso no funcionará con la IA.

No estoy diciendo que las barandillas nunca funcionen. Por el contrario, mis observaciones sugieren que sí, entre el 70 y el 80 por ciento de las veces. En algunas implementaciones mejor diseñadas, esa cifra podría llegar al 90%.

Pero ese es el techo. Y cuando se trata de proteger el acceso a los datos (especialmente una posible filtración para cualquiera que solicite la respuesta correcta), el 90% no será suficiente. Y los líderes de TI que firman proyectos con la esperanza de que funcionen se encontrarán con un 2026 muy incómodo.

Fuente

Pedidos anticipados de la colección Ultra-Premium Mega Charizard de Pokémon TCG reabastecidos en Amazon

Colección Ultra-Premium Mega Charizard de Pokémon TCG reabastecida con un recorte de precio de $ 50 en Amazon

Nintendo Switch 2 Piranha Plant Camera con descuento al mejor precio hasta el momento

Nintendo Switch 2 Piranha Plant Camera con descuento al mejor precio hasta el momento