Aunque muchos ejecutivos de C-suite y línea de negocios (LOB) están haciendo todo lo posible para centrarse en la eficiencia y flexibilidad generativa de IA (Genai), y no Sobre la frecuencia con la que la tecnología ofrece respuestas incorrectas: los tomadores de decisiones de TI no pueden permitirse hacer lo mismo.
No se trata solo de alucinaciones, aunque la tasa creciente a la que surgen este tipo de errores es aterrador. Esta falta de confiabilidad es causada principalmente por elementos de uno de los cuatro cubos:
- Alucinacionesdonde las herramientas Genai simplemente componen respuestas;
- Datos de entrenamiento malosya sea que eso significa datos que son insuficientes, anticuados, sesgados o de baja calidad;
- Instrucciones de consulta ignoradasque a menudo es una manifestación de sesgos en los datos de entrenamiento;
- Barandas no se tienen en cuenta(Para una tarifa de licencia multimillonaria, uno pensaría que el modelo al menos intentar hacer lo que se le dice que haga).
Intente imaginar cómo reaccionaría su equipo de gestión ante un empleado humano que logró este tipo de acrobacias. Aquí está el escenario: el jefe en su oficina con el empleado problemático y el supervisor de ese empleado.
Ejecutivo: «Has estado haciendo un trabajo excelente últimamente. Eres mucho más rápido que tus colegas y la cantidad de tareas que has descubierto cómo dominar es realmente sorprendente. Pero 20 veces durante el último mes, encontramos afirmaciones en tu informe que simplemente inventó. Eso no es aceptable. Si promete nunca volver a hacer eso, todo debería estar bien».
Supervisor: «En realidad, jefe, este empleado tiene ciertas peculiaridades y definitivamente continuará inventando cosas. Entonces, sí, esto no desaparecerá. Diablos, ni siquiera puedo prometer que este trabajador no inventará cosas con mucha más frecuencia».
Exec: «Ok. Vamos a pasar por alto eso. Pero tengo entendido que él ignoró sus instrucciones repetidamente e hizo solo lo que quería. ¿Podemos al menos hacer que deje de hacer eso?»
Supervisor: «No. Eso es justo lo que hace. Sabíamos que cuando lo contratamos».
Ejecutivo: «Muy bien. Pero en tres ocasiones este mes, fue encontrado en la parte restringida del edificio donde los trabajadores necesitan una autorización de alto nivel.
Supervisor: «No
Ejecutivo: «Bastante justo. Continúa».
Y, sin embargo, eso es precisamente lo que tantas empresas están haciendo hoy, por lo que un informe de marzo de la Administración Nacional de Aeronáutica y Espacio de los Estados Unidos (NASA) es tan importante.
El informe de la NASA descubrió que Genai no se podía confiar en una investigación crítica.
El «punto» para realizar la evaluación fue «filtrar sistemas que crean un riesgo inaceptable. Al igual que no liberaríamos un sistema con el potencial de matar en el servicio sin realizar un análisis apropiados de análisis de seguridad y actividades de ingeniería de seguridad, no debemos adoptar tecnología en la tubería regulatoria sin razones aceptables para creer que es adecuado para usar en las actividades críticas de la ingeniería de seguridad y la certificación», dijo el informe del NASA. «Hay razones para dudar de LLM como una tecnología para escribir o revisar los argumentos de garantía. Los LLM son máquinas que BS, no máquinas que piensan, y pensar es precisamente la tarea que debe automatizarse si la tecnología debe mejorar la seguridad o el menor costo».
En una maravillosa exhibición de lógica científica, el informe se preguntó, en una sección que debería ser requerida para la lectura para los CIO en la cadena alimentaria de TI, para qué los modelos Genai podrían usarse realmente.
«Vale la pena mencionar la alternativa potencial obvia para usar la investigación empírica para establecer la aptitud para el uso de una automatización propuesta basada en LLM antes de usarlo, es decir, ponerla en práctica y ver lo que sucede. Eso ciertamente se ha hecho antes, especialmente en la historia temprana de las industrias como la aviación», escribieron los investigadores de la NASA.
«Pero vale la pena hacer dos preguntas aquí: (1) ¿Cómo se puede justificar esto cuando hay prácticas existentes con las que estamos más familiarizados? Y (2) ¿Cómo sabríamos si estaba funcionando?
Luego, el informe señala la contradicción lógica en este tipo de experimentación: «Pero eso deja la segunda pregunta y plantea una arruga: el monitoreo continuo de los sistemas menos críticos a menudo también es menos riguroso que para los sistemas más críticos. Por lo tanto, las mismas aplicaciones en las que es más posible arriesgarse son aquellos que producen la retroalimentación menos confiable sobre cómo podrían haber trabajado los procesos novedosos».
También señaló el defecto al asumir que este tipo de modelo sabría cuándo las circunstancias tomarían una decisión una mala idea. «De hecho, en los casos de esquina que podríamos esperar que la BS sea lo más probable que sea errónea o engañosa. Debido a que la LLM no razona a partir de los principios, no tiene capacidad para mirar una caja y reconocer características que podrían hacer que el razonamiento habitual sea inaplicable. El sedán típico o el vehículo utilitario ligero y, por lo tanto, ese razonamiento típico, por ejemplo, sobre la idoneidad de las calificaciones de protección de intrusión de agua estándar de la industria, podría ser inaplicable «.
Estas mismas preguntas lógicas deben aplicarse a cada empresa. Si la naturaleza crítica de la misión del trabajo sensible impidiera el uso de Genai, y si el bajo monitoreo involucrado en el trabajo de bajo riesgo típico lo convierte en un entorno no apto para experimentar, dónde debería se usa?
La analista de Gartner, Lauren Kornutick, estuvo de acuerdo en que estas pueden ser decisiones difíciles, pero los CIO deben tomar las riendas y actuar como la «voz de la razón».
Los proyectos de tecnología empresarial en general «pueden fallar cuando el negocio está desalineado en las expectativas versus la realidad, por lo que alguien debe ser una voz de razón en la sala. (El CIO) debe ayudar a impulsar soluciones y no solo correr hacia la siguiente cosa brillante. Y esas son algunas conversaciones muy desafiantes para tener», dijo Kornutick.
«Estas son cosas que deben ir al comité ejecutivo para decidir el mejor camino a seguir», dijo. «¿Vamos a asumir este riesgo? ¿Cuál es la compensación? ¿Cómo se ve este riesgo contra el posible ROI? Deberían estar trabajando con los otros líderes para alinear cuál es su tolerancia al riesgo como equipo de liderazgo y luego llevarlo a la junta directiva».
Rowan Curran, analista senior de Forrester, sugirió un enfoque más táctico. Sugiere que los tomadores de decisiones de TI insistan en que estén mucho más involucrados al principio, cuando cada unidad de negocios discute dónde y cómo utilizarán la tecnología Genai.
«Debes ser muy particular sobre el nuevo caso de uso que buscan», dijo Curran. «Empuje la gobernanza mucho más a la izquierda, por lo que cuando desarrollan el caso de uso en primer lugar, les está ayudando a determinar el riesgo y establecer los controles de gobernanza de datos».
Curran también sugirió que los equipos deberían tomar los datos de Genai como punto de partida y nada más. «No confíe en ello para la respuesta exacta».
Confía demasiado en Genai, en otras palabras, y podrías estar viviendo el Día de los Inocentes de April todos los días del año.
GIPHY App Key not set. Please check settings