Detrás de las respuestas de los modelos genAI hay evaluadores que evalúan la precisión de esas respuestas, pero un informe publicado esta semana arroja dudas sobre el proceso.
Según una historia publicada el miércoles, a los contratistas que trabajan en Google Gemini ahora se les pide que evalúen las indicaciones y respuestas de la IA en áreas en las que no tienen experiencia, en lugar de permitirles omitirlas como antes.
Esto va en contra de la sección “Construir responsablemente” del Anuncio de Géminis 2.0que decía: “A medida que desarrollamos estas nuevas tecnologías, reconocemos la responsabilidad que implica y las muchas preguntas que abren los agentes de IA en materia de seguridad. Es por eso que estamos adoptando un enfoque exploratorio y gradual para el desarrollo, realizando investigaciones sobre múltiples prototipos, implementando iterativamente capacitación en seguridad, trabajando con evaluadores confiables y expertos externos y realizando evaluaciones de riesgos exhaustivas y evaluaciones de seguridad y garantía”.
La falta de coincidencia plantea preguntas
Según TechCrunch«una nueva directriz interna transmitida por Google a los contratistas que trabajan en Gemini ha generado preocupaciones de que Gemini podría ser más propenso a revelar información inexacta sobre temas muy sensibles, como la atención médica, a la gente común».
Dijo que la nueva directriz dice: «No debe omitir indicaciones que requieran conocimientos especializados en el dominio». En cambio, se indica a los contratistas que califiquen las partes que entienden y agreguen una nota de que carecen del conocimiento de dominio necesario para el resto.
y un blog que apareció en Artificial Intelligence+ el jueves señaló que, si bien “los contratistas contratados por Google para apoyar a Gemini son actores clave en el proceso de evaluación… uno de los desafíos es que [they] A menudo se les pide que evalúen respuestas que podrían quedar fuera de sus propias áreas de especialización. Por ejemplo, aunque algunos pueden tener formación técnica, la IA puede producir resultados relacionados con la literatura, las finanzas, la atención sanitaria o incluso la investigación científica”.
Dijo que «este desajuste plantea dudas sobre la eficacia con la que la supervisión humana puede servir para validar el contenido generado por IA en diversos campos».
Sin embargo, Google señaló en una declaración posterior a TechCrunch que los «evaluadores» no sólo revisan el contenido, sino que «brindan comentarios valiosos sobre el estilo, el formato y otros factores».
‘Componente oculto’ de genAI
Cuando las organizaciones buscan aprovechar un modelo de IA, es importante reflexionar sobre los principios de la IA responsable, dijo el jueves Thomas Randall, líder de investigación de Info-Tech Research Group.
Dijo que hay “un componente oculto en el panorama del mercado de la IA generativa: empresas que caen bajo la apariencia de ‘aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF)’. Estas empresas, como Appen, Scale AI y Clickworker, dependen de una economía de millones de trabajadores colectivos para la producción de datos y el entrenamiento de los algoritmos de IA que encontramos en OpenAI, Anthropic, Google y otros. Las empresas de RLHF plantean problemas para las prácticas laborales justas y reciben malas calificaciones por parte de feria.”
El año pasado, Fairwork, que se define como un “proyecto de investigación-acción cuyo objetivo es arrojar luz sobre cómo los cambios tecnológicos afectan las condiciones laborales en todo el mundo”, publicó una serie de Principios de la IA que, decía, «evaluar las condiciones laborales detrás del desarrollo y despliegue de sistemas de IA en el contexto de una relación laboral».
No hay, afirmó en ese momento, “nada ‘artificial’ en la inmensa cantidad de trabajo humano que construye, respalda y mantiene productos y servicios de IA. Muchos trabajadores interactúan con sistemas de IA en el lugar de trabajo y muchos otros realizan el trabajo de datos críticos que sustenta el desarrollo de los sistemas de IA”.
Preguntas para hacer
La rama ejecutiva de una organización que busca aprovechar un modelo de IA, dijo Randall, necesita plantearse una variedad de preguntas como “¿El modelo de IA que estás usando depende o utiliza una empresa RLHF? Si es así, ¿el grupo de trabajadores colectivos era lo suficientemente diverso y proporcionaba suficiente experiencia? ¿Qué tan opaco fue el proceso de capacitación para los modelos que estás utilizando? ¿Puedes rastrear la producción de datos? Si el proveedor de IA no conoce las respuestas a estas preguntas, la organización debe estar preparada para asumir la responsabilidad de cualquier resultado que proporcionen los modelos de IA”.
Paul Smith-Goodson, vicepresidente y analista principal de Moor Insights & Strategy, añadió que es de vital importancia que se implemente la generación aumentada de recuperación (RAG), “porque los modelos de IA sí alucinan y es una forma de asegurarse de que los modelos de lenguaje estén poniendo en práctica obtener la información correcta”.
Se hizo eco de Rick Villars, vicepresidente de investigación mundial del grupo IDC, quien a principios de este año dijo: “cada vez más, las soluciones en torno a RAG (y que permitirán a las personas utilizarlas de manera más efectiva) se centrarán en vincular los datos correctos que tienen interés para el negocio. valor, en lugar de solo las mejoras brutas de productividad «.
Un ‘efecto corrosivo’ para los trabajadores
Ryan Clarkson, socio director de Clarkson Law Firm, con sede en Malibú, California, dijo que el rápido crecimiento de la IA generativa como negocio ha tenido efectos corrosivos en los trabajadores tecnológicos de todo el mundo.
Por ejemplo, la semana pasada, los trabajadores presentaron una demanda colectiva a través de su empresa contra la empresa de procesamiento de datos de IA Scale AI, cuyos servicios incluyen proporcionar mano de obra humana para etiquetar los datos utilizados en el entrenamiento de modelos de IA y para dar forma a sus respuestas a las consultas.
La demanda de Scale AI alega malas condiciones laborales y comportamiento explotador por parte de Scale, y también dice que la empresa caracterizó erróneamente a los trabajadores responsables de generar gran parte de su producto como contratistas independientes en lugar de empleados.
GIPHY App Key not set. Please check settings