in

Los datos fantasma podrían mostrar a los titulares de los derechos de autor si su trabajo está en los datos de entrenamiento de IA

idioma

idioma

Crédito: Google DeepMind de Pexels

Inspirados por los cartógrafos del siglo XX, los investigadores del Imperial College han demostrado una nueva forma de identificar el trabajo de los titulares de derechos de autor en los LLM.

La técnica se presentó en la Conferencia Internacional sobre Aprendizaje Automático en Viena esta semana y se detalla en este preimpresión sobre el arXiv servidor.

La IA generativa está conquistando el mundo y ya está transformando la vida cotidiana de millones de personas.

Sin embargo, hoy en día, la IA suele construirse sobre bases legales «inestables» en lo que respecta a los datos de entrenamiento. Los modelos de IA modernos, como los modelos de lenguaje de gran tamaño (LLM), requieren grandes cantidades de texto, imágenes y otras formas de contenido de Internet para alcanzar sus impresionantes capacidades.

En un nuevo artículo de los expertos del Imperial College de Londres, los investigadores proponen un mecanismo para detectar el uso de datos para el entrenamiento de IA.

Esperan que el método propuesto sirva como un paso hacia una mayor apertura y transparencia en un campo en rápida evolución de la IA generativa, y ayude a los autores a comprender mejor cómo se utilizan sus textos.

El investigador principal, el Dr. Yves-Alexandre de Montjoye, del Departamento de Informática del Imperial College, dijo: «Inspirándonos en los cartógrafos de principios del siglo XX, que ponían ciudades fantasma en sus mapas para detectar copias ilícitas, estudiamos cómo la inyección de ‘trampas de derechos de autor’ (oraciones ficticias únicas) en el texto original permite la detectabilidad del contenido en un LLM entrenado».

En primer lugar, el propietario del contenido repetiría una trampa de derechos de autor varias veces en su colección de documentos (por ejemplo, artículos de noticias). Luego, si un desarrollador de LLM extrae los datos y entrena un modelo con ellos, el propietario de los datos podría demostrar con confianza el entrenamiento observando irregularidades en los resultados del modelo.

La propuesta es más adecuada para los editores en línea, que podrían ocultar la frase trampa de derechos de autor en los artículos de noticias, de modo que permanezca invisible para el lector, pero es probable que sea detectada por un raspador de datos.

Sin embargo, el Dr. de Montjoye enfatiza cómo los desarrolladores de LLM podrían desarrollar técnicas para eliminar las trampas y evitar su detección. Dado que las trampas se encuentran incorporadas de varias maneras diferentes en los artículos de noticias, es probable que eliminarlas todas con éxito requiera recursos de ingeniería significativos para mantenerse a la vanguardia de las nuevas formas de incorporarlas.

Para verificar la validez del enfoque, se asociaron con un equipo en Francia que estaba capacitando a un «verdaderamente bilingüe«LLM de 1.3B parámetros en inglés y francés, que inyecta varias trampas de derechos de autor en el conjunto de entrenamiento de un modelo de lenguaje de última generación con eficiencia de parámetros en el mundo real. Los investigadores creen que el éxito de sus experimentos permite contar con mejores herramientas de transparencia para el campo de la capacitación en LLM.

El coautor Igor Shilov, también del Departamento de Informática del Imperial College de Londres, agregó: «Las empresas de IA son cada vez más reacias a compartir cualquier información sobre sus datos de entrenamiento. Si bien la composición de los datos de entrenamiento para GPT-3 y LLaMA (modelos más antiguos publicados por OpenAI y Meta AI respectivamente) es de conocimiento público, ya no es el caso de los modelos más recientes GPT-4 y LLaMA-2.

«Los desarrolladores de LLM tienen pocos incentivos para ser abiertos acerca de sus procedimientos de capacitación, lo que genera una preocupante falta de transparencia (y, por lo tanto, de reparto justo de los beneficios), por lo que es más importante que nunca contar con herramientas para inspeccionar lo que implica el proceso de capacitación».

El coautor Matthieu Meeus, también del Departamento de Informática del Imperial College de Londres, afirmó: «Creemos que la cuestión de la transparencia en el entrenamiento de la IA y los debates sobre la compensación justa para los creadores de contenido son muy importantes para el futuro, en el que la IA se desarrolle de forma responsable. Nuestra esperanza es que este trabajo sobre las trampas de los derechos de autor contribuya a una solución sostenible».

Más información:
Matthieu Meeus et al, Trampas de derechos de autor para modelos de lenguaje grandes, arXiv (2024). DOI: 10.48550/arxiv.2402.09363

Información de la revista:
arXiv


Proporcionado por el Imperial College de Londres


Citación:Los datos fantasma podrían mostrar a los titulares de los derechos de autor si su trabajo está en los datos de entrenamiento de IA (2024, 29 de julio) recuperado el 29 de julio de 2024 de https://techxplore.com/news/2024-07-phantom-copyright-holders-ai.html

Este documento está sujeto a derechos de autor. Salvo que se haga un uso legítimo con fines de estudio o investigación privados, no se podrá reproducir ninguna parte del mismo sin autorización por escrito. El contenido se ofrece únicamente con fines informativos.



Fuente

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

GIPHY App Key not set. Please check settings

Este truco para iPhone te ayudará a entrenar como un atleta olímpico, sin necesidad de suscripción

¿Se retrasó Apple Intelligence?

¿Se retrasó Apple Intelligence?