Los modelos de redes neuronales a gran escala forman la base de muchas tecnologías basadas en IA, como los chips neuromórficos, que se inspiran en el cerebro humano. El entrenamiento de estas redes puede ser tedioso, consumir mucho tiempo y consumir poca energía, dado que el modelo suele entrenarse primero en una computadora y luego transferirse al chip. Esto limita la aplicación y la eficiencia de los chips neuromórficos.
Los investigadores de la TU/e han resuelto este problema desarrollando un dispositivo neuromórfico capaz de realizar un entrenamiento en el chip que elimina la necesidad de transferir modelos entrenados al chip. Esto podría abrir el camino hacia chips de IA eficientes y dedicados.
¿Alguna vez has pensado en lo maravilloso que es tu cerebro? Es una máquina de computación poderosa, pero también es rápida, dinámica, adaptable y muy eficiente energéticamente.
La combinación de estos atributos ha inspirado a los investigadores de la TU/e, incluido Yoeri van de Burgt, a imitar cómo funciona el cerebro en tecnologías donde el aprendizaje es importante, como los sistemas de inteligencia artificial (IA) en el transporte, la comunicación y la atención médica.
El vínculo neuronal
«En el corazón de estos sistemas de IA probablemente se encontrará una red neuronal», dice Van de Burgt, profesor asociado del Departamento de Ingeniería Mecánica de la TU/e.
Las redes neuronales son modelos de software de computadora inspirados en el cerebro. En el cerebro humano, las neuronas se comunican entre sí a través de sinapsis y, cuanto más se comunican entre sí dos neuronas, más fuerte se vuelve la conexión entre ellas. En los modelos de redes neuronales (que están hechos de nodos), la fuerza de una conexión entre dos nodos cualesquiera se da mediante un número llamado peso.
«Las redes neuronales pueden ayudar a resolver problemas complejos con grandes cantidades de datos, pero a medida que las redes se hacen más grandes, conllevan mayores costos de energía y limitaciones de hardware», afirma Van de Burgt. «Pero existe una alternativa prometedora basada en hardware: los chips neuromórficos».
La captura neuromórfica
Al igual que las redes neuronales, los chips neuromórficos se inspiran en el funcionamiento del cerebro, pero la imitación se lleva a un nivel completamente nuevo. En el cerebro, cuando la carga eléctrica de una neurona cambia, esta puede disparar y enviar cargas eléctricas a las neuronas conectadas. Los chips neuromórficos replican este proceso.
«En un chip neuromórfico hay memristores (que es la abreviatura de resistencias de memoria). Se trata de dispositivos de circuito que pueden ‘recordar’ cuánta carga eléctrica ha pasado por ellos en el pasado», afirma Van de Burgt. «Y esto es exactamente lo que se necesita para un dispositivo que se basa en el modo en que las neuronas cerebrales almacenan información y se comunican entre sí».
Pero existe un problema neuromórfico, que se relaciona con las dos formas en que las personas entrenan el hardware basado en chips neuromórficos. En la primera forma, el entrenamiento se realiza en una computadora y los pesos de la red se asignan al hardware del chip.
La alternativa es realizar el entrenamiento in situ o en el hardware, pero los dispositivos actuales deben programarse uno por uno y luego comprobarse si tienen errores. Esto es necesario porque la mayoría de los memristores son estocásticos y es imposible actualizar el dispositivo sin comprobarlo.
«Estos métodos son costosos en términos de tiempo, energía y recursos computacionales. Para aprovechar realmente la eficiencia energética de los chips neuromórficos, el entrenamiento debe realizarse directamente en los chips neuromórficos», afirma Van de Burgt.
Y esto es exactamente lo que Van de Burgt y sus colaboradores de la TU/e han logrado y publicado en un nuevo papel en Avances científicos«Este fue un verdadero esfuerzo de equipo, y todo fue iniciado por los primeros autores Tim Stevens y Eveline van Doremaele», dice Van de Burgt.
La historia de la investigación se remonta a la trayectoria de Tim Stevens durante su máster. «Durante mi investigación de máster me interesé por este tema. Hemos demostrado que es posible realizar el entrenamiento únicamente en hardware. No es necesario transferir un modelo entrenado al chip, y todo esto podría dar lugar a chips más eficientes para aplicaciones de IA», afirma Stevens.
Van de Burgt, Stevens y Van Doremaele (que defendió su tesis doctoral en 2023 sobre chips neuromórficos) necesitaban un poco de ayuda con el diseño del hardware, por lo que recurrieron a Marco Fattori, del Departamento de Ingeniería Eléctrica.
«Mi grupo colaboró con aspectos relacionados con el diseño del circuito del chip», afirma Fattori. «Fue fantástico trabajar en este proyecto multidisciplinario, en el que quienes construyen los chips pueden trabajar con quienes se ocupan de los aspectos del software».
Para Van de Burgt, el proyecto también demostró que las grandes ideas pueden surgir de cualquier nivel académico. «Tim vio el potencial de aprovechar las propiedades de nuestros dispositivos en mayor medida durante su investigación de máster. De esto se puede sacar una lección para todos los proyectos».
Entrenamiento de dos capas
Para los investigadores, el principal desafío fue integrar los componentes clave necesarios para el entrenamiento en un único chip neuromórfico. «Una de las principales tareas a resolver fue la inclusión de los componentes de la memoria electroquímica de acceso aleatorio (EC-RAM), por ejemplo», afirma Van de Burgt. «Se trata de los componentes que imitan el almacenamiento y la activación de la carga eléctrica atribuida a las neuronas del cerebro».
Los investigadores fabricaron una red neuronal de dos capas basada en componentes EC-RAM fabricados a partir de materiales orgánicos y probaron el hardware con una evolución del algoritmo de entrenamiento ampliamente utilizado, la retropropagación con descenso de gradiente. «El algoritmo convencional se utiliza con frecuencia para mejorar la precisión de las redes neuronales, pero no es compatible con nuestro hardware, por lo que creamos nuestra propia versión», afirma Stevens.
Es más, como la IA en muchos campos se está convirtiendo rápidamente en un drenaje insostenible de recursos energéticos, la oportunidad de entrenar redes neuronales en componentes de hardware por una fracción del costo energético es una posibilidad tentadora para muchas aplicaciones, desde ChatGPT hasta el pronóstico del tiempo.
El siguiente paso
Si bien los investigadores han demostrado que el nuevo enfoque de entrenamiento funciona, el siguiente paso lógico es hacerlo más grande, más audaz y mejor.
«Hemos demostrado que esto funciona para una red pequeña de dos capas», afirma van de Burgt. «A continuación, nos gustaría involucrar a la industria y a otros grandes laboratorios de investigación para poder construir redes mucho más grandes de dispositivos de hardware y probarlas con problemas de datos de la vida real».
Este próximo paso permitiría a los investigadores demostrar que estos sistemas son muy eficientes en el entrenamiento, así como en el funcionamiento de redes neuronales y sistemas de IA útiles. «Nos gustaría aplicar esta tecnología en varios casos prácticos», afirma Van de Burgt. «Mi sueño es que estas tecnologías se conviertan en la norma en las aplicaciones de IA en el futuro».
Más información:
Eveline RW van Doremaele et al, Implementación de hardware de retropropagación utilizando descenso de gradiente progresivo para entrenamiento in situ de redes neuronales multicapa, Avances científicos (2024). DOI: 10.1126/sciadv.ado8999
Citación:El entrenamiento de redes neuronales se vuelve más fácil con hardware inteligente (15 de julio de 2024) recuperado el 15 de julio de 2024 de https://techxplore.com/news/2024-07-neural-network-easy-smart-hardware.html
Este documento está sujeto a derechos de autor. Salvo que se haga un uso legítimo con fines de estudio o investigación privados, no se podrá reproducir ninguna parte del mismo sin autorización por escrito. El contenido se ofrece únicamente con fines informativos.
GIPHY App Key not set. Please check settings