Un equipo internacional de investigadores ha diseñado y construido un chip que ejecuta cálculos directamente en la memoria y puede ejecutar una amplia variedad de aplicaciones de IA, todo con una fracción de la energía que consumen las plataformas informáticas para la informática de IA de propósito general.
El chip neuromórfico NeuRRAM lleva a la IA un paso más cerca de ejecutarse en una amplia gama de dispositivos de borde, desconectados de la nube, donde pueden realizar tareas cognitivas sofisticadas en cualquier lugar y en cualquier momento sin depender de una conexión de red a un servidor centralizado. Las aplicaciones abundan en todos los rincones del mundo y en todas las facetas de nuestras vidas, y van desde relojes inteligentes hasta auriculares VR, auriculares inteligentes, sensores inteligentes en fábricas y rovers para la exploración espacial.
El chip NeuRRAM no solo tiene el doble de eficiencia energética que los chips de «cómputo en memoria» de última generación, una clase innovadora de chips híbridos que ejecutan cálculos en la memoria, sino que también ofrece resultados que son tan precisos como chips digitales convencionales. Las plataformas de IA convencionales son mucho más voluminosas y, por lo general, están restringidas al uso de grandes servidores de datos que operan en la nube.
Además, el chip NeuRRAM es muy versátil y admite muchos modelos y arquitecturas de redes neuronales diferentes. Como resultado, el chip se puede usar para muchas aplicaciones diferentes, incluido el reconocimiento y la reconstrucción de imágenes, así como el reconocimiento de voz.
«La sabiduría convencional es que la mayor eficiencia de la computación en memoria es a costa de la versatilidad, pero nuestro chip NeuRRAM obtiene eficiencia sin sacrificar la versatilidad», dijo Weier Wan, el primer autor correspondiente del artículo y un doctorado reciente. graduado de la Universidad de Stanford que trabajó en el chip mientras estaba en UC San Diego, donde fue co-asesorado por Gert Cauwenberghs en el Departamento de Bioingeniería.
El equipo de investigación, codirigido por bioingenieros de la Universidad de California en San Diego, presenta sus resultados en la edición del 17 de agosto de Naturaleza.
Actualmente, la computación de IA consume mucha energía y es costosa desde el punto de vista computacional. La mayoría de las aplicaciones de IA en dispositivos perimetrales implican mover datos de los dispositivos a la nube, donde la IA los procesa y analiza. Luego, los resultados se vuelven a mover al dispositivo. Esto se debe a que la mayoría de los dispositivos perimetrales funcionan con baterías y, como resultado, solo tienen una cantidad limitada de energía que se puede dedicar a la informática.
Al reducir el consumo de energía necesario para la inferencia de IA en el borde, este chip NeuRRAM podría generar dispositivos de borde más robustos, inteligentes y accesibles y una fabricación más inteligente. También podría conducir a una mejor privacidad de los datos, ya que la transferencia de datos de los dispositivos a la nube conlleva mayores riesgos de seguridad.
En los chips de IA, mover datos de la memoria a las unidades informáticas es un cuello de botella importante.
«Es el equivalente a hacer un viaje de ocho horas por un día laboral de dos horas», dijo Wan.
Para resolver este problema de transferencia de datos, los investigadores utilizaron lo que se conoce como memoria resistiva de acceso aleatorio, un tipo de memoria no volátil que permite el cálculo directamente dentro de la memoria en lugar de unidades informáticas separadas. RRAM y otras tecnologías de memoria emergentes utilizadas como conjuntos de sinapsis para computación neuromórfica fueron pioneros en el laboratorio de Philip Wong, asesor de Wan en Stanford y uno de los principales contribuyentes de este trabajo. La computación con chips RRAM no es necesariamente nueva, pero generalmente conduce a una disminución en la precisión de los cálculos realizados en el chip ya una falta de flexibilidad en la arquitectura del chip.
«La computación en memoria ha sido una práctica común en la ingeniería neuromórfica desde que se introdujo hace más de 30 años», dijo Cauwenberghs. «Lo que es nuevo con NeuRRAM es que la eficiencia extrema ahora va de la mano con una gran flexibilidad para diversas aplicaciones de IA casi sin pérdida de precisión en comparación con las plataformas de cómputo de uso general digital estándar».
Una metodología cuidadosamente elaborada fue clave para el trabajo con múltiples niveles de «cooptimización» en las capas de abstracción de hardware y software, desde el diseño del chip hasta su configuración para ejecutar varias tareas de IA. Además, el equipo se aseguró de tener en cuenta varias limitaciones que van desde la física del dispositivo de memoria hasta los circuitos y la arquitectura de la red.
«Este chip ahora nos brinda una plataforma para abordar estos problemas en toda la pila, desde dispositivos y circuitos hasta algoritmos», dijo Siddharth Joshi, profesor asistente de ciencias de la computación e ingeniería en la Universidad de Notre Dame, quien comenzó a trabajar en el proyecto como un doctorado estudiante e investigadora postdoctoral en el laboratorio de Cauwenberghs en UC San Diego.
Rendimiento de chips
Los investigadores midieron la eficiencia energética del chip mediante una medida conocida como producto de retardo de energía o EDP. EDP combina tanto la cantidad de energía consumida para cada operación como la cantidad de tiempo que lleva completar la operación. Según esta medida, el chip NeuRRAM logra un EDP de 1,6 a 2,3 veces menor (cuanto más bajo, mejor) y una densidad computacional de 7 a 13 veces mayor que los chips de última generación.
Los investigadores ejecutaron varias tareas de IA en el chip. Logró una precisión del 99 % en una tarea de reconocimiento de dígitos escritos a mano; el 85,7% en una tarea de clasificación de imágenes; y el 84,7 % en una tarea de reconocimiento de comandos de voz de Google. Además, el chip también logró una reducción del 70 % en el error de reconstrucción de imágenes en una tarea de recuperación de imágenes. Estos resultados son comparables a los chips digitales existentes que realizan cálculos con la misma precisión de bits, pero con ahorros drásticos de energía.
Los investigadores señalan que una contribución clave del artículo es que todos los resultados presentados se obtienen directamente en el hardware. En muchos trabajos anteriores de chips de cómputo en memoria, los resultados de referencia de IA a menudo se obtuvieron parcialmente mediante simulación de software.
Los próximos pasos incluyen mejorar las arquitecturas y los circuitos y escalar el diseño a nodos de tecnología más avanzada. Los investigadores también planean abordar otras aplicaciones, como la activación de redes neuronales.
«Podemos hacerlo mejor a nivel de dispositivo, mejorar el diseño de circuitos para implementar características adicionales y abordar diversas aplicaciones con nuestra plataforma dinámica NeuRRAM», dijo Rajkumar Kubendran, profesor asistente de la Universidad de Pittsburgh, quien comenzó a trabajar en el proyecto mientras era estudiante de doctorado. .D. estudiante en el grupo de investigación de Cauwenberghs en UC San Diego.
Además, Wan es miembro fundador de una startup que trabaja en la producción de la tecnología de cómputo en memoria. «Como investigadora e ingeniera, mi ambición es llevar las innovaciones de investigación de los laboratorios al uso práctico», dijo Wan.
nueva arquitectura
La clave de la eficiencia energética de NeuRRAM es un método innovador para detectar la salida en la memoria. Los enfoques convencionales usan voltaje como entrada y miden la corriente como resultado. Pero esto conduce a la necesidad de circuitos más complejos y con mayor consumo de energía. En NeuRRAM, el equipo diseñó un circuito de neuronas que detecta el voltaje y realiza la conversión de analógico a digital de manera eficiente desde el punto de vista energético. Esta detección de modo de voltaje puede activar todas las filas y todas las columnas de una matriz RRAM en un solo ciclo de computación, lo que permite un mayor paralelismo.
En la arquitectura NeuRRAM, los circuitos neuronales CMOS están intercalados físicamente con pesos RRAM. Se diferencia de los diseños convencionales en los que los circuitos CMOS suelen estar en la periferia de los pesos RRAM. Las conexiones de la neurona con la matriz RRAM se pueden configurar para servir como entrada o salida de la neurona. Esto permite la inferencia de redes neuronales en varias direcciones de flujo de datos sin incurrir en gastos generales de área o consumo de energía. Esto, a su vez, hace que la arquitectura sea más fácil de reconfigurar.
Para asegurarse de que la precisión de los cálculos de IA se pueda conservar en varias arquitecturas de redes neuronales, los investigadores desarrollaron un conjunto de técnicas de cooptimización de algoritmos de hardware. Las técnicas se verificaron en varias redes neuronales, incluidas las redes neuronales convolucionales, la memoria a largo plazo y las máquinas de Boltzmann restringidas.
Como chip de IA neuromórfico, NeuroRRAM realiza un procesamiento distribuido paralelo en 48 núcleos neurosinápticos. Para lograr simultáneamente una alta versatilidad y alta eficiencia, NeuRRAM admite el paralelismo de datos mediante el mapeo de una capa en el modelo de red neuronal en múltiples núcleos para la inferencia paralela en múltiples datos. Además, NeuRRAM ofrece paralelismo de modelos al mapear diferentes capas de un modelo en diferentes núcleos y realizar inferencias en forma de canalización.
Un equipo de investigación internacional
El trabajo es el resultado de un equipo internacional de investigadores.
El equipo de UC San Diego diseñó los circuitos CMOS que implementan las funciones neuronales interactuando con las matrices RRAM para admitir las funciones sinápticas en la arquitectura del chip, para una alta eficiencia y versatilidad. Wan, en estrecha colaboración con todo el equipo, implementó el diseño; caracterizó el chip; entrenó los modelos de IA; y ejecutó los experimentos. Wan también desarrolló una cadena de herramientas de software que asigna aplicaciones de IA al chip.
La matriz de sinapsis RRAM y sus condiciones operativas se caracterizaron y optimizaron ampliamente en la Universidad de Stanford.
La matriz RRAM se fabricó e integró en CMOS en la Universidad de Tsinghua.
El equipo de Notre Dame contribuyó tanto al diseño como a la arquitectura del chip y al posterior diseño y capacitación del modelo de aprendizaje automático.
Una macro nvCIM de cuatro megabits para dispositivos de inteligencia artificial perimetrales
Weier Wan, un chip de computación en memoria basado en memoria resistiva de acceso aleatorio, Naturaleza (2022). DOI: 10.1038/s41586-022-04992-8. www.nature.com/articles/s41586-022-04992-8
Citación: Nuevo chip neuromórfico para IA en el borde, con una pequeña fracción de la energía y el tamaño de las plataformas informáticas actuales (17 de agosto de 2022) consultado el 17 de agosto de 2022 en https://techxplore.com/news/2022-08-neuromorphic- chip-ai-borde-pequeño.html
Este documento está sujeto a derechos de autor. Aparte de cualquier trato justo con fines de estudio o investigación privados, ninguna parte puede reproducirse sin el permiso por escrito. El contenido se proporciona únicamente con fines informativos.