Mientras que los modelos de inteligencia artificial de lenguajes grandes siguen siendo noticia, los modelos de lenguajes pequeños son el centro de la acción. Al menos, eso es a lo que Meta parece apostar, según un artículo publicado recientemente por un equipo de sus científicos investigadores.
Los modelos de lenguaje de gran tamaño, como ChatGPT, Gemini y Llama, pueden utilizar miles de millones, incluso billones, de parámetros para obtener sus resultados. El tamaño de esos modelos los hace demasiado grandes para ejecutarse en dispositivos móviles. Por ello, los científicos de Meta señalaron en su investigación que existe una creciente necesidad de modelos de lenguaje de gran tamaño y eficientes en dispositivos móviles, una necesidad impulsada por el aumento de los costos de la nube y las preocupaciones por la latencia.
En su investigación, los científicos explicaron cómo crearon modelos de lenguaje grandes y de alta calidad con menos de mil millones de parámetros, un tamaño que, según afirmaron, es un buen tamaño para la implementación móvil.
Contrariamente a la creencia predominante que enfatiza el papel fundamental de los datos y la cantidad de parámetros para determinar la calidad del modelo, los científicos lograron resultados con su pequeño modelo de lenguaje comparables en algunas áreas al Llama LLM de Meta.
“Existe un paradigma predominante de que ‘cuanto más grande, mejor’, pero esto demuestra que realmente se trata de cómo se utilizan los parámetros”, dijo Nick DeGiacomo, director ejecutivo de Bucéfalouna plataforma de cadena de suministro de comercio electrónico impulsada por inteligencia artificial con sede en la ciudad de Nueva York.
“Esto allana el camino para una adopción más generalizada de la IA en el dispositivo”, dijo a TechNewsWorld.
Un paso crucial
La investigación de Meta es importante porque desafía la norma actual de la IA dependiente de la nube, que a menudo ve los datos procesados en centros de datos lejanos, explicó Darian Shimy, CEO y fundador de Fondo del Futurouna empresa de capital de riesgo en San Francisco.
“Al incorporar el procesamiento de IA al propio dispositivo, Meta está cambiando el guion: potencialmente reduce la huella de carbono asociada con la transmisión y el procesamiento de datos en centros de datos masivos que consumen mucha energía y convierte a la IA basada en dispositivos en un actor clave en el ecosistema tecnológico”, dijo a TechNewsWorld.
“Esta investigación es el primer esfuerzo integral y compartido públicamente de esta magnitud”, agregó Yashin Manraj, director ejecutivo de Tecnologías Pvotalun desarrollador de software de seguridad de extremo a extremo, en Eagle Point, Oregón.
“Es un primer paso crucial para lograr un enfoque armonizado de SLM y LLM donde los desarrolladores puedan encontrar el equilibrio adecuado entre el procesamiento de datos en la nube y en el dispositivo”, dijo a TechNewsWorld. “Sienta las bases para que las promesas de las aplicaciones impulsadas por IA puedan alcanzar el nivel de soporte, automatización y asistencia que se han comercializado en los últimos años pero que carecían de la capacidad de ingeniería para respaldar esas visiones”.
Los científicos meta también han dado un paso importante en la reducción del tamaño de un modelo de lenguaje. “Proponen reducir el tamaño del modelo por orden de magnitud, haciéndolo más accesible para dispositivos portátiles, audibles y teléfonos móviles”, dijo Nishant Neekhra, director sénior de marketing móvil en Soluciones Skyworksuna empresa de semiconductores en Westlake Village, California.
“Están presentando un conjunto completamente nuevo de aplicaciones para la IA y, al mismo tiempo, proporcionando nuevas formas para que la IA interactúe en el mundo real”, dijo a TechNewsWorld. “Al reducir su tamaño, también están resolviendo un importante desafío de crecimiento que afecta a los LLM, que es su capacidad para implementarse en dispositivos periféricos”.
Alto impacto en la atención de salud
Un área en la que los modelos de lenguaje pequeños podrían tener un impacto significativo es la medicina.
“La investigación promete liberar el potencial de la IA generativa para aplicaciones que involucran dispositivos móviles, que son omnipresentes en el panorama actual de la atención médica para el monitoreo remoto y las evaluaciones biométricas”. Danielle Kelvasasesor médico de IT Medical, una empresa global de desarrollo de software médico, a TechNewsWorld.
Al demostrar que los SLM efectivos pueden tener menos de mil millones de parámetros y aún así funcionar de manera comparable a modelos más grandes en ciertas tareas, continuó, los investigadores están abriendo la puerta para la adopción generalizada de la IA en el monitoreo de salud diario y la atención personalizada al paciente.
Kelvas explicó que el uso de SLM también puede garantizar que los datos de salud confidenciales se puedan procesar de forma segura en un dispositivo, lo que mejora la privacidad del paciente. También pueden facilitar el monitoreo y la intervención de la salud en tiempo real, lo que es fundamental para los pacientes con enfermedades crónicas o aquellos que requieren atención continua.
Agregó que los modelos también podrían reducir las barreras tecnológicas y financieras para implementar IA en entornos de atención médica, democratizando potencialmente tecnologías avanzadas de monitoreo de salud para poblaciones más amplias.
Reflejando las tendencias de la industria
El enfoque de Meta en pequeños modelos de IA para dispositivos móviles refleja una tendencia más amplia de la industria hacia la optimización de la IA para la eficiencia y la accesibilidad, explicó Caridad Muñozprofesora de nuevas tecnologías de medios en el CUNY LaGuardia Community College. “Este cambio no solo aborda desafíos prácticos, sino que también se alinea con las crecientes preocupaciones sobre el impacto ambiental de las operaciones de IA a gran escala”, dijo a TechNewsWorld.
“Al promover modelos más pequeños y eficientes, Meta está sentando un precedente para el desarrollo de una IA sostenible e inclusiva”, añadió Muñoz.
Los modelos de lenguaje pequeños también encajan en la tendencia de la computación de borde, que se centra en acercar las capacidades de IA a los usuarios. “Los modelos de lenguaje grandes de OpenAI, Anthropic y otros suelen ser exagerados: ‘cuando todo lo que tienes es un martillo, todo parece un clavo’”, dijo DeGiacomo.
“Los modelos especializados y ajustados pueden ser más eficientes y rentables para tareas específicas”, señaló. “Muchas aplicaciones móviles no requieren inteligencia artificial de vanguardia. No se necesita una supercomputadora para enviar un mensaje de texto”.
“Este enfoque permite que el dispositivo se concentre en gestionar el enrutamiento entre lo que se puede responder utilizando el SLM y los casos de uso especializados, similar a la relación entre médicos generalistas y especialistas”, agregó.
Efecto profundo sobre la conectividad global
Shimy sostuvo que las implicaciones que los SLM podrían tener sobre la conectividad global son profundas.
“A medida que la inteligencia artificial en los dispositivos se vuelve más capaz, la necesidad de una conectividad continua a Internet disminuye, lo que podría cambiar drásticamente el panorama tecnológico en regiones donde el acceso a Internet es inconsistente o costoso”, observó. “Esto podría democratizar el acceso a tecnologías avanzadas, poniendo a disposición herramientas de inteligencia artificial de vanguardia en diversos mercados globales”.
Si bien Meta lidera el desarrollo de los SLM, Manraj señaló que los países en desarrollo están monitoreando agresivamente la situación para mantener bajo control sus costos de desarrollo de IA. “China, Rusia e Irán parecen haber desarrollado un gran interés en la capacidad de diferir los cálculos computacionales en dispositivos locales, especialmente cuando los chips de hardware de IA de vanguardia están embargados o no son fácilmente accesibles”, dijo.
“No esperamos que esto sea un cambio drástico ni de la noche a la mañana”, predijo, “porque las consultas complejas en varios idiomas seguirán requiriendo LLM basados en la nube para brindar un valor de vanguardia a los usuarios finales. Sin embargo, este cambio hacia la habilitación de un modelo de ‘última milla’ en el dispositivo puede ayudar a reducir la carga de los LLM para manejar tareas más pequeñas, reducir los ciclos de retroalimentación y proporcionar enriquecimiento de datos locales”.
“En última instancia”, continuó, “el usuario final será claramente el ganador, ya que esto permitiría una nueva generación de capacidades en sus dispositivos y una revisión más prometedora de las aplicaciones front-end y de cómo las personas interactúan con el mundo”.
“Si bien los sospechosos habituales están impulsando la innovación en este sector con un impacto potencial prometedor en la vida diaria de todos”, agregó, “los SLM también podrían ser un caballo de Troya que proporcione un nuevo nivel de sofisticación en la intrusión en nuestra vida diaria al tener modelos capaces de recolectar datos y metadatos a un nivel sin precedentes. Esperamos que con las salvaguardas adecuadas, podamos canalizar estos esfuerzos hacia un resultado productivo”.
GIPHY App Key not set. Please check settings