NVIDIA impulsa los Small Language Models en la nueva generación de agentes de IA

NVIDIA defiende que los Small Language Models superan a los LLMs en eficiencia y coste en IA agentica, proponiendo su adopción en sistemas especializados.

Editor en La Ecuación Digital. Analista y divulgador tecnológico con…

La inteligencia artificial basada en agentes está experimentando una expansión acelerada. Más de la mitad de las grandes empresas tecnológicas ya utilizan sistemas de este tipo y un 21 % los ha adoptado solo en el último año, según los datos citados por NVIDIA en su investigación.

El mercado de la IA agentica, valorado en 5.200 millones de dólares en 2024, podría alcanzar los 200.000 millones en 2034.

El núcleo de estos agentes, hasta ahora, ha estado dominado por grandes modelos de lenguaje (LLMs), que proporcionan la capacidad de razonar, planificar y comunicarse de forma generalista. Sin embargo, la compañía plantea un cambio de paradigma: en la mayoría de los casos, los Small Language Models (SLMs) no solo resultan suficientes, sino más adecuados en términos de coste, flexibilidad y sostenibilidad.

Definición y alcance de los SLMs

El estudio propone una definición operativa: un SLM es aquel modelo capaz de ejecutarse en un dispositivo de consumo común, con latencia lo bastante baja para responder de manera práctica a las solicitudes de un usuario. En 2025, esta categoría incluiría modelos de hasta 10.000 millones de parámetros, aunque la cifra exacta depende del hardware disponible.

Por contraste, los LLMs superan ese umbral y requieren infraestructuras centralizadas en la nube, con elevados costes de entrenamiento, despliegue y mantenimiento.

Argumentos a favor de los SLMs

La tesis de NVIDIA se sostiene sobre tres afirmaciones clave:

Suficiencia de capacidades: Los SLMs ya alcanzan niveles de razonamiento, generación de código o uso de herramientas comparables a modelos mucho mayores. Ejemplos recientes incluyen Phi-2 de Microsoft (2.7B parámetros), capaz de igualar el rendimiento de modelos de 30B en razonamiento común, o la familia Nemotron-H de NVIDIA (2–9B), que logra precisiones similares a modelos de 30B con una fracción del coste de inferencia.
Mayor adecuación operativa: En sistemas donde la mayoría de tareas son rutinarias y estructuradas, un modelo pequeño especializado resulta más fiable que un generalista, al reducir errores de formato y responder de forma consistente.
Economía superior: Servir un modelo de 7B parámetros es hasta 30 veces más barato en latencia, energía y cálculo que un modelo de 70–175B. Además, su entrenamiento y ajuste fino puede completarse en horas en lugar de semanas, lo que facilita iteraciones rápidas.

Flexibilidad y modularidad en arquitecturas agenticas

El enfoque que se perfila es la construcción de sistemas heterogéneos: redes de agentes que combinan varios SLMs especializados, y solo recurren a un LLM generalista en tareas que requieran comprensión abierta o razonamiento complejo.

Esta composición modular se asemeja a un enjambre de especialistas más que a un único modelo centralizado. Permite escalar de forma granular, añadir funciones de manera independiente y adaptar rápidamente los modelos a nuevas necesidades o regulaciones.

Objeciones y visiones alternativas

El paper recoge las principales críticas a este planteamiento:

Superioridad lingüística de los LLMs: Según las leyes de escalado, los modelos más grandes siempre obtendrán mejores resultados en comprensión del lenguaje. Algunos estudios sugieren incluso la existencia de un “hub semántico” en los LLMs que facilita una abstracción más general.
Economías de escala en la inferencia: Centralizar en un LLM reduce costes de infraestructura, balanceo de carga y personal técnico frente a gestionar múltiples modelos pequeños.
Inercia de la industria: La inversión masiva en infraestructura para LLMs y su integración en productos ya desplegados otorgan a este enfoque una ventaja inicial significativa.

NVIDIA rebate estos puntos señalando que:

Los avances en arquitecturas específicas para modelos pequeños (como los híbridos Mamba-Transformer) invalidan la aplicación directa de las leyes de escalado tradicionales.
La facilidad de ajuste fino y especialización de SLMs compensa la supuesta ventaja generalista.
Las mejoras en marcos de inferencia distribuida, como NVIDIA Dynamo, reducen las desventajas de operar múltiples modelos.

Barreras para la adopción

Entre los principales obstáculos destacan tres:

Inversiones ya realizadas en infraestructuras de LLMs, que generan resistencias al cambio.
Uso de benchmarks generalistas, poco representativos de las tareas concretas en sistemas agenticos.
Menor visibilidad de los SLMs, con menos atención mediática y marketing en comparación con los LLMs.

Algoritmo de migración de LLM a SLM

El trabajo propone una hoja de ruta concreta para que las empresas migren de LLMs a SLMs en sus agentes:

Te puede interesar

MWC26 Barcelona redefine el MWC en la «IQ Era»

Recolección de datos de uso, registrando interacciones y métricas de latencia.
Filtrado y anonimización de datos sensibles.
Clustering de tareas para identificar patrones repetitivos.
Selección de SLMs candidatos, evaluando capacidades y costes de despliegue.
Entrenamiento y ajuste fino especializado, incluyendo técnicas de knowledge distillation desde LLMs.
Iteración y mejora continua, reentrenando los modelos con nuevos datos y ajustando la orquestación.

Casos prácticos de sustitución

El análisis incluye tres estudios de agentes de código abierto:

MetaGPT: marco multiagente que simula una empresa de software. Se estima que un 60 % de sus consultas a LLMs podrían ser reemplazadas por SLMs especializados en generación de código o respuestas estructuradas.
Open Operator: agente de automatización de flujos de trabajo. Aproximadamente un 40 % de sus tareas podrían resolverse con SLMs, sobre todo en análisis de comandos y generación de resúmenes simples.
Cradle: diseñado para control general de ordenadores mediante interacción con interfaces gráficas. Hasta un 70 % de las consultas podrían pasar a SLMs para tareas repetitivas de interacción, aunque la adaptación dinámica seguiría requiriendo LLMs.

Implicaciones económicas y ambientales

El impacto potencial es significativo. El mercado de servicios de LLMs alcanzó 5.600 millones de dólares en 2024, mientras que la inversión en centros de datos para soportarlos ascendió a 57.000 millones. Una reducción del consumo computacional en un factor de 10–30, como la reportada por los SLMs, alteraría de manera sustancial las proyecciones de rentabilidad y sostenibilidad de la IA.

En términos de eficiencia energética, la disminución de la huella de carbono también representa un argumento de peso para empresas y reguladores.

Perspectivas de futuro

El escenario que NVIDIA dibuja no es excluyente. LLMs y SLMs convivirían en sistemas heterogéneos, con los primeros en un rol limitado a tareas donde la comprensión generalista sea insustituible.

El debate abierto se centra en si los ahorros derivados de gestionar decenas o cientos de SLMs superan realmente a la eficiencia de un único modelo centralizado. La respuesta, según la propia compañía, dependerá de la evolución de las técnicas de orquestación, del avance en infraestructuras de inferencia distribuida y de la capacidad de la industria para superar la inercia actual.

Transformación gradual en la arquitectura de agentes

El paso hacia SLMs no se perfila como una sustitución inmediata, sino como una transición progresiva. A medida que se disponga de datos específicos de uso, se podrán entrenar SLMs cada vez más ajustados a tareas concretas. Esta adaptación incremental permitirá reducir costes sin comprometer precisión, al mismo tiempo que habilita nuevas formas de control local y privacidad al ejecutarse en dispositivos de usuario.

Etiquetas

ia géntica inteligencia artificial llms nvidia slms small language models

Hernán Rodríguez

Editor en La Ecuación Digital. Analista y divulgador tecnológico con más de 30 años de experiencia en el estudio del impacto de la tecnología en la empresa y la economía.