La inferencia de inteligencia artificial (IA) está saliendo del centro de datos para instalarse en los dispositivos periféricos. Lo que hasta hace poco era dominio exclusivo de grandes modelos en la nube empieza a trasladarse a entornos locales, impulsado por una combinación de modelos más pequeños, hardware especializado y marcos de ejecución ligeros. Esta transición, conocida como edge AI, está ganando terreno en sectores industriales, sanitarios y de consumo, donde la latencia, la privacidad y los costes son factores determinantes.
Según Joshua David, director sénior de gestión de proyectos de edge en Red Hat, el mercado global de edge AI podría alcanzar los 143.000 millones de dólares en 2034. Una cifra que refleja no solo el crecimiento de los dispositivos conectados, sino también un cambio estructural en el uso de la IA: del entrenamiento centralizado a la inferencia distribuida. Esta última, que consiste en aplicar modelos ya entrenados para tomar decisiones o hacer predicciones, requiere menos potencia bruta pero más proximidad al dato.
La nube pública sigue siendo útil para entrenar modelos complejos, pero presenta limitaciones cuando se trata de inferencia en tiempo real. La latencia, los costes de transferencia de datos y las preocupaciones sobre privacidad han empujado a muchas organizaciones a explorar alternativas locales. “Edge AI proporciona beneficios clave como menor latencia, costes reducidos, mayor seguridad y privacidad”, señala David.
El aumento reciente de precios en servicios de GPU en la nube, como el anunciado por Amazon, ha reforzado esta tendencia. IDC estima que para 2027, el 80% de los CIOs recurrirán a servicios edge ofrecidos por proveedores cloud para cubrir las necesidades de inferencia. No obstante, el paso a una arquitectura distribuida no está exento de obstáculos.
Entre los retos más citados figuran las limitaciones de rendimiento en tiempo real, el tamaño de las pilas de IA y la fragmentación del ecosistema edge. A pesar de ello, el avance tecnológico está reduciendo estas barreras. Modelos más pequeños, como los SLM (small language models), y técnicas de optimización como la cuantización permiten ejecutar inferencias en dispositivos con recursos limitados, desde sensores industriales hasta móviles o cámaras inteligentes.
“Los modelos pequeños están ganando potencia”, afirma Johann Schleier-Smith, ingeniero sénior en Temporal Technologies. Herramientas como GPT-OSS o el Hierarchical Reasoning Model muestran que es posible reducir el tamaño sin sacrificar capacidad. Estas mejoras, junto con el uso de hardware como los NPUs, Edge TPU de Google o el Neural Engine de Apple, están permitiendo que la IA funcione directamente en el extremo de la red.
Además, los marcos de ejecución adaptados a entornos locales, como llama.cpp, OpenVINO o LiteRT, están facilitando la inferencia en dispositivos de consumo. En paralelo, proyectos como MLC LLM o WebLLM abren la puerta a ejecutar modelos directamente en navegadores o plataformas nativas.
La compatibilidad con arquitecturas cloud-native también es un factor clave. Herramientas como KServe o Akri, esta última impulsada por la CNCF, permiten integrar dispositivos periféricos en entornos Kubernetes, facilitando la gestión y el despliegue de cargas de trabajo de IA en el edge. En este sentido, la estandarización se perfila como un requisito para escalar. ONNX y proyectos como Margo, promovido por la Linux Foundation, buscan reducir la fricción entre hardware y software en entornos industriales.
A pesar de los avances, la adopción de edge AI a gran escala sigue siendo incipiente. “Una limitación importante es la naturaleza restringida de los dispositivos edge”, apunta Sumeet Agrawal, vicepresidente de gestión de producto en Informatica. La memoria limitada y la falta de potencia de cálculo dificultan el despliegue de modelos complejos. Además, la falta de plataformas integradas obliga a soluciones manuales y poco escalables.
Keith Basil, responsable de la unidad de edge en SUSE, subraya la fragmentación como otro freno. “A diferencia del entorno cloud, el edge carece de un marco común para hardware, software y protocolos de comunicación”, afirma. Esta diversidad genera incompatibilidades y obliga a desarrollos específicos para cada dispositivo.
La gestión de modelos distribuidos añade otra capa de complejidad. Actualizar, versionar y monitorizar modelos desplegados en cientos o miles de dispositivos plantea desafíos logísticos y de seguridad. Frente a ello, algunos expertos recomiendan adoptar edge AI solo donde tenga sentido —por ejemplo, en entornos con baja conectividad—, mantener una estrategia híbrida y diseñar desde el inicio pensando en el ciclo de vida completo del modelo.
Pese a las dificultades, el interés por edge AI no muestra signos de desaceleración. En sectores como la fabricación, el 95% de las empresas ya ha invertido o planea invertir en IA en los próximos cinco años, según datos de Rockwell Automation. El informe CIO 2024, patrocinado por Intel, indica que el 74% de los líderes del sector cree que la IA puede ayudarles a aumentar ingresos.
El impacto económico también es significativo. Un estudio publicado en ArXiv en enero de 2025 concluye que, en ciertos escenarios, el uso de arquitecturas híbridas edge-cloud puede reducir el consumo energético hasta un 75% y los costes en más de un 80%. “El procesamiento en el edge utiliza directamente el contexto local para minimizar la complejidad computacional”, escribe el autor, Siavash Alamouti.
A medio plazo, se espera que la IA en el edge no sustituya a la nube, sino que la complemente. Schleier-Smith lo resume así: “Edge AI tendrá su momento, pero su adopción será más lenta que la del cloud”. Basil coincide: la clave está en hacer más inteligentes y eficientes los sistemas existentes, no en reemplazarlos.
Lo que parece claro es que la inteligencia artificial está dejando de ser exclusivamente centralizada. La computación distribuida, más cercana al usuario y al dato, gana protagonismo. Y con ella, una nueva generación de dispositivos capaces de tomar decisiones en tiempo real, sin depender de una conexión constante con la nube.
