La empresa tecnológica Tilde, con sede en los países bálticos, ha presentado TildeOpen LLM, un modelo de lenguaje de código abierto entrenado con 30.000 millones de parámetros y optimizado para las lenguas oficiales de la Unión Europea y otras de la región.
El desarrollo se ha llevado a cabo en el superordenador LUMI, dentro del marco del Large AI Grand Challenge, iniciativa financiada por la Comisión Europea para impulsar la capacidad de Europa en inteligencia artificial generativa.
Un modelo multilingüe entrenado en infraestructura europea
TildeOpen ha sido entrenado utilizando dos millones de horas de GPU en el superordenador LUMI, ubicado en Kajaani (Finlandia) y considerado el más rápido de Europa y el quinto a nivel mundial. Esta infraestructura forma parte del esfuerzo conjunto del EuroHPC Joint Undertaking para consolidar un ecosistema europeo de computación de alto rendimiento.
El modelo cubre las 24 lenguas oficiales de la UE e incorpora soporte para idiomas no oficiales pero relevantes en la región, como el ucraniano, el noruego y varias lenguas balcánicas. Entre las lenguas más representadas se encuentran el letón, lituano, estonio, polaco, esloveno, búlgaro, croata, eslovaco, checo, macedonio, montenegrino y serbio. También se han integrado lenguas de alto volumen como inglés, francés, alemán y ruso, manteniendo una proporción equilibrada para tareas multilingües como la traducción automática.
Eficiencia y cumplimiento normativo
TildeOpen LLM ha sido diseñado para ofrecer un rendimiento competitivo con modelos globales de gran escala, manteniendo un tamaño inferior, mayor velocidad de respuesta y un acceso más asequible. Todo el procesamiento de datos se ha realizado en infraestructuras ubicadas dentro de la Unión Europea, asegurando así el cumplimiento con el Reglamento de Inteligencia Artificial de la UE y garantizando la soberanía digital en términos de protección de datos.
El modelo está disponible de forma abierta en la plataforma Hugging Face, y próximamente se integrará en la plataforma europea AI on Demand.
Enfoque en la equidad lingüística
Uno de los objetivos principales del proyecto TildeOpen es subsanar las desigualdades lingüísticas existentes en los modelos de IA actuales, habitualmente entrenados con predominancia del inglés. Esta concentración conlleva sesgos culturales y dificultades operativas, como la necesidad de usar secuencias más largas para representar el mismo contenido en lenguas menos representadas, lo que encarece y ralentiza los modelos.
Tilde ha puesto el foco en desarrollar una base tecnológica que permita una representación equitativa de lenguas con menor disponibilidad de recursos digitales. Según los desarrolladores, este enfoque busca reducir las barreras de acceso a la IA para comunidades lingüísticas de Europa Central y del Este, donde la disponibilidad de recursos lingüísticos sigue siendo limitada en comparación con los principales idiomas globales.
Aplicaciones previstas en el entorno institucional y empresarial
TildeOpen LLM ha sido concebido como modelo fundacional, es decir, como una base versátil sobre la que se pueden desarrollar aplicaciones específicas mediante procesos de ajuste fino (fine-tuning). Estas aplicaciones incluyen desde asistentes virtuales institucionales o empresariales hasta sistemas de generación de texto especializados para investigación, atención al cliente o análisis documental multilingüe.
Gracias a su disponibilidad en código abierto, el modelo está orientado tanto a organismos públicos como a empresas y centros de investigación interesados en desarrollar soluciones adaptadas a sus necesidades lingüísticas y normativas. Este enfoque pretende consolidar un ecosistema europeo que pueda competir con propuestas tecnológicas de otros continentes, sin depender de infraestructuras externas a la UE.
El papel del Large AI Grand Challenge
El proyecto TildeOpen ha sido posible gracias al apoyo del Large AI Grand Challenge, una iniciativa lanzada por la Comisión Europea para fomentar el desarrollo de modelos fundacionales propios en Europa. Este programa ha premiado a cuatro empresas europeas con un total de ocho millones de horas de computación y un fondo económico de un millón de euros.
El desafío ha estado dirigido principalmente a pymes y startups con capacidad técnica suficiente para construir modelos avanzados de IA. La elección de Tilde como una de las empresas ganadoras ha sido un reconocimiento a su trayectoria en el ámbito de la tecnología lingüística, especialmente en el desarrollo de herramientas centradas en las lenguas de Europa del Este y del Báltico.
Tilde, actor regional con proyección continental
Fundada en Riga y con oficinas en Vilna y Tallin, Tilde cuenta con más de 150 empleados y una sólida red de investigación que incluye colaboraciones con universidades y centros tecnológicos de toda la Unión Europea. El equipo de investigación de la compañía está compuesto por nueve doctores y ha publicado más de 260 trabajos científicos en el campo del procesamiento del lenguaje natural.
En los últimos años, Tilde ha concentrado su actividad investigadora en el desarrollo de modelos de lenguaje de gran escala, el ajuste de estos modelos para tareas concretas y la integración de LLMs adaptados a instrucciones para su uso en aplicaciones prácticas como traducción automática, asistentes conversacionales, recuperación de información, procesamiento del habla y generación de resúmenes.
Consolidación del ecosistema de IA europeo
La publicación de TildeOpen representa un paso relevante hacia la consolidación de una infraestructura tecnológica europea capaz de producir modelos de lenguaje competitivos a nivel internacional. Al basarse exclusivamente en recursos y normativas de la UE, el proyecto refuerza la autonomía tecnológica de la región y proporciona una base para futuras iniciativas que prioricen la diversidad lingüística y la transparencia tecnológica.
Además, la interoperabilidad del modelo con plataformas como Hugging Face facilita su adopción por parte de desarrolladores, instituciones y empresas del entorno europeo que busquen soluciones adaptadas a los requisitos legales y lingüísticos de sus respectivos mercados.
