Lo que una biblioteca sabe sobre IA que las empresas tecnológicas no pueden comprar

La Biblioteca Nacional de Noruega acudió al IDI Forum 2026 de Huawei en París con el corpus lingüístico más completo de su lengua. El modelo que describe es el que Europa necesita entender.

Soberanía lingüística en IA: la lección de Noruega - IDI Forum 2026 París - Huawei

Editor en La Ecuación Digital. Analista y divulgador tecnológico con…

Marius Husnes es responsable de plataformas de TI de la Biblioteca Nacional de Noruega. En el Huawei IDI Forum 2026 en París, ante un auditorio de directivos de infraestructura y tecnología, empezó su intervención con una frase que nadie esperaba: «Trabajo en una biblioteca». Lo que vino después fue una exposición sobre datos, preservación e IA contada desde la perspectiva de quien lleva veinte años haciendo el trabajo, no anunciando productos.

La Biblioteca Nacional de Noruega tiene un mandato legal: recopilar y preservar todo lo que se publica en el país. Cada editorial, cada emisora, cada productor de contenido tiene la obligación legal de depositar una copia física de todo lo que produce. Libros desde el siglo XVI, periódicos desde el XVIII, emisiones de radio desde los años treinta, televisión desde los sesenta y, desde el año 2000, la totalidad del dominio .no cosechado varias veces al año. El resultado de veinte años de digitalización industrial es un archivo de unos 20 petabytes de objetos digitales únicos que, por razones de seguridad y redundancia, se almacenan en realidad en 60 petabytes, con tres copias en dos tecnologías distintas y una copia fuera de las instalaciones.

Nadie planificó lo que ese archivo acabaría significando para la inteligencia artificial. La biblioteca digitalizaba para preservar, no para entrenar modelos. Pero cada paso del proceso, el escaneo, la corrección de imagen, el reconocimiento óptico de caracteres sobre millones de páginas con tipografías históricas y dialectos del siglo XIX, la extracción de metadatos, la anotación estructural, generaba datos sobre los datos. Y veinte años de ese proceso acumulado produjeron, sin que nadie lo hubiera diseñado así, el corpus de lengua noruega más completo que existe: mayor que el de Google y mayor que el de OpenAI, porque ninguna de las dos empresas tuvo acceso a él.

Marius Husnes es responsable de plataformas de TI de la Biblioteca Nacional de Noruega

El problema que el dinero no resuelve

Cuando el Gobierno noruego observó lo que estaba ocurriendo globalmente con los grandes modelos de lenguaje, la conclusión fue evidente. El noruego es una lengua pequeña, hablada por unos cinco millones de personas, con dos formas escritas, bokmål y nynorsk, y decenas de dialectos. Los modelos globales se entrenan abrumadoramente en inglés. Si le preguntas algo en noruego a GPT o a Claude, obtienes una respuesta, pero obtienes una respuesta mejor si haces la misma pregunta en inglés. Los modelos sencillamente tienen menos datos de entrenamiento en noruego. Y si Noruega no construye sus propios modelos de lengua, nadie lo hará.

El Ministerio de Cultura encargó formalmente a la biblioteca que lo hiciera y asignó 70 millones de coronas noruegas anuales para financiarlo. Pero el dinero no es la ventaja principal. La principal ventaja es un acuerdo legal con todos los periódicos y editoriales del país que permite a la institución entrenar modelos sobre contenido protegido por derechos de autor. Husnes fue explícito sobre esto: es una ventaja legal e institucional, no técnica, y llevó décadas construirla.

Ninguna empresa privada, con independencia de su tamaño o su presupuesto, puede replicar esa posición. No porque la tecnología sea inaccesible, sino porque el acceso a los datos descansa en décadas de confianza institucional, en mandatos legales que solo el Estado puede otorgar y en relaciones con editores y emisoras que no se establecen de un trimestre para otro. Es exactamente el tipo de activo que no aparece en ninguna hoja de ruta de producto.

Una infraestructura diseñada para mil años que ahora alimenta modelos de IA

El detalle técnico que Husnes describió en París revela una dificultad que pocas organizaciones han tenido que gestionar. La biblioteca opera dos entornos de almacenamiento con requisitos casi opuestos bajo el mismo techo.

El archivo de preservación vive en cinta y disco, con redundancia estricta y un horizonte de mil años. No es rápido y no tiene que serlo. Su métrica principal no es el rendimiento, sino la durabilidad. El equipo migra constantemente datos de sistemas viejos a nuevos, generación tras generación, porque ese es el trabajo de conservar algo para siempre. No hay hardware de vanguardia en ese entorno; hay disciplina.

El entorno de IA es lo contrario. La biblioteca destina alrededor de dos petabytes de almacenamiento all-flash de Huawei, concretamente cabinas OceanStor Dorado, a las tuberías de procesamiento, optimizados para rendimiento y latencia mínima. Husnes explicó la razón con precisión: cuando una tubería de entrenamiento necesita los datos, los necesita en ese momento, no en dos días, y no puedes permitir que los trabajos de preprocesamiento esperen a un almacenamiento lento. No es una decisión reciente; la biblioteca lleva años usando Dorado en sus tuberías de digitalización por la misma razón, el rendimiento siempre fue prioritario en sus sistemas de producción, y aplica la misma lógica a los flujos de IA.

El problema del que apenas se habla en el sector, según Husnes, es lo que ocurre entre los dos entornos. No se puede entrenar un modelo directamente desde el archivo de preservación, al menos no si se quiere que el proceso termine antes de que pasen décadas. Mover petabytes de datos desde el archivo hacia el entorno de IA, curarlos, limpiarlos y prepararlos es un problema de ingeniería por sí solo, y si no se resuelve, todo lo demás deja de funcionar. En cualquier día de trabajo en la biblioteca pueden estar extrayendo terabytes de OCR de periódicos del siglo XIX del archivo de preservación, procesándolos en el clúster de CPU y enviándolos a Sigma2, la infraestructura nacional de computación de alto rendimiento de Noruega, para el entrenamiento real. Tres sistemas construidos para propósitos completamente distintos tienen que trabajar juntos con fluidez.

El cuello de botella no son las GPUs

La frase con la que Husnes resumió la experiencia de la biblioteca merece citarse porque contradice el relato dominante sobre lo que limita el avance de la IA: «El cuello de botella no son las GPUs. Son los datos. El trabajo de limpiarlos, estructurarlos, validarlos y moverlos. Ahí es donde ocurre el trabajo real, y ahí es donde las decisiones de infraestructura importan de verdad».

La biblioteca tiene un solo sistema DGX con ocho GPUs H200 y un clúster de 384 núcleos de CPU para el procesamiento pesado. La infraestructura de cómputo es modesta para la ambición del proyecto. Lo que no es modesto es el corpus, y ese corpus no se construyó invirtiendo en GPUs, sino preservando metódicamente durante veinte años algo que en su momento no tenía ningún valor obvio para la IA.

Los modelos que la biblioteca ya ha publicado se usan en Noruega, sobre todo el modelo de transcripción de voz a texto basado en Whisper y el modelo GPT Borealis, construido sobre Llama 3. El trabajo en curso cubre reconocimiento automático de voz, modelos de texto a voz y modelos de embeddings, con el objetivo de combinarlos progresivamente.

Te puede interesar

SAS cumple 50 años ante el reto de la IA confiable

Husnes fue honesto sobre las dificultades que quedan por resolver. En su descripción son tres. La primera es la evaluación de la calidad de los modelos en noruego: no existen benchmarks estándar que capturen bien una lengua con dos formas escritas, múltiples dialectos y variación histórica, así que la biblioteca está construyendo sus propias herramientas de evaluación al mismo tiempo que construye los modelos. La segunda es la gobernanza: quién controla el acceso a los modelos nacionales de lengua, quién decide para qué pueden usarse. No son preguntas técnicas y Husnes fue explícito en que no son suyas para responder; son preguntas institucionales y políticas. La tercera es la orquestación de una infraestructura híbrida que reúne tres sistemas que nunca fueron diseñados para trabajar juntos.

Lo que esto significa para Europa y para el español

La experiencia noruega no es un caso de nicho. Es un modelo que describe un problema que todas las lenguas no anglófonas enfrentarán con distintos grados de urgencia. El noruego tiene cinco millones de hablantes; el español tiene más de quinientos millones. La escala es diferente, pero la lógica es la misma: los grandes modelos globales se entrenan principalmente en inglés, y la calidad de sus respuestas en otras lenguas es proporcional a la cantidad de datos de entrenamiento disponibles en esas lenguas.

España tiene una respuesta institucional a este problema, aunque con un perfil diferente al noruego. ALIA, acrónimo de Activos para el Lenguaje y la Inteligencia Artificial, es una familia de modelos fundacionales impulsada por el Gobierno de España y coordinada técnicamente por el Barcelona Supercomputing Center, con foco en el castellano y las lenguas cooficiales. Su corpus de entrenamiento supera los 17.000 millones de palabras en 34 millones de documentos, y el modelo más ambicioso de la familia, ALIA-40B, tiene 40.000 millones de parámetros y fue entrenado desde cero con 9,2 billones de tokens en 36 idiomas.

ALIA parte de corpus construidos específicamente para el proyecto, lo que la diferencia estructuralmente del modelo noruego, donde el material se acumuló durante décadas de preservación institucional sin ese propósito en mente. Noruega tiene además algo que España no tiene en la misma medida: un acuerdo legal con editores y medios que permite entrenar sobre contenido protegido, respaldado por una institución con mandato, trayectoria y acceso a ese material. ALIA es una apuesta real y con recursos, pero su corpus no arrastra la profundidad histórica ni la riqueza de contexto cultural de un archivo construido durante quinientos años.

El caso noruego muestra que el problema para cualquier país de habla no inglesa no es si sus instituciones culturales tienen datos valiosos. Casi todas los tienen. La cuestión es si alguien ha decidido que preservar esos datos y construir con ellos capacidad de IA propia es una responsabilidad del Estado, con financiación y mandato formal, o si se va a dejar que el mercado resuelva el problema a su manera, que es la manera del inglés.

Husnes lo formuló con precisión al cerrar su intervención en París: «Empezamos digitalizando para preservar el pasado de Noruega y acabamos construyendo la infraestructura para el futuro de IA de Noruega». El trayecto no fue planificado. Pero el punto de llegada tampoco fue accidental: requirió décadas de trabajo discreto, mandatos legales, confianza institucional y la decisión, cuando llegó el momento, de hacer algo con lo que se había acumulado. Esos ingredientes no se improvisan, y no los vende ningún proveedor de infraestructura.

Etiquetas

biblioteca biblioteca noruego datos europa Huawei idi forum 2026 idiforum2026 infraestructura inteligencia artificial llms modelos noruega soberanía

Hernán Rodríguez

Editor en La Ecuación Digital. Analista y divulgador tecnológico con más de 30 años de experiencia en el estudio del impacto de la tecnología en la empresa y la economía.