Editor en La Ecuación Digital. Analista y divulgador tecnológico con…
OpenAI ha lanzado gpt-oss-120b y gpt-oss-20b, dos modelos de lenguaje de pesos abiertos bajo licencia Apache 2.0, diseñados para ofrecer capacidades avanzadas de razonamiento con requisitos de hardware moderados desde el 5 de agosto de 2025. Ambos sistemas aprovechan una arquitectura Transformer con mixture-of-experts (MoE) y admiten contextos de hasta 128 000 tokens.
Entrenados en un corpus centrado en STEM, programación y conocimiento general, completan su preentrenamiento con fases de ajuste supervisado y refuerzo alineadas con las especificaciones internas de OpenAI.
Características de los modelos gpt-oss
Las dos versiones emplean bloques Transformer que alternan atención densa y patrones dispersos de banda local. El modelo gpt-oss-120b cuenta con 36 bloques y 117 000 000 000 parámetros totales, activando 5 100 000 000 parámetros por token con 128 expertos de los que se activan 4 por paso de inferencia. Por su parte, gpt-oss-20b dispone de 24 bloques y 21 000 000 000 parámetros totales, con activación de 3 600 000 000 parámetros por token y 32 expertos, de los cuales también se activan 4 en cada token. Ambos usan rotary positional embedding (RoPE) y grouped multi-query attention de grupo 8 para optimizar memoria y latencia.
Rendimiento en benchmarks académicos
En evaluación estándar de codificación competitiva (Codeforces), matemáticas de competencia (AIME 2024 y 2025), MMLU y HealthBench, gpt-oss-120b iguala o supera a OpenAI o4-mini y aventaja a o3-mini en la mayoría de las métricas de exactitud. El modelo más ligero, gpt-oss-20b, ofrece resultados comparables a o3-mini, mejorando en particular en pruebas de matemáticas y salud, a pesar de operar con una fracción de los parámetros de su contraparte mayor. En entornos de uso de herramientas y razonamiento encadenado, medido en la suite Tau-Bench, ambas variantes alcanzan tasas de éxito semejantes a los modelos de la serie o3 y o4.
Soporte de esfuerzo de razonamiento y uso de herramientas
Tras una fase de ajuste supervisado y refuerzo (RLHF), los gpt-oss incorporan tres niveles de esfuerzo de razonamiento—bajo, medio y alto—configurables con una instrucción breve en el mensaje de sistema. Esto permite adaptar el balance entre latencia y precisión según la complejidad de la tarea. Asimismo, ofrecen capacidades de llamada a funciones en modo few-shot y generan cadenas de pensamiento (CoT) completas, sin intervención supervisada directa, para facilitar auditoría y detección de comportamientos no deseados.
Estrategias de seguridad y pruebas adversarias
Durante el preentrenamiento, se filtraron datos relacionados con amenazas CBRN (química, biológica, radiológica y nuclear). En el ajuste posterior, se empleó alineación deliberativa e instrucción jerárquica para reforzar rechazos ante solicitudes inseguras y defenderse contra inyecciones de prompt. Para evaluar riesgos de fine-tuning malicioso, se recrearon versiones especializadas en biología y ciberseguridad que, según el Preparedness Framework de OpenAI, no alcanzaron niveles críticos de capacidad. Tres comités externos revisaron esta metodología y propusieron mejoras incorporadas en la ficha técnica.
Desafío de red teaming y colaboración comunitaria
OpenAI ha lanzado un desafío de red teaming con un fondo de 500 000 dólares para fomentar la identificación de vulnerabilidades y nuevas amenazas en los modelos abiertos. Investigadores y desarrolladores de todo el mundo pueden participar y, al cierre del concurso, se publicará un informe y un conjunto de datos de evaluación basado en hallazgos validados, con el fin de beneficiar a la comunidad en tiempo real.
Disponibilidad y ecosistema de despliegue
Los pesos de gpt-oss-120b y gpt-oss-20b están disponibles en Hugging Face en formato MXFP4, lo que permite ejecutar la variante de 120 000 000 000 parámetros en 80 GB de memoria y la de 21 000 000 000 parámetros en 16 GB. Se ofrecen implementaciones de referencia en PyTorch y Apple Metal, junto a un renderer harmony en Python y Rust. Para facilitar la adopción, se han integrado con plataformas como Azure, vLLM, Ollama, llama.cpp, LM Studio, AWS, Fireworks, Together AI, Baseten, Databricks, Vercel, Cloudflare y OpenRouter. En el ámbito de hardware, se certificaron versiones optimizadas con ONNX Runtime para Windows, accesibles desde Foundry Local y el AI Toolkit para VS Code.
Implicaciones para el sector tecnológico
Estos modelos abren la posibilidad de integrar razonamiento avanzado y uso de herramientas en infraestructuras locales, on-device o en proveedores de terceros, requisito clave para sectores con restricciones de datos o latencia. Además, ofrecen una alternativa de bajo coste para empresas emergentes y mercados con recursos limitados, sin que sea necesaria la adopción de modelos propietarios ni infraestructuras de gran escala. Para casos que requieran soporte multimodal o integraciones profundas, las opciones disponibles a través de la API de OpenAI siguen siendo la vía recomendada.
Perspectivas de adopción empresarial
Las empresas tecnológicas en España podrán aprovechar gpt-oss para automatizar procesos de análisis de datos, generación de código y atención al cliente, manteniendo el control total de sus datos en entornos locales. La disponibilidad bajo una licencia permisiva facilita su incorporación en flujos de trabajo internos y proyectos de I+D, al tiempo que impulsa la investigación en alineación y monitoreo de cadenas de razonamiento.
Editor en La Ecuación Digital. Analista y divulgador tecnológico con más de 30 años de experiencia en el estudio del impacto de la tecnología en la empresa y la economía.
