El nuevo Claude Sonnet 4.5 lidera en benchmarks de programación y uso de ordenadores

Claude Sonnet 4.5 mejora en codificación, memoria y seguridad, liderando evaluaciones como SWE-bench y OSWorld. El modelo ya está disponible vía API y apps.

Editor en La Ecuación Digital. Analista y divulgador tecnológico con…

La empresa Anthropic ha anunciado el lanzamiento de Claude Sonnet 4.5, su nuevo modelo de inteligencia artificial especializado en programación, razonamiento y uso de ordenadores. La compañía señala que se trata de su modelo más avanzado hasta la fecha en términos de alineamiento y capacidades computacionales, y lo presenta como una mejora directa respecto a versiones anteriores como Sonnet 4 y Opus 4.1.

Entre las novedades más destacadas se encuentra su rendimiento en entornos reales de programación. Según datos publicados por Anthropic, Claude Sonnet 4.5 alcanza una puntuación del 61,4 % en OSWorld, un benchmark centrado en tareas reales con ordenadores, lo que representa un incremento sustancial respecto al 42,2 % obtenido por su predecesor hace cuatro meses. Asimismo, lidera el SWE-bench Verified, una prueba que evalúa modelos de lenguaje en escenarios de codificación aplicada a proyectos de software reales.

Mejoras en codificación, memoria y uso del entorno

Claude Sonnet 4.5 se lanza junto con una serie de actualizaciones en el ecosistema de productos Claude Code. Entre las funciones incorporadas se incluyen los «checkpoints», una característica solicitada que permite guardar el progreso y retroceder a versiones anteriores del código. También se ha renovado la interfaz del terminal, se ha incorporado una extensión nativa para Visual Studio Code y se ha mejorado la edición de contexto y gestión de memoria a través de la API.

En las aplicaciones de Claude, el modelo ahora permite ejecutar código y crear archivos directamente (incluyendo hojas de cálculo, presentaciones y documentos), así como interactuar con el navegador mediante una extensión de Chrome, disponible para los usuarios del plan Max que estaban en lista de espera desde el mes anterior.

Claude Agent SDK: infraestructura abierta para desarrolladores

Uno de los componentes clave del anuncio es el Claude Agent SDK, un conjunto de herramientas que replica la infraestructura utilizada por Anthropic para construir agentes inteligentes como Claude Code. Este kit permite a los desarrolladores gestionar la memoria de largo plazo, sistemas de permisos para tareas automatizadas y coordinación entre múltiples subagentes orientados a objetivos comunes.

La compañía ha puesto este SDK a disposición del público con el objetivo de facilitar la creación de agentes personalizados que puedan abordar tareas complejas más allá del ámbito de la programación.

Rendimiento en tareas de razonamiento y disciplinas técnicas

Además de su desempeño en codificación, Claude Sonnet 4.5 ha demostrado mejoras sustanciales en evaluaciones públicas relacionadas con el razonamiento y las matemáticas. Según Anthropic, expertos en sectores como finanzas, derecho, medicina e ingeniería (STEM) han constatado una mejora notable en el conocimiento específico por dominios en comparación con modelos anteriores.

La empresa también afirma que el modelo ha sido capaz de mantener la atención durante más de 30 horas seguidas en tareas con múltiples pasos, lo que podría ser significativo en contextos profesionales que requieren planificación a largo plazo y gestión continua del contexto.

Seguridad y alineamiento bajo supervisión automatizada

Claude Sonnet 4.5 se presenta como el modelo más alineado de la compañía hasta la fecha. Según la información facilitada, se han introducido mejoras para mitigar comportamientos considerados preocupantes como la adulación excesiva, la complacencia con indicaciones nocivas, la búsqueda de poder o la validación de pensamientos delirantes.

Estas mejoras se han evaluado mediante un sistema automatizado de auditoría conductual, cuyos resultados reflejan una reducción en los comportamientos desalineados. Además, el modelo opera bajo el marco de seguridad AI Safety Level 3 (ASL-3), que impone salvaguardas como clasificadores diseñados para detectar contenidos peligrosos, especialmente aquellos relacionados con armas químicas, biológicas, radiológicas o nucleares (CBRN).

Anthropic indica que estos clasificadores han sido optimizados para reducir falsos positivos en un factor de diez respecto a su versión inicial y que los usuarios interrumpidos por este sistema pueden continuar sus conversaciones con Claude Sonnet 4, considerado de menor riesgo en este ámbito.

Te puede interesar

Wimbledon optimiza su gestión digital mediante IA en 2026

Función experimental: “Imagine with Claude”

Como parte del lanzamiento, la compañía ha habilitado temporalmente una función experimental denominada Imagine with Claude. Este entorno permite observar cómo el modelo genera software en tiempo real sin código predefinido. La demostración está disponible durante cinco días para los suscriptores del plan Max.

Según Anthropic, este experimento busca ilustrar cómo un modelo de gran capacidad, combinado con una infraestructura adecuada, puede adaptarse dinámicamente a solicitudes del usuario en procesos de creación interactiva.

Acceso, precios y compatibilidad

Claude Sonnet 4.5 está disponible desde hoy a través de la API de Claude, las aplicaciones web y el entorno Claude Code. El modelo mantiene el mismo esquema de precios que su versión anterior: 3 dólares por millón de tokens para la entrada y 15 dólares para la salida.

Las actualizaciones del entorno de desarrollo están disponibles para todos los usuarios, mientras que las funciones avanzadas como la ejecución de código y la creación de archivos en la conversación están habilitadas en todos los planes de pago. El Claude Agent SDK también se ofrece de forma abierta a la comunidad de desarrolladores.

Infraestructura compartida y evolución del modelo

Según la documentación técnica publicada por la empresa, Claude Sonnet 4.5 se construye sobre la misma infraestructura que alimenta los productos de vanguardia de Anthropic. La compañía ha señalado que continuará compartiendo avances sobre interpretabilidad mecánica y evaluación de ciberseguridad, con el objetivo de seguir desarrollando un marco que combine capacidades avanzadas con mecanismos de control y supervisión robustos.

Etiquetas

anthropic claude sonnet 4.5

Hernán Rodríguez

Editor en La Ecuación Digital. Analista y divulgador tecnológico con más de 30 años de experiencia en el estudio del impacto de la tecnología en la empresa y la economía.

El nuevo Claude Sonnet 4.5 lidera en benchmarks de programación y uso de ordenadores

Therabody usa NetSuite para escalar sus operaciones

IBM y Red Hat lanzan Lightwell para asegurar open source

AWS mide el valor de la IA agéntica para sus socios

Adigital y el Gobierno abordan el salto de las startups

La UE premia el emprendimiento tecnológico femenino

La ONU abre su diálogo sobre gobernanza de la IA

GITEX AI EUROPE muestra la IA industrial en Berlín

GITEX AI EUROPE 2026 abre el debate sobre IA soberana

IA y turismo: cómo la tecnología fintech ayuda a gestionar gastos en los viajes

La revolución LendTech en el sector financiero: retos y oportunidades

Unicaja entra en el consejo de administración de Bit2Me y se convierte en el banco de referencia de la fintech española

UAX y NTT DATA impulsan formación en IA agéntica

Equinix eleva su inversión en formación ante la falta de talento técnico

Fundación Telefónica invierte 12 millones en talento tecnológico

Los despidos en Microsoft golpean a Xbox y ventas

SCC invertirá hasta 100 millones en Proyecto Sirius

Sherpa.ai capta 18 millones para soberanía del dato

Finalistas de los Blockchain Awards 2025: trazabilidad, identidad digital y sostenibilidad como vectores de competitividad

Sybol, la startup de identidad digital basada en blockchain nacida del intraemprendimiento de Repsol

El declive del blockchain: desafíos, oportunidades y futuro

DXC presenta la plataforma DXC Private Cloud+ para empresas

El Edge Continuum europeo ante el reto de la escala industrial

Telefónica y CAF despliegan en Bilbao el primer nodo de Edge Computing comercial para la industria ferroviaria europea

Telefónica despliega 17 nodos de Edge Computing en España para liderar la soberanía del dato

HONOR Magic V6 eleva la presión en los plegables

Nuevos Surface Pro y Laptop para empresas impulsan la IA

Samsung Buds4: la ergonomía computacional se pone al servicio del audio de alta fidelidad

OPPO presenta soluciones innovadoras basadas en IA y las nuevas OPPO Air Glass 3 en el MWC 2024

Samsung y El Ganso se unen para personalizar los nuevos Galaxy Z Flip4

Amazon lanza Alexa+ en España: la IA generativa llega al hogar

Amazon presenta la nueva generación del Echo Show 8 y el Echo Show 5

Amazon reinterpreta el Echo Show con una pantalla HD de 10 pulgadas rotatoria