Estás leyendo
El nuevo Claude Sonnet 4.5 lidera en benchmarks de programación y uso de ordenadores

El nuevo Claude Sonnet 4.5 lidera en benchmarks de programación y uso de ordenadores

  • Claude Sonnet 4.5 mejora en codificación, memoria y seguridad, liderando evaluaciones como SWE-bench y OSWorld. El modelo ya está disponible vía API y apps.
Anthropic Claude Sonnet 4.5

La empresa Anthropic ha anunciado el lanzamiento de Claude Sonnet 4.5, su nuevo modelo de inteligencia artificial especializado en programación, razonamiento y uso de ordenadores. La compañía señala que se trata de su modelo más avanzado hasta la fecha en términos de alineamiento y capacidades computacionales, y lo presenta como una mejora directa respecto a versiones anteriores como Sonnet 4 y Opus 4.1.

Entre las novedades más destacadas se encuentra su rendimiento en entornos reales de programación. Según datos publicados por Anthropic, Claude Sonnet 4.5 alcanza una puntuación del 61,4 % en OSWorld, un benchmark centrado en tareas reales con ordenadores, lo que representa un incremento sustancial respecto al 42,2 % obtenido por su predecesor hace cuatro meses. Asimismo, lidera el SWE-bench Verified, una prueba que evalúa modelos de lenguaje en escenarios de codificación aplicada a proyectos de software reales.

Mejoras en codificación, memoria y uso del entorno

Claude Sonnet 4.5 se lanza junto con una serie de actualizaciones en el ecosistema de productos Claude Code. Entre las funciones incorporadas se incluyen los «checkpoints», una característica solicitada que permite guardar el progreso y retroceder a versiones anteriores del código. También se ha renovado la interfaz del terminal, se ha incorporado una extensión nativa para Visual Studio Code y se ha mejorado la edición de contexto y gestión de memoria a través de la API.

En las aplicaciones de Claude, el modelo ahora permite ejecutar código y crear archivos directamente (incluyendo hojas de cálculo, presentaciones y documentos), así como interactuar con el navegador mediante una extensión de Chrome, disponible para los usuarios del plan Max que estaban en lista de espera desde el mes anterior.

Claude Agent SDK: infraestructura abierta para desarrolladores

Uno de los componentes clave del anuncio es el Claude Agent SDK, un conjunto de herramientas que replica la infraestructura utilizada por Anthropic para construir agentes inteligentes como Claude Code. Este kit permite a los desarrolladores gestionar la memoria de largo plazo, sistemas de permisos para tareas automatizadas y coordinación entre múltiples subagentes orientados a objetivos comunes.

La compañía ha puesto este SDK a disposición del público con el objetivo de facilitar la creación de agentes personalizados que puedan abordar tareas complejas más allá del ámbito de la programación.

Rendimiento en tareas de razonamiento y disciplinas técnicas

Además de su desempeño en codificación, Claude Sonnet 4.5 ha demostrado mejoras sustanciales en evaluaciones públicas relacionadas con el razonamiento y las matemáticas. Según Anthropic, expertos en sectores como finanzas, derecho, medicina e ingeniería (STEM) han constatado una mejora notable en el conocimiento específico por dominios en comparación con modelos anteriores.

La empresa también afirma que el modelo ha sido capaz de mantener la atención durante más de 30 horas seguidas en tareas con múltiples pasos, lo que podría ser significativo en contextos profesionales que requieren planificación a largo plazo y gestión continua del contexto.

Seguridad y alineamiento bajo supervisión automatizada

Claude Sonnet 4.5 se presenta como el modelo más alineado de la compañía hasta la fecha. Según la información facilitada, se han introducido mejoras para mitigar comportamientos considerados preocupantes como la adulación excesiva, la complacencia con indicaciones nocivas, la búsqueda de poder o la validación de pensamientos delirantes.

Estas mejoras se han evaluado mediante un sistema automatizado de auditoría conductual, cuyos resultados reflejan una reducción en los comportamientos desalineados. Además, el modelo opera bajo el marco de seguridad AI Safety Level 3 (ASL-3), que impone salvaguardas como clasificadores diseñados para detectar contenidos peligrosos, especialmente aquellos relacionados con armas químicas, biológicas, radiológicas o nucleares (CBRN).

Anthropic indica que estos clasificadores han sido optimizados para reducir falsos positivos en un factor de diez respecto a su versión inicial y que los usuarios interrumpidos por este sistema pueden continuar sus conversaciones con Claude Sonnet 4, considerado de menor riesgo en este ámbito.

Te puede interesar
Gaia-X Summit 2025 - Ulrich Ahle

Función experimental: “Imagine with Claude”

Como parte del lanzamiento, la compañía ha habilitado temporalmente una función experimental denominada Imagine with Claude. Este entorno permite observar cómo el modelo genera software en tiempo real sin código predefinido. La demostración está disponible durante cinco días para los suscriptores del plan Max.

Según Anthropic, este experimento busca ilustrar cómo un modelo de gran capacidad, combinado con una infraestructura adecuada, puede adaptarse dinámicamente a solicitudes del usuario en procesos de creación interactiva.

Acceso, precios y compatibilidad

Claude Sonnet 4.5 está disponible desde hoy a través de la API de Claude, las aplicaciones web y el entorno Claude Code. El modelo mantiene el mismo esquema de precios que su versión anterior: 3 dólares por millón de tokens para la entrada y 15 dólares para la salida.

Las actualizaciones del entorno de desarrollo están disponibles para todos los usuarios, mientras que las funciones avanzadas como la ejecución de código y la creación de archivos en la conversación están habilitadas en todos los planes de pago. El Claude Agent SDK también se ofrece de forma abierta a la comunidad de desarrolladores.

Infraestructura compartida y evolución del modelo

Según la documentación técnica publicada por la empresa, Claude Sonnet 4.5 se construye sobre la misma infraestructura que alimenta los productos de vanguardia de Anthropic. La compañía ha señalado que continuará compartiendo avances sobre interpretabilidad mecánica y evaluación de ciberseguridad, con el objetivo de seguir desarrollando un marco que combine capacidades avanzadas con mecanismos de control y supervisión robustos.

Utilizamos cookies para facilitar la relación de los visitantes con nuestro contenido y para permitir elaborar estadísticas sobre las visitantes que recibimos. No se utilizan cookies con fines publicitarios ni se almacena información de tipo personal. Puede gestionar las cookies desde aquí.   
Privacidad