Sora 2: OpenAI lanza modelo de vídeo con física realista y sonido sincronizado

Sora 2 marca un nuevo hito en la generación de vídeo mediante inteligencia artificial, con avances en simulación física, control de escena y representación audiovisual sincronizada.

Editor en La Ecuación Digital. Analista y divulgador tecnológico con…

OpenAI ha anunciado el lanzamiento de Sora 2, su modelo más avanzado para la generación de vídeo y audio mediante inteligencia artificial. Esta nueva versión, presentada junto con una aplicación social para iOS, amplía considerablemente las capacidades técnicas de su predecesor al mejorar la precisión física, la coherencia visual y la integración de sonido. El modelo permite generar vídeos breves con un elevado nivel de realismo, tanto en los movimientos como en la ambientación sonora, incorporando incluso diálogos sincronizados.

Sora 2 representa, según la propia compañía, un salto cualitativo comparable al que supuso GPT-3.5 en el ámbito del lenguaje. Frente al primer modelo Sora, presentado en febrero de 2024 y centrado en pruebas de concepto, esta nueva versión introduce dinámicas físicas más consistentes y un control narrativo más preciso en la generación de escenas.

This is Sora 2

Ver este vídeo en YouTube.

Mejoras técnicas en la simulación del mundo físico

Uno de los avances destacados de Sora 2 es su capacidad para respetar las leyes de la física de forma más rigurosa que los modelos anteriores. A diferencia de sus predecesores, que a menudo distorsionaban la realidad para cumplir con las indicaciones del texto, Sora 2 representa fallos y acciones incorrectas de manera realista, como rebotes naturales de un balón tras un lanzamiento fallido o desequilibrios durante maniobras complejas.

Este nivel de simulación ha sido posible gracias a un entrenamiento intensivo con datos de vídeo a gran escala, un proceso aún incipiente en comparación con los modelos de lenguaje. El modelo demuestra comportamientos coherentes como la permanencia de objetos, la persistencia del estado del mundo y la capacidad de encadenar acciones en múltiples planos de cámara.

Introducing Sora 2

Ver este vídeo en YouTube.

Integración de audio y control de estilo

Sora 2 incorpora sonido ambiente, efectos y voces humanas de manera sincronizada con la imagen, lo que permite generar escenas con un nivel más elevado de coherencia audiovisual. El modelo soporta distintos estilos visuales, incluyendo representaciones cinematográficas y de animación japonesa, con control detallado del entorno, la duración de la escena y la transición entre secuencias.

Además, los usuarios pueden introducir elementos del mundo real en las escenas generadas, como personas, animales u objetos, mediante una grabación previa que permite capturar su apariencia y voz. Esta funcionalidad se habilita tras una verificación de identidad mediante vídeo y audio, lo que refuerza los mecanismos de seguridad ante usos indebidos.

Despliegue de la aplicación social “Sora”

Junto con el modelo, OpenAI ha lanzado una nueva aplicación para iOS, también denominada Sora, que permite a los usuarios generar vídeos de 10 segundos a partir de indicaciones escritas o imágenes (sin rostros humanos). La función cameo permite a los usuarios incluir su propia imagen o la de amigos en los vídeos generados, siempre bajo control explícito de los permisos.

La app se lanza inicialmente con un sistema de invitaciones y está disponible en EE. UU. y Canadá. El acceso progresivo se realizará en función del uso previo del modelo, comenzando por suscriptores Pro de ChatGPT, seguido de usuarios Plus, Team y, eventualmente, del público general. Una versión para Android está prevista, aunque sin fecha confirmada.

Control de identidad y gestión de derechos

Sora permite a los usuarios gestionar de forma granular el uso de su imagen y voz en los vídeos generados. Es posible revocar permisos, eliminar vídeos en los que aparezca su cameo y controlar quién puede reutilizar su identidad visual. Todo el contenido generado con esta funcionalidad es accesible por el usuario en cualquier momento, incluidas versiones preliminares o borradores creados por terceros.

En cuanto a la gestión de derechos de autor, OpenAI mantiene una postura similar a la adoptada en ChatGPT con la generación de imágenes: deja en manos de los titulares de derechos la solicitud de retirada de contenidos. Todos los vídeos generados con Sora incluyen marcas de agua visibles y credenciales digitales que identifican su origen como contenido creado mediante IA.

Enfoque social y medidas de seguridad

A diferencia de otras plataformas, OpenAI asegura que Sora no está diseñada para maximizar el tiempo de uso, sino para fomentar la creación. El sistema de recomendación se basa en grandes modelos lingüísticos que permiten ajustar el contenido del feed mediante lenguaje natural. El algoritmo favorece la aparición de vídeos creados por personas con las que el usuario interactúa, en lugar de promover contenido viral.

En relación con el público adolescente, la aplicación incorpora límites automáticos en el número de vídeos visibles al día y restricciones adicionales en el uso de cameos. También se han desarrollado controles parentales accesibles desde ChatGPT, que permiten modificar la personalización del feed, controlar el acceso a mensajes directos y desactivar la reproducción continua.

Te puede interesar

Telefónica Tech despliega drones acuáticos con 5G para automatizar la limpieza de residuos en entornos portuarios

Para reforzar la seguridad, la compañía ha ampliado su equipo de moderación humana, especialmente en lo relativo a conductas abusivas como el acoso o la suplantación.

Posibilidades futuras y uso experimental

Sora 2 estará disponible de forma gratuita durante el periodo inicial, con límites generosos sujetos a la capacidad computacional. Los usuarios de ChatGPT Pro tendrán acceso anticipado a una versión experimental de mayor calidad, denominada Sora 2 Pro, tanto en la web sora.com como próximamente en la aplicación móvil. También se prevé una integración futura a través de API.

OpenAI mantendrá disponible el modelo anterior, Sora 1 Turbo, y todo el contenido generado previamente seguirá accesible desde la plataforma.

Escalado progresivo y retos pendientes

La evolución de modelos de generación de vídeo está avanzando a gran velocidad. Sora 2 consolida una línea de desarrollo que se orienta hacia simuladores del mundo generalistas y agentes robóticos con capacidades para interactuar con entornos físicos. Sin embargo, la empresa reconoce que el modelo actual todavía presenta errores y limitaciones, tanto en la precisión física como en la consistencia narrativa.

OpenAI ha expresado su intención de mantener la transparencia en las futuras decisiones de monetización, que de momento se limitan a la posibilidad de pagar por generar vídeos adicionales si la demanda supera los recursos disponibles.

El desafío de convertir la IA generativa en una experiencia social

Con el lanzamiento de Sora 2 y su aplicación asociada, OpenAI se une a la tendencia de integrar capacidades de IA generativa en plataformas sociales. Esta iniciativa coincide con anuncios recientes de Meta, como la app Vibes, también orientada a la creación y compartición de vídeos mediante inteligencia artificial.

Si bien el modelo técnico representa un avance en la simulación de la realidad, está por ver si el formato social propuesto logrará consolidarse frente a patrones de uso más pasivos en redes sociales tradicionales. La compañía confía en que el carácter participativo de las “cameos” impulse nuevas formas de comunicación interpersonal.

Etiquetas

modelo de vídeo openai sora 2

Hernán Rodríguez

Editor en La Ecuación Digital. Analista y divulgador tecnológico con más de 30 años de experiencia en el estudio del impacto de la tecnología en la empresa y la economía.