OpenAI está reorganizando silenciosamente una parte relevante de su estructura interna para apostar por un frente que, hasta ahora, había ocupado un papel secundario en la conversación pública sobre inteligencia artificial: el audio. No se trata solo de hacer que ChatGPT suene más natural o menos robótico. Según ha publicado The Information, la compañía ha fusionado en los últimos meses varios equipos de ingeniería, producto e investigación con un objetivo concreto: preparar una nueva generación de modelos de audio y, en paralelo, un dispositivo personal concebido desde el inicio como audio-first, con un lanzamiento previsto en torno a 2026.
El movimiento introduce una pregunta incómoda para una industria que lleva más de una década orbitando alrededor de pantallas cada vez más grandes y omnipresentes. ¿Y si la siguiente fase de la computación personal no pasa por ver más, sino por escuchar mejor? En Silicon Valley, esa hipótesis empieza a dejar de ser marginal.
La apuesta de OpenAI se inscribe en una tendencia más amplia que cruza a buena parte del sector tecnológico. Los asistentes de voz ya están presentes en más de un tercio de los hogares estadounidenses, integrados en altavoces inteligentes que funcionan como infraestructura doméstica. Al mismo tiempo, los grandes actores están explorando cómo trasladar esa interacción a contextos menos estáticos. Meta ha añadido recientemente a sus gafas Ray-Ban una función basada en un conjunto de cinco micrófonos capaz de aislar conversaciones en entornos ruidosos, convirtiendo literalmente la cabeza del usuario en un sistema direccional de escucha. Google, por su parte, comenzó a experimentar en junio con Audio Overviews, resúmenes conversacionales que transforman los resultados de búsqueda en narraciones habladas. Incluso Tesla ha integrado el chatbot Grok, desarrollado por xAI, en sus vehículos para gestionar navegación, climatización o consultas generales mediante diálogo natural.
En ese contexto, el giro de OpenAI parece menos disruptivo de lo que podría parecer a primera vista, aunque introduce matices propios. La compañía trabaja en un nuevo modelo de audio previsto para el primer trimestre de 2026, diseñado para manejar interrupciones, solapamientos de voz y turnos de palabra de una forma más cercana a una conversación humana real. A diferencia de los modelos actuales, incapaces de hablar y escuchar al mismo tiempo, este sistema podría responder mientras el usuario aún está formulando una frase. Es un detalle técnico, pero apunta a un cambio de fondo en la forma de entender la interacción hombre-máquina.
El proyecto no se limita al software. OpenAI explora una familia de dispositivos que incluiría desde altavoces sin pantalla hasta gafas inteligentes, concebidos menos como herramientas puntuales y más como acompañantes persistentes. La idea conecta con una visión de computación ambiental que Sam Altman, consejero delegado de la compañía, ha defendido en varias ocasiones: sistemas que están presentes, atentos, pero no reclaman constantemente la mirada.
Esa ambición se ha visto reforzada por la incorporación de Jony Ive, exjefe de diseño de Apple, tras la adquisición en mayo de su estudio io por 6.500 millones de dólares. Ive ha sido crítico con la deriva adictiva de muchos dispositivos de consumo y ve en el audio una oportunidad para corregir algunos excesos del pasado. No es un argumento menor en un momento en el que la saturación de pantallas empieza a percibirse como un problema social y regulatorio.
Sin embargo, la historia reciente ofrece ejemplos que invitan a la cautela. El Humane AI Pin, un dispositivo sin pantalla que prometía una experiencia basada en voz y proyección láser, terminó convirtiéndose en un caso de estudio sobre expectativas infladas y ejecución deficiente tras consumir cientos de millones de dólares. Otros experimentos, como el colgante Friend AI, que asegura grabar la vida del usuario para ofrecerle compañía y contexto, han generado inquietud por sus implicaciones en privacidad y vigilancia continua.
A pesar de esos tropiezos, el ecosistema de startups sigue insistiendo. Empresas como Sandbar o el nuevo proyecto liderado por Eric Migicovsky, fundador de Pebble, trabajan en anillos con capacidades de escucha y respuesta por voz que podrían llegar al mercado en 2026. La promesa es tan sugerente como problemática: hablarle literalmente a la mano para interactuar con sistemas de IA siempre activos.
Desde el punto de vista industrial, OpenAI también está ajustando su cadena de suministro para este salto al hardware. Según UDN y otras fuentes citadas por Benzinga, la compañía ha trasladado la fabricación de su primer dispositivo desde Luxshare a Foxconn, buscando reducir su dependencia de China continental y explorar ensamblaje en Vietnam o Estados Unidos. El proyecto, conocido internamente como “Gumdrop”, sigue en fase de diseño y podría materializarse como un dispositivo compacto, similar a un iPod Shuffle, con micrófono y cámara integrados para captar el entorno y realizar tareas como la transcripción de notas manuscritas en ChatGPT.
Este énfasis en el audio plantea desafíos técnicos específicos. Los modelos deben ser lo suficientemente ligeros como para ejecutarse, al menos en parte, en el propio dispositivo. Procesar localmente reduce latencia y costes, además de mitigar algunas preocupaciones de privacidad. Google ya ha avanzado en esa dirección con Gemini Nano en sus Pixel. OpenAI podría seguir un camino similar, desarrollando versiones optimizadas de sus modelos capaces de funcionar en el borde, sin depender de la nube para cada interacción.
Al mismo tiempo, el auge del audio generativo no se limita al habla. La música generada por IA vive un crecimiento acelerado, con startups como Suno alcanzando ingresos anuales superiores a los 200 millones de dólares, según The Wall Street Journal. No está claro si el nuevo modelo de OpenAI incorporará capacidades musicales, pero el incentivo comercial existe, especialmente en un momento en el que la compañía busca diversificar su negocio de consumo.
Más allá de la tecnología, el desplazamiento hacia interfaces auditivas reabre debates que parecían parcialmente resueltos. La voz es íntima, contextual y, a menudo, pública. Hablarle a un dispositivo en un espacio compartido no es equivalente a escribir en una pantalla. Las implicaciones para la privacidad, la ergonomía social y la accesibilidad son profundas y todavía poco exploradas. La promesa de una interacción más “natural” convive con el riesgo de una vigilancia más difusa y constante.
En el fondo, la ofensiva de OpenAI en audio no elimina la pantalla, pero la relega. La convierte en un elemento secundario, activado solo cuando es imprescindible. Es una hipótesis ambiciosa que conecta con un cansancio perceptible hacia la economía de la atención visual. Sin embargo, también depende de que la tecnología esté a la altura de esa promesa y de que los usuarios acepten un nuevo tipo de presencia digital, menos visible pero potencialmente más invasiva.
La industria parece decidida a explorar ese terreno, aunque el desenlace está lejos de ser evidente. Si el audio se consolida como interfaz dominante o queda como un complemento sofisticado dependerá tanto de avances técnicos como de límites culturales y regulatorios. OpenAI ha puesto una ficha importante sobre la mesa. El tablero, sin embargo, sigue en movimiento.
