video-generation world-models microsoft-research latent-space ai-memory

La memoria latente lo cambia todo: Microsoft Mirage reconstruye mundos de vídeo desde dentro

Mirage almacena la memoria espacial en el espacio latente en lugar de en nubes de píxeles, reduciendo el cómputo en 10x y resolviendo el problema de consistencia que ha afectado a los modelos de mundo de vídeo.

junio 2026 4 min

La memoria latente lo cambia todo: Microsoft Mirage reconstruye mundos de vídeo desde dentro

Con todo el hype sin aliento en torno a los modelos de mundo de vídeo, hay un secreto sucio del que nadie quiere hablar: no recuerdan lo que acaban de ver. Una cámara panea a la izquierda, vuelve al mismo sitio, y el sofá ha recolocado sus cojines. El papel pintado ha cambiado de color. Los libros de la estantería han intercambiado sus posiciones. Esto no es un artefacto de renderizado — es un fallo arquitectónico fundamental. La industria lo ha estado ocultando con parches caros, y Mirage de Microsoft Research es la primera solución limpia.

La causa raíz es vergonzosamente simple. Los modelos de mundo existentes como Spatia, Voyager y WonderWorld almacenan la información de la escena como nubes de puntos RGB. Cada vez que necesitas generar un nuevo fotograma, tienes que renderizar esa nube de puntos en espacio de píxeles, luego volver a codificar esos píxeles en el espacio de características interno del modelo. Esta doble traducción consume cómputo y, peor aún, filtra información en cada cruce. El modelo olvida gradualmente el aspecto de la habitación porque cada ida y vuelta a través del espacio RGB introduce ruido. El resultado es un mundo que deriva.

Mirage hace algo obvio en retrospectiva pero radical en ejecución: mantiene la memoria completamente dentro del espacio latente. En lugar de almacenar valores de color que deben renderizarse, almacena las características internas de la imagen que el modelo de difusión ya utiliza. Cada característica obtiene una coordenada en el espacio 3D, formando una memoria espacial latente que el modelo puede leer y escribir directamente, con cero idas y vueltas de píxeles. Las ganancias no son incrementales. Mirage genera vídeo hasta 10.5 veces más rápido y usa 55 veces menos memoria que los competidores basados en RGB. El coste de cómputo por fotograma se mantiene constante en toda la trayectoria. La geometría se sostiene.

Esto es lo que importa para los desarrolladores: esta arquitectura desacopla el coste de memoria de la duración del vídeo. En los sistemas basados en píxeles, cada nuevo fragmento de vídeo exige más memoria gráfica porque la nube de puntos crece y el bucle de renderizado-codificación se vuelve más pesado. La memoria de Mirage también crece, pero las operaciones de lectura y escritura ocurren en resolución latente compacta, no en resolución de imagen completa. La curva de escalado se aplana hasta casi constante. Eso cambia el tipo de hardware que puede ejecutar estos modelos. Un sistema que requería una A100 ahora cabe en una GPU de consumidor. La simulación interactiva de mundos en tiempo real se vuelve plausible.

El compromiso es honesto. Los objetos en movimiento se filtran de la memoria espacial porque rompen la suposición de geometría estática. Una persona caminando por una habitación desaparece en los límites de los segmentos. Los investigadores son sinceros al respecto — las escenas concurridas ganan menos. Pero esta es mi opinión: es el sacrificio correcto. El problema más difícil en los modelos de mundo de vídeo siempre ha sido la consistencia de la escena estática, no el seguimiento de objetos dinámicos. Ya tenemos soluciones decentes para la permanencia de objetos en fotogramas individuales. Lo que no teníamos era una forma de mantener el fondo estable a lo largo de una trayectoria de cámara de treinta segundos. Mirage lo resuelve.

La implicación más profunda es arquitectónica. El enfoque basado en píxeles es una reliquia de los gráficos por ordenador, donde la consistencia 3D significa almacenar geometría explícita y renderizarla. Mirage rechaza toda esa línea. Al trabajar completamente dentro del espacio latente de un modelo de difusión, trata el proceso de generación como la verdad fundamental y construye la memoria como un índice a ese proceso. Esta es la dirección correcta. Los futuros modelos de mundo no simularán geometría; indexarán su propio estado generativo. El equipo de Microsoft nos ha dado el primer ejemplo limpio de cómo funciona eso.

Mirage no es un producto final. Se basa en Wan2.2 de Alibaba con un pequeño módulo adicional y fine-tuning con LoRA, lo que significa que el enfoque es modular. Puedes acoplarlo a cualquier generador de vídeo basado en difusión. Ese es el tipo de investigación que realmente mueve el campo. No es otro récord en benchmarks, sino una idea arquitectónica que hace que todo lo anterior parezca derrochador.

Toni Soriano

Principal AI Engineer at Cloudstudio. 18+ years building production systems. Creator of Ollama Laravel (87K+ downloads).

LinkedIn →

¿Necesitas un agente IA?

Diseñamos y construimos agentes autónomos para procesos de negocio complejos. Hablemos de tu caso de uso.

Reservar una llamada de descubrimiento ← Todos los artículos

Obtén el checklist de implementación de IA

10 preguntas que todo equipo debería responder antes de construir sistemas de IA. Evita los errores más comunes que vemos en proyectos de producción.

¡Revisa tu bandeja de entrada!

Te hemos enviado el checklist de implementación de IA.

Sin spam. Cancela cuando quieras.

La memoria latente lo cambia todo: Microsoft Mirage reconstruye mundos de vídeo desde dentro

¿Necesitas un agente IA?

Artículos relacionados

Search as Code: cuando la IA deja de llamar a APIs y empieza a escribirlas

La paradoja del RLHF: los chatbots útiles no pueden simularnos

La crisis de las citas: cuando la IA acierta la respuesta pero se equivoca de fuente

Obtén el checklist de implementación de IA