Durante años, la industria de la IA ha tratado las leyes de escalado como un hecho empírico: duplica los parámetros, duplica los datos y la pérdida disminuye según una ley de potencia limpia. Todo el mundo sabía que funcionaba, pero nadie podía explicar de forma convincente por qué. Eso acaba de cambiar. Un artículo presentado en NeurIPS 2025 por investigadores del MIT sitúa el mecanismo en un fenómeno llamado superposición, y el resultado es tan elegante como trascendente.
La idea central es sencilla. El espacio de representación interno de un modelo de lenguaje tiene una anchura fija, digamos unos pocos miles de dimensiones. El número de conceptos distintos que debe representar, desde tokens individuales hasta características semánticas abstractas, asciende a decenas de miles. En un sistema ingenuo, esas cuentas no salen: solo puedes colocar tres vectores ortogonales en tres dimensiones antes de que empiecen a interferir. Los LLMs reales sortean esto empaquetando muchos conceptos en las mismas dimensiones, permitiendo que sus representaciones vectoriales se solapen ligeramente. Ese solapamiento es la superposición.
El equipo del MIT, liderado por Yizhou Liu, Ziming Liu y Jeff Gore, probó dos regímenes enfrentados. En la superposición débil, solo los conceptos más comunes se representan de forma limpia mientras que los raros se descartan. Ese régimen produce una ley de potencia solo si los datos de entrenamiento siguen a su vez una distribución de ley de potencia, una coincidencia frágil. En la superposición fuerte, el modelo almacena cada concepto dejando que su vector se solape con otros, intercambiando separación limpia por completitud. El error proviene entonces del ruido de las representaciones solapadas, y decae como 1/m, donde m es la anchura del modelo. No se necesita ninguna distribución de datos especial.
Cuando los investigadores examinaron modelos reales de código abierto como OPT, GPT-2, Qwen2.5 y Pythia (desde 100 millones hasta 70 mil millones de parámetros), todos y cada uno operaban en el régimen de superposición fuerte. El exponente de escalado medido, 0,91, coincide estrechamente con la predicción teórica de 1/m. Los datos de Chinchilla de DeepMind se alinean en 0,88. La ley de escalado empírica que ha impulsado toda la carrera de los LLMs no es un accidente afortunado de la distribución de datos; es una consecuencia directa de cómo estos modelos organizan geométricamente el significado.
Para los desarrolladores, esto tiene implicaciones concretas. Primero, el escalado tiene un límite natural: cuando la anchura del modelo coincide con el tamaño del vocabulario, hay suficiente espacio para representar cada token sin solapamiento, y el error de la superposición desaparece. La ley de potencia se rompe en ese punto. Segundo, en dominios donde las frecuencias de los conceptos están extremadamente sesgadas (piensa en la literatura científica con términos raros pero críticos), podrías ver curvas de escalado más pronunciadas que en el lenguaje natural. Eso es una palanca práctica para modelos especializados. Tercero, las arquitecturas que fomentan un empaquetado más denso, como la nGPT de Nvidia que normaliza los vectores en una esfera unitaria, deberían rendir mejor con el mismo número de parámetros.
Sin embargo, hay un serio inconveniente. Cuanto más densamente se superponen los conceptos, más difícil resulta desenredarlos. Los investigadores de interpretabilidad mecanicista ya se esfuerzan por rastrear el funcionamiento interno de los modelos; la superposición fuerte hace que esa tarea sea exponencialmente más difícil. Esto no es una preocupación académica. Si no podemos inspeccionar de forma fiable lo que hace un modelo, no podemos garantizar su seguridad. El artículo del MIT nos da una comprensión mecanicista de por qué funciona el escalado, pero también le da a la comunidad de alineación un objetivo más claro: necesitamos nuevos métodos que puedan revertir la superposición y aislar características individuales.
Mi opinión es clara. Este artículo es el resultado teórico más importante sobre los LLMs desde el propio artículo original sobre las leyes de escalado. Transforma el escalado de una observación empírica a base de fuerza bruta en una consecuencia de la geometría. Eso importa porque nos dice dónde está el techo, cómo llegar más rápido y qué perdemos por el camino. La próxima generación de diseño de modelos debería tratar la superposición como un principio arquitectónico de primera clase, no como un error que ignorar. Pero el precio de esa densidad es la interpretabilidad, y más vale que empecemos a pagarlo ahora.