ai attribution hallucination benchmarks rag trustworthiness

La crisis de las citas: cuando la IA acierta la respuesta pero se equivoca de fuente

Un nuevo benchmark revela que incluso los mejores modelos de IA respaldan con frecuencia respuestas correctas con citas inventadas —un fallo llamado 'alucinación de atribución' que socava la confianza en industrias reguladas.

mayo 2026 3 min

La crisis de las citas: cuando la IA acierta la respuesta pero se equivoca de fuente

Si alguna vez has usado un asistente de IA para responder a una pregunta sobre un PDF o un informe financiero, probablemente has experimentado el valle inquietante de la corrección: el modelo clava la respuesta, pero la fuente que señala no existe, o peor aún, dice algo completamente distinto. La industria ha estado tratando esto como una molestia menor, una rareza de los modelos generativos que se suavizará con la escala. El benchmark CiteVQA de la Universidad de Pekín y el Laboratorio de IA de Shanghái demuestra que esto no es una rareza —es un punto ciego fundamental en cómo evaluamos y confiamos en los sistemas de IA.

El benchmark es elegantemente brutal. En lugar de solo comprobar si la respuesta es correcta, CiteVQA exige que el modelo señale el párrafo, la tabla o la figura exacta que justifica cada afirmación. Un número de página no vale. La métrica, Strict Attributed Accuracy, otorga puntos solo cuando tanto la respuesta como la cita son correctas. Los resultados son aleccionadores. Gemini-3.1-Pro-Preview, el mejor rendimiento, obtuvo 76 sobre 100. GPT-5.4, que acierta la respuesta en bruto un 87,1% de las veces, se desploma a 59 una vez que se requieren citas. Eso es una brecha de 28 puntos entre saber y mostrar tu trabajo. Los modelos de código abierto lo hacen aún peor: Qwen3-VL-235B-A22B consiguió solo 22,5 puntos, y los modelos más pequeños puntuaron por debajo de 10. Los investigadores no se anduvieron con rodeos: estos modelos son "extremadamente arriesgados" para industrias reguladas.

Esto no es una hipótesis académica. En finanzas, sanidad, derecho y auditoría, la trazabilidad de una afirmación es lo que transforma la salida de una IA de una sugerencia a una evidencia. Un diagnóstico correcto con una referencia alucinada a la página equivocada de un historial médico es peor que un diagnóstico erróneo: crea una falsa confianza en una pista de papel inventada. El estudio de ablación en el paper deja claro el mecanismo: cuando los investigadores redujeron artificialmente el espacio de búsqueda a la página o documento correcto, las puntuaciones saltaron más de 13 puntos para algunos modelos. El cuello de botella no es la capacidad del modelo para responder a la pregunta; es la incapacidad del modelo para encontrar y atribuir la evidencia.

Para los desarrolladores que despliegan sistemas RAG, esto debería hacer sonar las alarmas. Hemos estado optimizando para la calidad de la respuesta —BLEU, ROUGE, precisión— mientras ignorábamos la puerta de la atribución. La sabiduría convencional ha sido que más contexto es mejor: meter pasajes más largos, cargar los top-K chunks, y el modelo lo resolverá. CiteVQA muestra que este enfoque es fundamentalmente erróneo. Los modelos que no pueden localizar la fuente correcta también dan peores respuestas; la información precisa de la fuente mejora directamente la calidad de la respuesta. Esto significa que la ingeniería de contexto no solo consiste en reducir el ruido —se trata de construir una cadena de evidencia trazable que el modelo pueda navegar realmente.

El problema más profundo, como señaló recientemente OpenAI, es sistémico. El entrenamiento y la evaluación recompensan las respuestas seguras y penalizan las evasivas. El modelo aprende que adivinar con autoridad es más seguro que decir "no lo sé". Esa misma dinámica alimenta la alucinación de atribución: el modelo prefiere inventar una cita que admitir que no puede encontrar una. Hasta que nuestros marcos de evaluación castiguen las atribuciones falsas con la misma severidad que las respuestas incorrectas, seguiremos construyendo modelos que suenan inteligentes pero en los que no se puede confiar. CiteVQA es un paso muy necesario para corregir eso, pero es solo el comienzo. La próxima generación de sistemas de IA debe medirse no solo por lo que dicen, sino por si pueden demostrarlo.

Toni Soriano

Principal AI Engineer at Cloudstudio. 18+ years building production systems. Creator of Ollama Laravel (87K+ downloads).

LinkedIn →

¿Necesitas un agente IA?

Diseñamos y construimos agentes autónomos para procesos de negocio complejos. Hablemos de tu caso de uso.

Reservar una llamada de descubrimiento ← Todos los artículos

Obtén el checklist de implementación de IA

10 preguntas que todo equipo debería responder antes de construir sistemas de IA. Evita los errores más comunes que vemos en proyectos de producción.

¡Revisa tu bandeja de entrada!

Te hemos enviado el checklist de implementación de IA.

Sin spam. Cancela cuando quieras.

La crisis de las citas: cuando la IA acierta la respuesta pero se equivoca de fuente

¿Necesitas un agente IA?

Artículos relacionados

Search as Code: cuando la IA deja de llamar a APIs y empieza a escribirlas

La paradoja del RLHF: los chatbots útiles no pueden simularnos

Los Agentes de IA Ya Pueden Escribir Exploits para Navegadores—Y Eso Lo Cambia Todo

Obtén el checklist de implementación de IA