Inicio Servicios Proceso Proyectos Open Source Blog en Reservar llamada
ai agents llm investment banking benchmark

Tu IA no puede cerrar un trato: los demoledores resultados de BankerToolBench

Un nuevo benchmark revela que modelos punteros como GPT-5.4 y Claude Opus no logran generar entregables de banca de inversión listos para el cliente, lo que expone graves fallos en lógica de negocio, generación de código y fabricación de datos.

abril 2026 4 min
Tu IA no puede cerrar un trato: los demoledores resultados de BankerToolBench

Cuando 500 banqueros de inversión de Goldman Sachs, JPMorgan y Morgan Stanley revisan modelos financieros y presentaciones generadas por IA y consideran que ninguna es apta para un cliente, el sector debería prestar mucha atención. Ese es el veredicto contundente de BankerToolBench, un nuevo benchmark de código abierto que puso a nueve modelos punteros a trabajar en el tipo de tareas que los banqueros junior realizan a diario. Ni un solo resultado fue calificado como listo para enviarse tal cual. GPT-5.4, el de mayor puntuación, apenas alcanzó un 58,1 sobre 100, y solo el 16% de sus resultados se consideraron útiles como punto de partida. Claude Opus 4.6 parecía pulido, pero estaba hueco por dentro. La prueba va más allá de las tareas lingüísticas estándar y expone una brecha fundamental: los agentes de IA más avanzados de hoy no pueden manejar trabajo profesional complejo y de varios pasos con la precisión y fiabilidad que exige el mundo real.

El diseño del benchmark es lo que hace que estos resultados sean tan demoledores. BankerToolBench no pide sugerencias de texto; exige los entregables reales que un banquero junior presentaría a un supervisor: modelos de Excel funcionales con fórmulas dinámicas, presentaciones de PowerPoint que cumplan las guías de estilo del banco y memorandos escritos. Los agentes deben navegar por salas de datos, extraer información de plataformas como FactSet y Capital IQ, y analizar documentos de la SEC, con una sola tarea que puede activar hasta 539 llamadas al modelo. Las rúbricas de evaluación fueron diseñadas por banqueros en activo y promedian 150 criterios por tarea, que abarcan corrección técnica, preparación para el cliente, cumplimiento normativo y coherencia. El verificador, apodado Gandalf, coincide con los revisores humanos el 88% de las veces, lo que aporta rigor estadístico. Esto no es un problema de juguete; es una simulación fiel y de alta fidelidad de los flujos de trabajo de la banca de inversión.

Y los fallos son muy instructivos. Los más frecuentes, con un 41 %, son errores en la generación de código y fórmulas. Los agentes llaman a funciones de Python que no existen y luego borran la línea ofensiva en lugar de corregir la lógica. Claude Opus 4.6, a pesar de liderar la puntuación en preparación para el cliente, codifica manualmente cifras financieras clave en lugar de crear fórmulas, lo que hace imposible el análisis de escenarios, un factor decisivo en cualquier modelo financiero serio. En el 27 % de los errores, la lógica de negocio se rompe por completo, como sumar sinergias de costes a los ingresos. En el 13 % de los casos, los agentes inventan datos y los presentan como procedentes de fuentes reales. Ni siquiera un pulido sutil puede ocultar un fallo fundamental: los sistemas entienden patrones superficiales, pero no la estructura causal que sustenta el razonamiento financiero.

Estos hallazgos deberían hacer reflexionar a cualquiera que esté construyendo para ámbitos profesionales de alto riesgo. La comunidad de IA ha avanzado a toda velocidad en benchmarks de programación y fluidez conversacional, pero el trabajo económico real —gestión, derecho, finanzas— sigue estando lamentablemente desatendido. BankerToolBench se suma a un creciente coro de investigaciones que muestran que incluso los mejores modelos fracasan cuando se combina autonomía con complejidad. Se podría argumentar que el 58 % de GPT-5.4 es un vaso medio lleno, pero cuando un modelo requiere una reelaboración profunda el 41 % de las veces y es completamente inutilizable en otro 27 %, no se puede desplegar en producción sin fuertes barreras de seguridad. El hecho de que el aprendizaje por refuerzo multiplicara por 13 la puntuación de un pequeño modelo Qwen desde una base muy baja es alentador, pero es como celebrar que un estudiante de notable bajo pase a un aprobado alto. El techo sigue estando muy por debajo del umbral profesional.

Las implicaciones para los desarrolladores son claras. En primer lugar, necesitamos benchmarks que midan la finalización de tareas de principio a fin con herramientas del mundo real, no solo salidas de texto en un entorno aislado. En segundo lugar, los arquitectos de modelos deben abordar las lagunas de alucinación y lógica directamente mediante una mejor integración de herramientas y un fine-tuning específico del dominio. El trabajo reciente de Anthropic sobre cambio fluido de herramientas y complementos de plataformas de datos marca la dirección correcta, pero el camino es largo. En tercer lugar, el sector debe recalibrar las expectativas: una IA que «asiste» no es lo mismo que una IA que «entrega». BankerToolBench demuestra que lo mejor es tratar a estos agentes como becarios con exceso de confianza que necesitan supervisión constante, no como banqueros junior autónomos. Hasta que eso cambie, lo único que los clientes rechazarían más rápido que un modelo defectuoso es la idea de que está listo para sustituir a su asesor humano.

Toni Soriano
Toni Soriano
Principal AI Engineer at Cloudstudio. 18+ years building production systems. Creator of Ollama Laravel (87K+ downloads).
LinkedIn →

¿Necesitas un agente IA?

Diseñamos y construimos agentes autónomos para procesos de negocio complejos. Hablemos de tu caso de uso.

Recurso gratuito

Obtén el checklist de implementación de IA

10 preguntas que todo equipo debería responder antes de construir sistemas de IA. Evita los errores más comunes que vemos en proyectos de producción.

¡Revisa tu bandeja de entrada!

Te hemos enviado el checklist de implementación de IA.

Sin spam. Cancela cuando quieras.