IA en cumplimiento pasa del entusiasmo a resultados, mostrando claros avances en los modelos más recientes
Un nuevo informe de referencia de EQS Group y BCM evalúa seis modelos de IA en 120 escenarios reales de cumplimiento
La inteligencia artificial está entrando rápidamente en los flujos de trabajo corporativos, pero no todos los modelos ofrecen el mismo rendimiento. Para evaluar hasta qué punto la IA puede manejar las realidades del cumplimiento normativo, el nuevo «EQS Benchmark Report: AI Performance in Compliance & Ethics« analizó seis modelos líderes de IA en 120 escenarios reales de cumplimiento: desde evaluaciones de riesgo y conflictos de interés hasta la revisión de terceros.
Los resultados muestran una precisión casi perfecta en tareas estructuradas, como clasificación y toma de decisiones, con tasas de acierto superiores al 95 %, pero una marcada caída cuando aumenta la complejidad o la ambigüedad. Elaborado en colaboración con la asociación alemana Berufsverband der Compliance Manager e.V. (BCM), el informe también destaca el ritmo de progreso, con los modelos de 2025 superando significativamente a los de 2024.
«Para muchos profesionales del cumplimiento, la IA sigue siendo un territorio desconocido», señaló Moritz Homann, Director de Innovación de Producto e IA en EQS Group.
«Comprender cómo aplicarla eficazmente y en qué se puede confiar sigue siendo un desafío, especialmente en un ámbito tan sensible como el cumplimiento, donde la precisión, la responsabilidad y la integridad son innegociables», añadió.
«La IA puede ofrecer al cumplimiento nuevos niveles de conocimiento, pero nuestra responsabilidad es garantizar que su uso permanezca dentro de límites éticos y legales claros», afirmó la Dra. Gisa Ortwein, presidenta del BCM.
«Iniciativas como este informe nos ayudan a distinguir entre lo que la IA puede aportar realmente y dónde el juicio humano sigue siendo insustituible. Así es como protegemos la integridad mientras adoptamos la innovación: asegurando que la adopción de la IA fortalezca, y no debilite, nuestra profesión», concluyó.
El informe de EQS es el primero en evaluar el rendimiento de la IA en el ámbito del cumplimiento, utilizando tareas que reflejan las responsabilidades cotidianas de los profesionales de cumplimiento y ética. Mide la precisión, fiabilidad y utilidad práctica de los modelos en tareas estructuradas, semiestructuradas y abiertas.
Los modelos más recientes superan ampliamente a los de hace apenas unos meses
Los resultados muestran la rapidez con la que evolucionan las capacidades de los modelos. Gemini 2.5 Pro, de Google, obtuvo la puntuación más alta con un 86,7 %, demostrando un rendimiento sólido en todos los tipos de tareas y áreas de cumplimiento. Muy cerca, GPT-5 de OpenAI (modelo por defecto de ChatGPT desde agosto de 2025) alcanzó un 86,5 %, subrayando cómo las capacidades de los modelos líderes están convergiendo en la cima. GPT-5 destacó en generación de contenido abierto, mientras que Gemini lideró en tareas analíticas y de toma de decisiones complejas.
El modelo o3 de OpenAI siguió con un 83,3 %, mostrando el avance de GPT-5 respecto a su predecesor y la velocidad del ciclo de innovación. Claude Opus 4.1, de Anthropic, alcanzó un 81,5 %, con un desempeño inferior en evaluaciones estructuradas y razonamiento analítico. GPT-4o (72,9 %) y Mistral Large 2 (70,1 %) cerraron la lista, reflejando el salto generacional entre los modelos de 2024 y los lanzados en 2025.
La IA destaca cuando las reglas son claras, pero se debilita con la ambigüedad
En general, los modelos de IA ofrecieron sus mejores resultados en tareas estructuradas y con reglas definidas. Por ejemplo, en escenarios de toma de decisiones basados en políticas establecidas, el rendimiento medio fue del 90,8 %. En ejercicios de emparejamiento o clasificación de datos, la media fue del 91,8 %, con cuatro de los seis modelos superando el 95 %.
En tareas más complejas, el rendimiento varió mucho. En análisis de datos, la diferencia entre el mejor y el peor modelo fue de 60 puntos: Gemini 2.5 Pro obtuvo un 88 %, frente al 62 % de GPT-5 y al 28 % de GPT-4o. En tareas abiertas —como redacción de informes o resúmenes ejecutivos—, incluso los modelos más recientes enfrentaron dificultades: GPT-5 lideró con un 67,4 %. Estas tareas fueron evaluadas por un jurado humano.
«Existen tareas críticas que los profesionales del cumplimiento nunca deberían delegar completamente en la IA», añadió Homann.
«La fortaleza de estas herramientas radica en actuar como un multiplicador de capacidades, apoyando los flujos de trabajo sin sustituir el juicio experto. La IA puede asumir gran parte del trabajo preparatorio, permitiendo a los especialistas centrarse en donde su criterio es esencial», matizó.
Alta consistencia y baja tasa de alucinaciones
El informe también midió la fiabilidad repitiendo tareas de opción múltiple tres veces por modelo. La consistencia fue alta: más del 95 % de las respuestas fueron idénticas. Las «alucinaciones» —errores inventados por la IA— fueron raras: solo tres casos claros en todas las tareas y modelos (0,71 %), lo que demuestra que, con instrucciones claras y contexto, los modelos actuales pueden ofrecer resultados estables y basados en hechos. No obstante, la supervisión humana sigue siendo esencial, especialmente en contenido sensible con implicaciones regulatorias.
Selección del modelo y diseño del prompt: factores clave
El informe subraya también la importancia de la precisión en las instrucciones. En tareas de detección de señales de alerta en revisiones de terceros, los resultados variaron según la especificidad del prompt: por ejemplo, si debía incluir entidades vinculadas o evaluar la gravedad de los hallazgos.
Los modelos más recientes —GPT-5 y Gemini 2.5 Pro— demostraron mayor capacidad para seguir instrucciones complejas y generar resultados estructurados, lo que supone una ventaja clara para equipos de cumplimiento que trabajan con políticas detalladas y grandes volúmenes de datos.
«La IA ha llegado para quedarse«, concluyó Homann. «La forma en que la implementemos y utilicemos hoy definirá su papel en el cumplimiento en los próximos años. Los equipos de cumplimiento y ética no solo deben regular los riesgos de la IA, sino también aplicarla directamente. Solo con experiencia práctica podremos formular las preguntas adecuadas, diseñar salvaguardas efectivas y generar confianza», finalizó.
Mohawk Industries, Inc. anunciará en una… Mohawk retransmitirá en directo una teleconferencia el 13 de febrero para comentar los resultados del cuarto trimestre de 2025 y…
Resultados preclínicos de BioNxt muestran un 40 %… Un estudio preclínico en cerdos valida que la formulación sublingual sin aguja ni deglución de BioNxt mejora significativamente la biodisponibilidad…
La Clínica Estética Castro Sierra refuerza su… Dr. Castro Sierra combina experiencia quirúrgica, tecnología avanzada y un enfoque centrado en la seguridad y satisfacción del paciente La…
Para ofrecer las mejores experiencias, utilizamos tecnologías como las cookies para almacenar y/o acceder a la información del dispositivo. El consentimiento de estas tecnologías nos permitirá procesar datos como el comportamiento de navegación o las identificaciones únicas en este sitio. No consentir o retirar el consentimiento, puede afectar negativamente a ciertas características y funciones.
Funcional
Siempre activo
El almacenamiento o acceso técnico es estrictamente necesario para el propósito legítimo de permitir el uso de un servicio específico explícitamente solicitado por el abonado o usuario, o con el único propósito de llevar a cabo la transmisión de una comunicación a través de una red de comunicaciones electrónicas.
Preferencias
El almacenamiento o acceso técnico es necesario para la finalidad legítima de almacenar preferencias no solicitadas por el abonado o usuario.
Estadísticas
El almacenamiento o acceso técnico que es utilizado exclusivamente con fines estadísticos.El almacenamiento o acceso técnico que es utilizado exclusivamente con fines estadísticos anónimos. Sin una requerimiento, el cumplimiento voluntario por parte de su proveedor de servicios de Internet, o los registros adicionales de un tercero, la información almacenada o recuperada sólo para este propósito no se puede utilizar para identificarlo.
Marketing
El almacenamiento o acceso técnico es necesario para crear perfiles de usuario para enviar publicidad, o para rastrear al usuario en un sitio web o en varios sitios web con fines de marketing similares.