Un sistema de visión artificial entrenado para reconocer perros puede acertar el 99 por ciento de las veces en el conjunto de imágenes con el que fue evaluado y fallar completamente cuando alguien le muestra la misma foto girada 90 grados. Esa situación no es hipotética ni está sacada de un experimento raro: es uno de los patrones más documentados en la historia de la inteligencia artificial aplicada a imágenes. Y dice algo fundamental sobre la diferencia entre rendir bien en un test y entender algo.
Qué es un benchmark de visión artificial
Cuando los investigadores quieren comparar distintos sistemas de reconocimiento de imágenes, usan conjuntos de datos estándar: miles o millones de imágenes etiquetadas con lo que representan. El modelo estudia esas imágenes, aprende a clasificarlas y después se lo evalúa con un subconjunto que no vio antes. La tasa de aciertos en esa evaluación se llama accuracy y es el número que aparece en las publicaciones académicas y los comunicados de empresas.
El problema es que esa evaluación tiene un supuesto invisible: que las imágenes de evaluación son representativas de las imágenes que el sistema va a encontrar en el mundo real. Cuando ese supuesto se cumple, el benchmark es útil. Cuando no se cumple, el número de accuracy puede ser muy alto y el sistema puede ser casi inútil para aplicaciones reales.
Los atajos que aprenden los modelos
Los sistemas de visión artificial aprenden patrones estadísticos, no conceptos. Si en el conjunto de entrenamiento casi todos los perros aparecen fotografiados al nivel del suelo y casi ninguno en perspectiva cenital, el modelo aprende que "perro" está asociado a ciertas texturas, proporciones y fondos específicos, no a la forma general de un perro desde cualquier ángulo.
Ese fenómeno se llama shortcut learning o aprendizaje de atajos. El modelo descubre una correlación estadística que funciona muy bien dentro del conjunto de datos y la usa para hacer predicciones, aunque esa correlación no tenga ninguna relación con el concepto que se supone que está aprendiendo.
Ejemplos documentados en investigación académica: un clasificador de neumonía aprendió a detectar que ciertas radiografías venían de un hospital específico donde todos los pacientes eran más graves, y usó esa señal como proxy de enfermedad. Un detector de miopía en fotografías de retina funcionaba notablemente mejor en imágenes con ciertas marcas de cámara porque los hospitales que compraban esos equipos atendían a pacientes con características demográficas específicas. En cada caso, el sistema parecía funcionar bien porque el entorno de evaluación replicaba las condiciones de entrenamiento.
Por qué es tan difícil evaluar bien
El NIST AI Risk Management Framework identifica la evaluación como una de las etapas más críticas del ciclo de vida de un sistema de inteligencia artificial. No porque sea técnicamente difícil medir el accuracy, sino porque construir una evaluación que sea realmente representativa del uso real requiere entender ese uso con mucho detalle.
Para evaluar si un sistema de reconocimiento de imágenes médicas funciona, no alcanza con un conjunto de imágenes de hospitales conocidos. Hay que incluir imágenes con distintas calidades de cámara, distintos protocolos de captura, distintas características demográficas de los pacientes y condiciones en las que el sistema nunca fue entrenado. Ese trabajo de diseño de evaluación es tan exigente como el trabajo de diseño del modelo mismo.
La dificultad se multiplica cuando el sistema va a operar en contextos cambiantes. Un detector de defectos de fabricación puede funcionar perfectamente en una fábrica y fallar en otra porque la iluminación es ligeramente distinta. Un sistema de control de calidad alimentaria puede degradarse cuando cambian las variedades estacionales del producto.
¿Qué diferencia a un sistema que realmente "ve"?
Los humanos tenemos una capacidad que los sistemas actuales no tienen: la comprensión relacional del objeto. Sabemos que un perro es un perro porque entendemos qué hace un perro, cómo se mueve, qué come, qué lugar ocupa en el mundo. Eso nos permite reconocer un perro en condiciones muy adversas — mal iluminado, parcialmente oculto, visto desde un ángulo inusual — sin necesitar haber visto exactamente ese tipo de imagen antes.
Los modelos actuales de visión artificial son muy buenos reconocedores de patrones pero no tienen esa comprensión del contexto. Son extraordinariamente precisos dentro de la distribución de imágenes en la que fueron entrenados y extrañamente frágiles fuera de ella.
El detalle loco
Hay algo perturbador en la precisión del 99 por ciento. En otro dominio, esa cifra sería suficiente para confiar en un sistema. Pero en visión artificial, el 1 por ciento restante puede estar concentrado exactamente en los casos más inusuales, más inesperados o más importantes. Si un sistema de detección de cáncer falla principalmente en lesiones pequeñas o atípicas, el 99 por ciento de accuracy describe una capacidad muy distinta a la que parece.
Esa es la razón por la que el campo ha pasado de los benchmarks de una sola métrica a evaluaciones más complejas que incluyen distribución de errores, comportamiento en condiciones adversas y análisis de sesgos demográficos.
Por qué importa
La evaluación importa porque decide qué sistemas llegan al mundo. Un modelo que rinde bien en un benchmark mal diseñado puede ser desplegado con confianza en una aplicación donde falla sistemáticamente. Y ese fallo puede tener consecuencias muy distintas según el contexto: incomodar a alguien al clasificar una foto mal, o dañar a alguien al diagnosticar incorrectamente una enfermedad.
El marco de gestión de riesgo de IA del NIST parte de esa premisa: que evaluar bien es una responsabilidad técnica y ética, no solo un paso administrativo. Y que la pregunta más importante no es "¿qué tan bien funciona en el test?" sino "¿en qué condiciones falla, y con qué consecuencias?"
Imagen: inteligencia artificial y visión computacional.
Fuente original: NIST AI Risk Management Framework
