El test que revela si una IA mira imágenes como nosotros o

Un sistema de visión artificial entrenado para reconocer perros puede acertar el 99 por ciento de las veces en el conjunto de imágenes con el que fue evaluado y fallar completamente cuando alguien le muestra la misma foto girada 90 grados. Esa situación no es hipotética ni está sacada de un experimento raro: es uno de los patrones más documentados en la historia de la inteligencia artificial aplicada a imágenes. Y dice algo fundamental sobre la diferencia entre rendir bien en un test y entender algo.

Qué es un benchmark de visión artificial

Cuando los investigadores quieren comparar distintos sistemas de reconocimiento de imágenes, usan conjuntos de datos estándar: miles o millones de imágenes etiquetadas con lo que representan. El modelo estudia esas imágenes, aprende a clasificarlas y después se lo evalúa con un subconjunto que no vio antes. La tasa de aciertos en esa evaluación se llama accuracy y es el número que aparece en las publicaciones académicas y los comunicados de empresas.

El problema es que esa evaluación tiene un supuesto invisible: que las imágenes de evaluación son representativas de las imágenes que el sistema va a encontrar en el mundo real. Cuando ese supuesto se cumple, el benchmark es útil. Cuando no se cumple, el número de accuracy puede ser muy alto y el sistema puede ser casi inútil para aplicaciones reales.

Los atajos que aprenden los modelos

Los sistemas de visión artificial aprenden patrones estadísticos, no conceptos. Si en el conjunto de entrenamiento casi todos los perros aparecen fotografiados al nivel del suelo y casi ninguno en perspectiva cenital, el modelo aprende que "perro" está asociado a ciertas texturas, proporciones y fondos específicos, no a la forma general de un perro desde cualquier ángulo.

Ese fenómeno se llama shortcut learning o aprendizaje de atajos. El modelo descubre una correlación estadística que funciona muy bien dentro del conjunto de datos y la usa para hacer predicciones, aunque esa correlación no tenga ninguna relación con el concepto que se supone que está aprendiendo.

Ejemplos documentados en investigación académica: un clasificador de neumonía aprendió a detectar que ciertas radiografías venían de un hospital específico donde todos los pacientes eran más graves, y usó esa señal como proxy de enfermedad. Un detector de miopía en fotografías de retina funcionaba notablemente mejor en imágenes con ciertas marcas de cámara porque los hospitales que compraban esos equipos atendían a pacientes con características demográficas específicas. En cada caso, el sistema parecía funcionar bien porque el entorno de evaluación replicaba las condiciones de entrenamiento.

Por qué es tan difícil evaluar bien

El NIST AI Risk Management Framework identifica la evaluación como una de las etapas más críticas del ciclo de vida de un sistema de inteligencia artificial. No porque sea técnicamente difícil medir el accuracy, sino porque construir una evaluación que sea realmente representativa del uso real requiere entender ese uso con mucho detalle.

Para evaluar si un sistema de reconocimiento de imágenes médicas funciona, no alcanza con un conjunto de imágenes de hospitales conocidos. Hay que incluir imágenes con distintas calidades de cámara, distintos protocolos de captura, distintas características demográficas de los pacientes y condiciones en las que el sistema nunca fue entrenado. Ese trabajo de diseño de evaluación es tan exigente como el trabajo de diseño del modelo mismo.

La dificultad se multiplica cuando el sistema va a operar en contextos cambiantes. Un detector de defectos de fabricación puede funcionar perfectamente en una fábrica y fallar en otra porque la iluminación es ligeramente distinta. Un sistema de control de calidad alimentaria puede degradarse cuando cambian las variedades estacionales del producto.

¿Qué diferencia a un sistema que realmente "ve"?

Los humanos tenemos una capacidad que los sistemas actuales no tienen: la comprensión relacional del objeto. Sabemos que un perro es un perro porque entendemos qué hace un perro, cómo se mueve, qué come, qué lugar ocupa en el mundo. Eso nos permite reconocer un perro en condiciones muy adversas — mal iluminado, parcialmente oculto, visto desde un ángulo inusual — sin necesitar haber visto exactamente ese tipo de imagen antes.

Los modelos actuales de visión artificial son muy buenos reconocedores de patrones pero no tienen esa comprensión del contexto. Son extraordinariamente precisos dentro de la distribución de imágenes en la que fueron entrenados y extrañamente frágiles fuera de ella.

El detalle loco

Hay algo perturbador en la precisión del 99 por ciento. En otro dominio, esa cifra sería suficiente para confiar en un sistema. Pero en visión artificial, el 1 por ciento restante puede estar concentrado exactamente en los casos más inusuales, más inesperados o más importantes. Si un sistema de detección de cáncer falla principalmente en lesiones pequeñas o atípicas, el 99 por ciento de accuracy describe una capacidad muy distinta a la que parece.

Esa es la razón por la que el campo ha pasado de los benchmarks de una sola métrica a evaluaciones más complejas que incluyen distribución de errores, comportamiento en condiciones adversas y análisis de sesgos demográficos.

Por qué importa

La evaluación importa porque decide qué sistemas llegan al mundo. Un modelo que rinde bien en un benchmark mal diseñado puede ser desplegado con confianza en una aplicación donde falla sistemáticamente. Y ese fallo puede tener consecuencias muy distintas según el contexto: incomodar a alguien al clasificar una foto mal, o dañar a alguien al diagnosticar incorrectamente una enfermedad.

El marco de gestión de riesgo de IA del NIST parte de esa premisa: que evaluar bien es una responsabilidad técnica y ética, no solo un paso administrativo. Y que la pregunta más importante no es "¿qué tan bien funciona en el test?" sino "¿en qué condiciones falla, y con qué consecuencias?"

Imagen: inteligencia artificial y visión computacional.
Fuente original: NIST AI Risk Management Framework

El test que revela si una IA mira imágenes como nosotros o solo encuentra atajos

Qué es un benchmark de visión artificial

Los atajos que aprenden los modelos

Por qué es tan difícil evaluar bien

¿Qué diferencia a un sistema que realmente "ve"?

El detalle loco

Por qué importa

Si te interesó, por acá sigue

Qué es un benchmark de visión artificial

Los atajos que aprenden los modelos

Por qué es tan difícil evaluar bien

¿Qué diferencia a un sistema que realmente "ve"?

El detalle loco

Por qué importa

Si te interesó, por acá sigue

Si esta nota te sirvió, la próxima te conviene por mail

Seguir leyendo

La IA ya no quiere vivir sólo en la nube: ahora aprende dentro del cuerpo del robot

ImageNet: el archivo de 14 millones de imágenes que impulsó la visión artificial y expuso sus límites

Cambridge diseñó un chip inspirado en neuronas que consume un millón de veces menos corriente. Podría reducir el gasto energético de la IA un 70%.

Los bots de IA ya no se distinguen de personas reales en internet. Ahora hay startups que levantan millones para resolver ese problema. El negocio de probar que sos humano acaba de nacer.

El CEO de Google confirmó que el 75% del código nuevo de la empresa lo escribe una IA. Meta va por el mismo número. El trabajo de programador está cambiando más rápido de lo que parece.

La IA no puede escribir en lunfardo y lo que eso revela sobre cómo funciona el lenguaje