MIT comparte cómo los modelos de aprendizaje automático pueden dar sentido a las tonterías y cómo esto podría ser un problema

¡Compártelo!

Los científicos del Instituto de Tecnología de Massachusetts se han topado con un problema interesante con aprendizaje automático y clasificación de imágenes. Este problema, si no se resuelve, podría ser inofensivo o mortal, dependiendo de para qué se utilice el sistema. En pocas palabras, un modelo podría mirar una imagen y hacer una predicción basada en información que los humanos no podemos entender, y podría estar equivocada.

La clasificación de imágenes se utiliza tanto en diagnósticos médicos como en conducción autónoma. El objetivo es entrenar una red neuronal para que comprenda una imagen de forma similar a como lo hace un humano. MIT explicó todo esto en una publicación de blog que comenzó señalando cuánto no sabemos con respecto a cómo las redes neuronales toman sus decisiones.

Sí, se desconoce el proceso de toma de decisiones en sí. Lo que sí se sabe es que se les puede enseñar a aprender. Es el como aprenden eso no se sabe realmente.

Aunque esto no es nuevo, el problema que los científicos del MIT han identificado y llamado “sobreinterpretación” es nuevo. Es un problema que podría afectar tanto al diagnóstico médico como a la conducción autónoma. Sobreinterpretación es simplemente un algoritmo que hace una predicción “segura” basada en detalles que ve que los humanos no podemos entender, creando una predicción que no debería.

Por ejemplo, podría ver algo en un fondo modelado que no podemos ver o no podemos entender y tenerlo en cuenta para tomar una decisión. No tiene sentido para nosotros, pero por alguna razón, la computadora lo ve y lo usa para hacer una predicción o una decisión.

El MIT señaló que este tipo sutil de falla es algo que podría encontrar un modelo de IA que intenta clasificar (o identificar) una imagen, y podría ser problemático para situaciones que involucran entornos de alto riesgo.

Esto preocupa a los investigadores porque 1) situaciones como el diagnóstico médico de enfermedades que necesitan atención inmediata o 2) las decisiones en una fracción de segundo para los vehículos autónomos podrían verse afectadas por esto.

Los vehículos autónomos confían en sistemas que pueden comprender con precisión su entorno casi de inmediato mientras toman decisiones rápidas y seguras. El sistema utiliza fondos, bordes o incluso patrones específicos en el cielo para determinar si un objeto es un semáforo, un letrero de la calle u otra cosa. Lo que preocupaba a los científicos del MIT es que encontraron que las redes neuronales entrenadas en conjuntos de datos como CIFAR-10 e ImageNet están sufriendo una sobreinterpretación. [Editor’s note: I have actually had a problem that probably falls into this category in my Tesla Model 3. It sometimes sees a reflection on a specific traffic light that it interprets as the light turning from red to green due to the angle, proximity, and lighting of the traffic light. —Zach]

Notaron que los modelos entrenados en CIFAR-10 estaban haciendo predicciones confiables a pesar de que faltaba el 95% de las imágenes de entrada y las imágenes que estaban allí no tenían sentido para los humanos. Brandon Carter, quien es un Ph.D. en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial del MIT. El estudiante y el autor principal de un artículo sobre la investigación explicaron el problema con más detalle:

“La sobreinterpretación es un problema de conjuntos de datos causado por estas señales sin sentido en los conjuntos de datos. Estas imágenes de alta confianza no solo son irreconocibles, sino que contienen menos del 10 por ciento de la imagen original en áreas sin importancia, como los bordes. Descubrimos que estas imágenes no tenían sentido para los humanos, pero los modelos aún pueden clasificarlas con gran confianza “.

Un ejemplo citado es una aplicación que te dice si algo es un perrito caliente o no. En realidad, un mejor ejemplo, en mi opinión, son esas aplicaciones que te dicen qué tipo de planta tienes en base a una imagen de la planta o una hoja de la planta. Me encontré con este escenario cuando alguien me dio una planta de camarones que aún no había comenzado a florecer. Al usar esas aplicaciones de plantas, identificaron la planta como roble venenoso.

El sistema procesa píxeles individuales de varias imágenes preetiquetadas para que la red las aprenda. En esas aplicaciones, se supone que pueden identificar la planta (o hot dog como la publicación de blog del MIT utilizada) en función de los píxeles. Un desafío clave es que los modelos de aprendizaje automático pueden adherirse a estos píxeles, o lo que percibimos como señales sutiles sin sentido, y los clasificadores de imágenes entrenados en conjuntos de datos como Imagenet pueden hacer lo que parecen predicciones confiables basadas en lo que “ven”.

Con respecto a mi planta, descargué 2 o 3 de esas aplicaciones y, después de varias fotos, obtuve varias respuestas, incluida la correcta. Aunque eso fue bastante divertido, no lo sería si una IA en un vehículo autónomo confundiera a una persona con una camisa verde que cruza la calle con una luz verde. Aunque ese escenario es un poco exagerado en este momento, dados algunos de los avances que Tesla ha hecho en IA, algo así podría suceder. Nunca digas nunca.

Carter señaló que esto plantea una pregunta importante sobre cómo se pueden modificar los conjuntos de datos para entrenarlos para imitar cómo pensaría un humano al clasificar imágenes.

“Existe la cuestión de cómo podemos modificar los conjuntos de datos de una manera que permita que los modelos sean entrenados para imitar más de cerca cómo pensaría un humano al clasificar imágenes y, por lo tanto, con suerte, generalizar mejor en estos escenarios del mundo real, como autónomos conducción y diagnóstico médico, para que las modelos no tengan este comportamiento sin sentido “.

Por ahora, la sobreinterpretación está sucediendo con imágenes extraídas de dominios públicos y luego clasificadas. Sin embargo, en el caso de Tesla como ejemplo, tiene cientos o miles de personas trabajando todos los días para identificar las imágenes que ven los autos y clasificarlas / etiquetarlas correctamente. “Si bien puede parecer que el modelo es el culpable probable aquí, es más probable que se culpe a los conjuntos de datos”, señala acertadamente el MIT.

Puedes leer la publicación del blog del MIT aquí y los hallazgos de la investigación de Carter aquí.

.
Y, sin más enrollarme, volverás a saber de mi una nueva vez. ¡Hasta la vista!

¡Compártelo!

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *