¿Por qué es tan difícil para las computadoras reconocer cosas en imágenes?

Considera lo siguiente:

Esto es una mesa.

Esto también es una mesa.

Aquí tenemos una tercera mesa.

Una mesa más por si acaso.

¿Por qué deberían ir todas estas imágenes en la categoría de “Tabla”? ¿Qué pasa con ellos en las mesas? ¿Cómo se define la “tabla”? No puede definirse por uso, pero tiene que definirlo por características físicas. Y tiene que definir esas características lo suficientemente amplias como para aceptar los cuatro tipos de tablas anteriores, mientras excluye cosas como:

Un vestidor.

Un escritorio.

Un banco.

Ahora, en el caso de que pueda definir una tabla de acuerdo con las características físicas (recuerde, debe ser completamente visual), mientras excluye con precisión las cosas que son similares a las tablas pero definitivamente no las tablas, convierta esas definiciones y requisitos en algoritmos de algún tipo. Si agregamos diferencias en iluminación, fondo, contexto, etc., la dificultad se vuelve significativamente mayor. Ese es el desafío de conseguir que una computadora identifique objetos en imágenes.

La clasificación en su núcleo se basa en la identificación de características o dimensiones importantes de los datos. Considera una foto tuya. Ahora considere todas las formas posibles de tomar esta foto. Hay infinitas combinaciones de iluminación, estructura, saturación, contraste, fondo, enfoque y otras dimensiones que pueden cambiar la apariencia de la imagen. De todas estas combinaciones, considere la dificultad de identificar las dimensiones que pueden utilizarse de manera confiable para la clasificación. Esta dificultad es lo que hace que el reconocimiento de la imagen sea un desafío.

Debido a que hay infinitos ángulos y iluminaciones de objetos, no se pueden combinar con una imagen “correcta”.

Por ejemplo, este es un gato.

Y esto también es un gato.

No puede decirle a la computadora que busque características únicas e identificables de un objeto si esa característica no es constante en todas las circunstancias, lo cual es casi imposible. El reconocimiento de imágenes es un subconjunto extremadamente difícil de inteligencia artificial, ya que se necesita un gran conjunto de datos para entrenar a la computadora para que reconozca con precisión los objetos cuando están parcialmente cubiertos, distorsionados, ocultos en las sombras o volando por el aire como una bola de pelo.

(Aparte: recomendamos términos como “lo que hace” en lugar de “por qué” en preguntas como esta, reservando “por qué” para preguntas de propósito).

El procesamiento y reconocimiento de imágenes son tareas difíciles, incluso para los cerebros.

La mayoría de las imágenes tienen muchas cosas diferentes, con diferentes luces, en diferentes ángulos, con diferentes oclusiones …

Para comprender lo difícil que es en realidad (porque la mayoría de las personas simplemente dan por sentado la visión), invitamos a las personas que no están acostumbradas a hacer fotos (dibujar / pintar, etc.; no tomar fotos, como presionar el botón de la cámara) para intentar Haz una verdadera imagen de la siguiente escena interesante que puedan ver.