¿Por qué es tan difícil recoger cosas para robots y no humanos?

Trabajo en investigación de manipulación y agarre robótico utilizando enfoques de visión basados ​​en el aprendizaje profundo.

En el lado del hardware: las manos humanas son prensiles, flexibles y pueden adaptarse a muchas configuraciones diferentes / envolver varias formas.

Esto hace posible que las manos “envuelvan” el objeto o componente funcional del objeto para que pueda ser levantado.

Por el contrario, muchos animales carecen de la flexibilidad de la mano o de un pulgar oponible. Imagina que eres un cachorro que intenta recoger un frisbee con tus patas …

En el lado del software: incluso con un buen manipulador (mano), recoger las cosas con la velocidad y la precisión de los humanos requiere una comprensión general y no específica de cómo se comportan los objetos y debe manejarse para garantizar una comprensión estable. Por ejemplo, podría levantar una taza agarrando su borde, pero una sujeción mucho más estable y eficiente en energía sería simplemente agarrarla por el mango.

Como otro ejemplo, considere este mouse de computadora con un cable suelto:

Si el sistema de percepción supone que todos los objetos son rígidos, entonces probablemente agarraría incorrectamente el mouse anterior, ya que el cable caería al suelo sin alguna manipulación secuencial (agrupando el cable para levantar el mouse de una vez, o moviendo ratón seguido del cable).

Este tipo de “conocimiento del sentido común” es difícil de imbuir en un sistema de visión robótica, o incluso en animales no humanos, ya que no tienen experiencia en el mundo de los objetos que se pueden agarrar con los que los humanos interactúan a diario.

La falta de familiaridad también dificulta el control motor. Nosotros y los animales no podemos ejecutar movimientos que no practicamos con frecuencia. En el caso de los robots de aprendizaje, la “práctica” refuerza las acciones de una manera diferente, pero la analogía se mantiene más o menos. De hecho, muchas personas lidian con la dificultad de “recoger cosas” cuando se trata de recoger cosas con palillos:

Antes de implementar enfoques basados ​​en el aprendizaje de extremo a extremo para la robótica (es decir, utilizar el aprendizaje profundo para aprender todo desde cero utilizando una gran cantidad de datos + prueba y error), el dogma predominante para el trabajo de agarre y robótica era utilizar hardware especializado / SLAM para adquirir aproximaciones de geometría 3D, y resolver cinemática 3D o modelos dinámicos (similares a los gráficos de computadora) para planificar una comprensión óptima.

¿Por qué un acto de levantar un objeto te parece simple?

Es porque estás subestimando la creación de formas de vida complejas, que tomó tres mil quinientos millones de años de evolución biológica desde la formación de las células más simples a un humano, transmitiendo información de generación en generación necesaria para la supervivencia en forma de ADN [ 1]

La capacidad de un ser humano de lanzar piedras, golpear palos en peligros potenciales y el posterior descubrimiento de la fabricación de herramientas le dio ventajas reproductivas (para el sexo, para decirlo sin rodeos) durante millones de años, lo que resultó en una mano con mucha destreza [2 ]

Ahora, volvamos a nuestra idea de imitar la Naturaleza.

Hasta el advenimiento de las computadoras y el reciente éxito de las redes neuronales, ni siquiera estábamos cerca de simular a un humano, por así decirlo, por sí solo y, sin embargo, la inteligencia aún es limitada. Con la palabra “Inteligencia”, en el sentido humano, me refiero a la capacidad de una cosa para percibir su entorno, determinar su estado actual, realizar una acción guiada por la heurística y una acumulación continua de conocimiento durante un período de tiempo para encontrar el forma más eficiente para completar una tarea.

Ahora, para una máquina, digamos un brazo robótico, ejecutar una inteligencia como recoger un objeto implica la abstracción de la tarea descrita por una computadora que comprende solo 1 y 0, debe lograrse a través de una serie de sensores, modelos matemáticos, y actuadores. Carece del depósito de conocimiento y experiencia que los humanos tienen a su disposición en su ADN.

Entonces, para un humano, que no tiene una idea de su propia historia, una tarea complicada de selección podría parecer engañosamente muy simple e intuitiva.

Solo en los últimos tiempos, el concepto de redes neuronales, la forma en que aprendemos cosas por experiencia, en este sentido se está implementando en brazos robóticos [3].

Espero haber respondido por qué es posible pero no tan simple imitar la belleza de la naturaleza.

Notas al pie

[1] ADN – Wikipedia

[2] https://www.ncbi.nlm.nih.gov/pmc

[3] Los robots de Google están aprendiendo a aprender cosas

Es difícil para los robots elegir diferentes objetos que no están alineados. Este es el caso en la mayoría de las situaciones de la vida real. Escoger no es una tarea. Primero, se debe identificar el objeto a elegir. Eso implica algo de detección visual. Entonces la orientación del objeto tiene que ser identificada. Recoger una lata y una aguja son tareas completamente diferentes a pesar de que ambas son cilindros en su mayor parte. Entonces se debe identificar la orientación correcta para la recolección. También se debe identificar la fuerza correcta. Todos estos son problemas independientes por sí mismos. Luego vienen las limitaciones de la pinza.

El cerebro es una computadora brillante que ha tenido miles de años para evolucionar, tiene secciones separadas para cada una de estas tareas. Además, aprende y almacena cómo hacer qué. Las computadoras están aprendiendo pero no están cerca del cerebro humano.

Por lo tanto, elegir cosas es difícil para los robots en comparación con los humanos. Amazon organiza anualmente una competencia llamada Amazon Picking Challenge que aborda estos problemas. Participan equipos de todo el mundo y puedes ver algunos de los ganadores anteriores en Youtube.

Las máquinas son buenas para aprender con big data. Tome una sola red neuronal y entrene con unos pocos millones de ejemplos de entrenamiento etiquetados, y la red aprende bien. Compare eso con un robot que recoge un par de docenas de artículos por hora. ¿Qué tan bien debemos esperar que aprenda? Si un brazo y una mano robot tienen una docena de articulaciones, las matemáticas son insoportables. Hay trucos para enfocar las ecuaciones, pero las soluciones siguen siendo increíblemente difíciles. Por lo tanto, un problema difícil sin grandes datos parece una fila difícil de resolver.

Para los robots era y es terriblemente difícil para un sistema robótico identificar a un gato caminando por una pantalla de video. Puede decirle lo que quiere, pero debe saber cómo se ve, identificarlo y ubicarlo (los avances en NN lo hacen más fácil), saber con qué superficies puede agarrar su dispositivo de agarre, moverlo y rotar su agarrador en el posición correcta y luego agarrarlo y recogerlo.

Muchas formas de vida no humanas son expertas en identificar y agarrar objetos. No podría estar de acuerdo con la declaración sobre las formas de vida no humanas.

Es muy difícil para ellos, porque es una tarea difícil, punto. Nuestros cerebros hacen que parezca fácil porque tenemos 100 mil millones de neuronas. Y nos llevó miles de millones de años llegar aquí a través de la evolución. Entonces, no es que los robots y las computadoras sean malos para caminar o detectar objetos o socializar o ser creativos. Es que los humanos son ridículamente buenos con ellos.

Es parte creación, parte evolución y parte conocimiento. Todos juntos una obra maestra de una creación súper simétrica, una creación que no tenemos que agradecerle a la humanidad.