Cómo aprender e implementar algoritmos de RL (aprendizaje por refuerzo) en robots lo más rápido posible Truco de Vida y Tiempo Feliz Lifehacker

RL para enseñar a un robot a caminar es una tarea difícil. Probablemente, el mejor artículo de introducción que puede leer es Aprendizaje de refuerzo en robótica: una encuesta. Este documento explica por qué RL para robótica es difícil y las maneras de hacer que el problema sea manejable. Si estás buscando pequeños proyectos para ayudarte a aprender aquí, es lo que sugeriría.

En primer lugar, el gimnasio OpenAI es increíble y te pondrá en marcha en Python bastante rápido.

Comience simple lo que significa pequeño y discreto.

Algunos ejemplos de control canónico simple:

péndulo invertido – 2 estados, 1 acción
Poste carro – 4 estados, 1 acción
Acrobot – 4 estados, 1 acción

Los pequeños problemas se pueden resolver mediante la discretización del espacio de estado (representación de acción de estado tabular) y la ejecución de un algoritmo de introducción de RL simple:

El aprendizaje Q es probablemente el principal.
SARSA, TD, y muchos más … si está realmente interesado, entonces Reinforcement Learning de Sutton and Barto es una necesidad.

Puede ejecutar estos algoritmos y tener una idea de sus fortalezas y debilidades y cómo estos enfoques simples no se adaptan bien a problemas más grandes. Siga haciendo referencia al documento de la encuesta mientras hace esto, ya que a veces puede perderse en el mundo de la sociedad civil y necesita volver a la realidad.

Hacer es un poco más difícil … problemas pequeños pero continuos

Función de valor de aproximación

Use su conocimiento del aprendizaje supervisado e intente enseñar un aproximador de función de valor.
De esta manera mantienes las cosas continuas.
Usted encontrará que se necesita mucha experiencia para encontrar una buena solución.

Métodos de Actor Crítico (una mezcla de este y 3)

Presentar un mundo completamente nuevo … Aprendizaje de refuerzo basado en la trayectoria

Métodos de gradiente de políticas

gradientes de política
gradientes de política natural (actor natural crítico)

Métodos libres de derivados (muestra el espacio de costos)

método de entropía cruzada
adaptación de matriz de covarianza
iteración de políticas con integrales de trayectoria

Modelo basado vs modelo gratis

Basado en el modelo, necesita menos experiencia, menos general, pero quizás más aplicable a la robótica.

El aprendizaje por refuerzo basado en modelos es similar a otros campos que vale la pena investigar

Optimización de la trayectoria
control óptimo
modelo de control predictivo

Supongo que tal vez estoy por aquí, así que enumeraré algunos temas avanzados interesantes para robótica

Exploración segura
RL multitarea
RL semi-supervisado
RL profundo

Echa un vistazo al curso de Berkeley

Algún algoritmo de vanguardia.

optimización de la política de la región de confianza
funciones de ventaja normalizadas
búsqueda guiada de políticas
gradientes de política deterministas profundos

Redes de Publicidad Generativas

En comparación con el crítico de actores / aprendizaje de imitación

Realmente hay mucho que aprender … No me gustaría centrarme en la construcción de un robot real para hacer esto todavía. El gimnasio OpenAI tiene todo lo que necesitas y la experiencia simulada es mucho más barata que la real.