RL para enseñar a un robot a caminar es una tarea difícil. Probablemente, el mejor artículo de introducción que puede leer es Aprendizaje de refuerzo en robótica: una encuesta. Este documento explica por qué RL para robótica es difícil y las maneras de hacer que el problema sea manejable. Si estás buscando pequeños proyectos para ayudarte a aprender aquí, es lo que sugeriría.
En primer lugar, el gimnasio OpenAI es increíble y te pondrá en marcha en Python bastante rápido.
- Comience simple lo que significa pequeño y discreto.
- Algunos ejemplos de control canónico simple:
- péndulo invertido – 2 estados, 1 acción
- Poste carro – 4 estados, 1 acción
- Acrobot – 4 estados, 1 acción
- Los pequeños problemas se pueden resolver mediante la discretización del espacio de estado (representación de acción de estado tabular) y la ejecución de un algoritmo de introducción de RL simple:
- El aprendizaje Q es probablemente el principal.
- SARSA, TD, y muchos más … si está realmente interesado, entonces Reinforcement Learning de Sutton and Barto es una necesidad.
- Puede ejecutar estos algoritmos y tener una idea de sus fortalezas y debilidades y cómo estos enfoques simples no se adaptan bien a problemas más grandes. Siga haciendo referencia al documento de la encuesta mientras hace esto, ya que a veces puede perderse en el mundo de la sociedad civil y necesita volver a la realidad.
- Hacer es un poco más difícil … problemas pequeños pero continuos
- Función de valor de aproximación
- Use su conocimiento del aprendizaje supervisado e intente enseñar un aproximador de función de valor.
- De esta manera mantienes las cosas continuas.
- Usted encontrará que se necesita mucha experiencia para encontrar una buena solución.
- Métodos de Actor Crítico (una mezcla de este y 3)
- Presentar un mundo completamente nuevo … Aprendizaje de refuerzo basado en la trayectoria
- Métodos de gradiente de políticas
- gradientes de política
- gradientes de política natural (actor natural crítico)
- Métodos libres de derivados (muestra el espacio de costos)
- método de entropía cruzada
- adaptación de matriz de covarianza
- iteración de políticas con integrales de trayectoria
- Modelo basado vs modelo gratis
- Basado en el modelo, necesita menos experiencia, menos general, pero quizás más aplicable a la robótica.
- El aprendizaje por refuerzo basado en modelos es similar a otros campos que vale la pena investigar
- Optimización de la trayectoria
- control óptimo
- modelo de control predictivo
- Supongo que tal vez estoy por aquí, así que enumeraré algunos temas avanzados interesantes para robótica
- Exploración segura
- RL multitarea
- RL semi-supervisado
- RL profundo
- Echa un vistazo al curso de Berkeley
- Algún algoritmo de vanguardia.
- optimización de la política de la región de confianza
- funciones de ventaja normalizadas
- búsqueda guiada de políticas
- gradientes de política deterministas profundos
- Redes de Publicidad Generativas
- En comparación con el crítico de actores / aprendizaje de imitación
Realmente hay mucho que aprender … No me gustaría centrarme en la construcción de un robot real para hacer esto todavía. El gimnasio OpenAI tiene todo lo que necesitas y la experiencia simulada es mucho más barata que la real.
- ¿Cuál es la forma más rápida de diseñar una portada de libro?
- ¿Cuáles son algunos consejos rápidos sobre la escritura de los escritores?
- ¿Podría alguien compartir algunos consejos de gestión de la agencia conmigo?
- ¿Cuáles son los mejores consejos para amamantar para las nuevas mamás?
- Cómo entrar a la ONU