Procesos de Decisión de Markov Parcialmente Observables: Alternativa de solución vía Q-learning

Ponente(s): Ruy Alberto López Ríos, Hugo Adán Cruz Suárez
En esta charla se presenta breve introducción a los procesos de decisión de Markov. Cubriendo el caso completamente observable, así como la transición a los procesos de decisión parcialmente observables (POMDP's), propio de sistemas con información incompleta. Se presentarán algunos ejemplos. Se propone el abordaje en estos problemas, de métodos de refuerzo por aprendizaje (reinforcement learning), en particular, el método iterativo Q-Learning. Se comentan ventajas y desventajas.