Aproximación de procesos de decisión de Markov con dinámica acoplada a través de sistemas de control determinista de Markov

Ponente(s): Gustavo Portillo Ramírez, Hugo Adán Cruz Suárez

En esta plática se presenta la aproximación de procesos de decisión de Markov discretos con ruido pequeño en espacios de Borel con horizonte infinito y costo descontado total esperado, mediante el correspondiente proceso de Markov determinista. Tanto en el caso estocástico como en el determinista, la dinámica evoluciona a través de un sistema compuesto por dos ecuaciones en diferencias acopladas. Adicionalmente, se supone que las ecuaciones en diferencias del sistema están perturbadas por pequeños ruidos epsilon y delta. Bajo nuestros supuestos, se proporciona una cota para el índice de estabilidad y se estima la tasa de convergencia del costo óptimo a partir de un parámetro de perturbación de ruido pequeño. Además, sobre subconjuntos compactos se verifica la convergencia de la política óptima. En particular, se asegura que la política óptima del sistema determinista es asintóticamente óptima para el sistema estocástico. Finalmente, se presentan dos ejemplos que ilustran la teoría desarrollada.