De acuerdo con la ecuación de Bellman , la recompensa a largo plazo en una acción determinada es igual a la recompensa de la acción actual combinada con la recompensa esperada de las acciones futuras realizadas en el momento siguiente. Tratemos de entender primero.
Tomemos un ejemplo:
Aquí tenemos un laberinto que es nuestro entorno y el único objetivo de nuestro agente es alcanzar el estado de trofeo (R = 1) o obtener una buena recompensa y evitar el estado de fuego porque será un fracaso (R = -1) o obtendrá Mala recompensa .
¿Qué sucede sin la ecuación de Bellman?
Inicialmente, le daremos a nuestro agente algo de tiempo para explorar el entorno y dejar que encuentre un camino hacia la meta. Tan pronto como llegue a su objetivo, retrocederá sus pasos hasta su posición inicial y marcará los valores de todos los estados que eventualmente conducen hacia la meta como V = 1 .
El agente no tendrá ningún problema hasta que cambiemos su posición inicial , ya que no podrá encontrar el camino hacia el estado trofeo ya que el valor de todos los estados es igual a 1 . Entonces, para resolver este problema debemos usar la ecuación de Bellman:
Estado(s): estado actual en el que se encuentra el agente en el entorno
Estado(s) siguiente(s): Después de realizar una acción(a) en el(los) estado(s), el agente llega a s’
Valor(V): Representación numérica de un estado que ayuda al agente a encontrar su camino. V(s) aquí significa el valor del estado s.
Recompensa(R): trato que recibe el agente después de realizar una acción(a).
- R(s): recompensa por estar en el estado s
- R(s,a): recompensa por estar en el estado y realizar una acción a
- R(s,a,s’): recompensa por estar en un estado s, realizar una acción a y terminar en s’
Por ejemplo , una buena recompensa puede ser +1 , una mala recompensa puede ser -1 , ninguna recompensa puede ser 0 .
Acción(a): conjunto de posibles acciones que puede realizar el agente en el(los) estado(s). por ejemplo ( IZQUIERDA , DERECHA , ARRIBA , ABAJO )
Factor de descuento (γ): determina cuánto le importan al agente las recompensas en el futuro distante en relación con las del futuro inmediato. Tiene un valor entre 0 y 1 . Un valor más bajo fomenta las recompensas a corto plazo, mientras que un valor más alto promete una recompensa a largo plazo.
El máximo denota la acción más óptima entre todas las acciones que el agente puede realizar en un estado particular que puede conducir a la recompensa después de repetir este proceso en cada paso consecutivo.
Por ejemplo:
- El estado dejado al estado de fuego (V = 0.9) puede ir ARRIBA , ABAJO , DERECHA pero NO A LA IZQUIERDA porque es una pared (no accesible). Entre todas estas acciones disponibles, el valor máximo para ese estado es la acción ARRIBA .
- El estado inicial actual de nuestro agente puede elegir cualquier acción aleatoria ARRIBA o DERECHA ya que ambas conducen hacia la recompensa con el mismo número de pasos.
Mediante el uso de la ecuación de Bellman nuestro agente calculará el valor de cada paso a excepción del trofeo y el estado de fuego (V = 0) , no pueden tener valores ya que son el final del laberinto .
Entonces, después de hacer un plan de este tipo, nuestro agente puede lograr fácilmente su objetivo simplemente siguiendo los valores crecientes.