Ecuación de Bellman

De acuerdo con la ecuación de Bellman , la recompensa a largo plazo en una acción determinada es igual a la recompensa de la acción actual combinada con la recompensa esperada de las acciones futuras realizadas en el momento siguiente. Tratemos de entender primero.

Tomemos un ejemplo:

Aquí tenemos un laberinto que es nuestro entorno y el único objetivo de nuestro agente es alcanzar el estado de trofeo (R = 1) o obtener una buena recompensa y evitar el estado de fuego porque será un fracaso (R = -1) o obtendrá Mala recompensa .

Fig: Sin ecuación de Bellman

¿Qué sucede sin la ecuación de Bellman?

Inicialmente, le daremos a nuestro agente algo de tiempo para explorar el entorno y dejar que encuentre un camino hacia la meta. Tan pronto como llegue a su objetivo, retrocederá sus pasos hasta su posición inicial y marcará los valores de todos los estados que eventualmente conducen hacia la meta como V = 1 .

El agente no tendrá ningún problema hasta que cambiemos su posición inicial , ya que no podrá encontrar el camino hacia el estado trofeo ya que el valor de todos los estados es igual a 1 . Entonces, para resolver este problema debemos usar la ecuación de Bellman:

 

Estado(s): estado actual en el que se encuentra el agente en el entorno

Estado(s) siguiente(s): Después de realizar una acción(a) en el(los) estado(s), el agente llega a s’

Valor(V): Representación numérica de un estado que ayuda al agente a encontrar su camino. V(s) aquí significa el valor del estado s.

Recompensa(R): trato que recibe el agente después de realizar una acción(a).

  • R(s): recompensa por estar en el estado s
  • R(s,a): recompensa por estar en el estado y realizar una acción a
  • R(s,a,s’): recompensa por estar en un estado s, realizar una acción a y terminar en s’

Por ejemplo , una buena recompensa puede ser +1 , una mala recompensa puede ser -1 , ninguna recompensa puede ser 0 .

Acción(a): conjunto de posibles acciones que puede realizar el agente en el(los) estado(s). por ejemplo ( IZQUIERDA , DERECHA , ARRIBA , ABAJO )

Factor de descuento (γ): determina cuánto le importan al agente las recompensas en el futuro distante en relación con las del futuro inmediato. Tiene un valor entre 0 y 1 . Un valor más bajo fomenta las recompensas a corto plazo, mientras que un valor más alto promete una recompensa a largo plazo.

Fig: Uso de la ecuación de Bellman

El máximo denota la acción más óptima entre todas las acciones que el agente puede realizar en un estado particular que puede conducir a la recompensa después de repetir este proceso en cada paso consecutivo.  

Por ejemplo:

  • El estado dejado al estado de fuego (V = 0.9) puede ir ARRIBA , ABAJO , DERECHA pero NO A LA IZQUIERDA porque es una pared (no accesible). Entre todas estas acciones disponibles, el valor máximo para ese estado es la acción ARRIBA .
  • El estado inicial actual de nuestro agente puede elegir cualquier acción aleatoria ARRIBA o DERECHA ya que ambas conducen hacia la recompensa con el mismo número de pasos.

Mediante el uso de la ecuación de Bellman nuestro agente calculará el valor de cada paso a excepción del trofeo y el estado de fuego (V = 0) , no pueden tener valores ya que son el final del laberinto .

Entonces, después de hacer un plan de este tipo, nuestro agente puede lograr fácilmente su objetivo simplemente siguiendo los valores crecientes.

Publicación traducida automáticamente

Artículo escrito por akruyhau y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *