Ecuación de Bellman
De acuerdo con la ecuación de Bellman , la recompensa a largo plazo en una acción determinada es igual a la recompensa de la acción actual combinada con la recompensa esperada de las acciones futuras realizadas en el momento siguiente. Tratemos de entender primero. Tomemos un ejemplo: Aquí tenemos un laberinto que es nuestro entorno … Continue reading «Ecuación de Bellman»