El aprendizaje por refuerzo es un área del aprendizaje automático. Se trata de tomar las medidas adecuadas para maximizar la recompensa en una situación particular. Es empleado por varios software y máquinas para encontrar el mejor comportamiento posible o el mejor camino que debe tomar en una situación específica. El aprendizaje por refuerzo difiere del aprendizaje supervisado en que, en el aprendizaje supervisado, los datos de entrenamiento tienen la clave de respuesta, por lo que el modelo se entrena con la respuesta correcta, mientras que en el aprendizaje por refuerzo, no hay respuesta, pero el agente de refuerzo decide qué hacer para responder. realizar la tarea dada. En ausencia de un conjunto de datos de entrenamiento, está obligado a aprender de su experiencia.
Ejemplo: El problema es el siguiente: Tenemos un agente y una recompensa, con muchos obstáculos de por medio. Se supone que el agente debe encontrar el mejor camino posible para alcanzar la recompensa. El siguiente problema explica el problema más fácilmente.
La imagen de arriba muestra el robot, el diamante y el fuego. El objetivo del robot es conseguir la recompensa que es el diamante y esquivar las vallas que se disparan. El robot aprende probando todos los caminos posibles y luego eligiendo el camino que le da la recompensa con menos obstáculos. Cada paso correcto le dará una recompensa al robot y cada paso equivocado restará la recompensa del robot. La recompensa total se calculará cuando llegue a la recompensa final que es el diamante.
Puntos principales en el aprendizaje por refuerzo:
- Entrada: la entrada debe ser un estado inicial desde el cual comenzará el modelo
- Salida: Hay muchas salidas posibles ya que hay una variedad de soluciones para un problema en particular.
- Entrenamiento: el entrenamiento se basa en la entrada, el modelo devolverá un estado y el usuario decidirá recompensar o castigar al modelo en función de su salida.
- El modelo sigue sigue aprendiendo.
- La mejor solución se decide en función de la recompensa máxima.
Diferencia entre el aprendizaje por refuerzo y el aprendizaje supervisado:
Aprendizaje reforzado | Aprendizaje supervisado |
---|---|
El aprendizaje por refuerzo se trata de tomar decisiones secuencialmente. En palabras simples, podemos decir que la salida depende del estado de la entrada actual y la siguiente entrada depende de la salida de la entrada anterior. | En el aprendizaje supervisado, la decisión se toma sobre la entrada inicial o la entrada dada al comienzo |
En el aprendizaje por refuerzo, la decisión es dependiente, por lo que asignamos etiquetas a las secuencias de decisiones dependientes. | En el aprendizaje supervisado, las decisiones son independientes entre sí, por lo que se asignan etiquetas a cada decisión. |
Ejemplo: juego de ajedrez | Ejemplo: reconocimiento de objetos |
Tipos de Refuerzo: Hay dos tipos de Refuerzo:
- Positivo:
el refuerzo positivo se define como cuando ocurre un evento debido a un comportamiento particular, aumenta la fuerza y la frecuencia del comportamiento. En otras palabras, tiene un efecto positivo en el comportamiento.Las ventajas del aprendizaje por refuerzo son:
- Maximiza el rendimiento
- Mantener el cambio durante un largo período de tiempo
- Demasiado Refuerzo puede conducir a una sobrecarga de estados que puede disminuir los resultados
- Negativo:
el refuerzo negativo se define como el fortalecimiento del comportamiento debido a que se detiene o evita una condición negativa.Ventajas del aprendizaje por refuerzo:
- Aumenta el comportamiento
- Proporcionar desafío a un estándar mínimo de desempeño
- Solo proporciona lo suficiente para cumplir con el comportamiento mínimo.
Varias aplicaciones prácticas del aprendizaje por refuerzo:
- RL se puede utilizar en robótica para la automatización industrial.
- RL se puede utilizar en aprendizaje automático y procesamiento de datos
- RL se puede utilizar para crear sistemas de capacitación que brindan instrucción y materiales personalizados de acuerdo con los requisitos de los estudiantes.
RL se puede utilizar en entornos grandes en las siguientes situaciones:
- Se conoce un modelo del entorno, pero no se dispone de una solución analítica;
- Solo se proporciona un modelo de simulación del entorno (el tema de la optimización basada en simulación)
- La única forma de recopilar información sobre el medio ambiente es interactuar con él.
Cursos GeeksforGeeks
Aprendizaje automático básico y avanzado: curso a su propio ritmo
Aprenda los conceptos básicos del aprendizaje automático y obtenga un conocimiento profundo de temas como el manejo de datos, la regresión, la agrupación en clústeres y mucho más trabajando en una serie de proyectos basados en aplicaciones del mundo real. Comprenda los conceptos y las técnicas que utilizan los expertos en aprendizaje automático y prepárese para el futuro. ¡Únase ahora!
Fuente: Wikipedia
Publicación traducida automáticamente
Artículo escrito por Prateek Bajaj y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA