El aprendizaje por refuerzo es una rama del aprendizaje automático, también llamado aprendizaje en línea. Se utiliza para decidir qué acción tomar en t+1 en función de los datos hasta el momento t. Este concepto se utiliza en aplicaciones de Inteligencia Artificial como caminar. Un ejemplo popular de aprendizaje por refuerzo es un motor de ajedrez. Aquí, el agente decide una serie de movimientos según el estado del tablero (el entorno), y la recompensa se puede definir como ganar o perder al final del juego.
Thompson Sampling (Posterior Sampling o Probability Matching) es un algoritmo para elegir las acciones que abordan el dilema de exploración-explotación en el problema del bandido de múltiples brazos.. Las acciones se realizan varias veces y se denominan exploración. Utiliza información de entrenamiento que evalúa las acciones realizadas en lugar de instruir dando acciones correctas. Esto es lo que crea la necesidad de una exploración activa, de una búsqueda explícita de prueba y error del buen comportamiento. Según los resultados de esas acciones, se otorgan recompensas (1) o penalizaciones (0) por esa acción a la máquina. Se realizan acciones adicionales para maximizar la recompensa que puede mejorar el rendimiento futuro. Supongamos que un robot tiene que recoger varias latas y ponerlas en un contenedor. Cada vez que ponga la lata en el recipiente, memorizará los pasos seguidos y se entrenará para realizar la tarea con mayor rapidez y precisión (recompensa). Si el robot no puede poner la lata en el contenedor,
Thompson Sampling tiene la ventaja de la tendencia a disminuir la búsqueda a medida que obtenemos más y más información, lo que imita la compensación deseable en el problema, donde queremos la mayor cantidad de información posible en menos búsquedas. Por lo tanto, este Algoritmo tiende a estar más “orientado a la búsqueda” cuando tenemos menos datos y menos “orientado a la búsqueda” cuando tenemos muchos datos.
Problema de bandido con múltiples brazos
Multi-armed Bandit es sinónimo de una máquina tragamonedas con muchos brazos. Cada selección de acción es como un juego de una de las palancas de la máquina tragamonedas, y las recompensas son los pagos por ganar el premio mayor. A través de selecciones de acciones repetidas, debe maximizar sus ganancias al concentrar sus acciones en las mejores palancas. Cada máquina proporciona una recompensa diferente a partir de una distribución de probabilidad sobre la recompensa media específica de la máquina. Sin conocer estas probabilidades, el jugador tiene que maximizar la suma de la recompensa obtenida a través de una secuencia de tracción de brazos. Si mantiene estimaciones de los valores de acción, en cualquier paso de tiempo hay al menos una acción cuyo valor estimado es mayor. Llamamos a esto una acción codiciosa. La analogía con este problema pueden ser los anuncios que se muestran cada vez que el usuario visita una página web. Los brazos son anuncios que se muestran a los usuarios cada vez que se conectan a una página web. Cada vez que un usuario se conecta a la página hace una vuelta. En cada ronda, elegimos un anuncio para mostrar al usuario. En cada ronda n, el anuncio I otorga una recompensa ri(n) ε {0, 1}: ri(n)=1 si el usuario hizo clic en el anuncio i, 0 si no lo hizo. El objetivo del algoritmo será maximizar la recompensa. Otra analogía es la de un médico que elige entre tratamientos experimentales para una serie de pacientes gravemente enfermos. Cada selección de acción es una selección de tratamiento, y cada recompensa es la supervivencia o el bienestar del paciente. El objetivo del algoritmo será maximizar la recompensa. Otra analogía es la de un médico que elige entre tratamientos experimentales para una serie de pacientes gravemente enfermos. Cada selección de acción es una selección de tratamiento, y cada recompensa es la supervivencia o el bienestar del paciente. El objetivo del algoritmo será maximizar la recompensa. Otra analogía es la de un médico que elige entre tratamientos experimentales para una serie de pacientes gravemente enfermos. Cada selección de acción es una selección de tratamiento, y cada recompensa es la supervivencia o el bienestar del paciente.
Algoritmo
Algunas aplicaciones prácticas
- Sistemas de recomendación basados en elementos de Netflix: las imágenes relacionadas con películas o programas se muestran a los usuarios de tal manera que es más probable que las vean.
- Licitación y bolsa de valores: Predicción de acciones en función de los datos actuales de los precios de las acciones.
- Control de Semáforos: Predicción del retraso en la señal.
- Automatización en Industrias: Bots y Máquinas para el transporte y Entrega de artículos sin intervención humana.
Publicación traducida automáticamente
Artículo escrito por Prateek_Aggarwal y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA