Aprendizaje profundo | Introducción a la memoria a largo plazo

La memoria a largo y corto plazo es una especie de red neuronal recurrente. En RNN, la salida del último paso se alimenta como entrada en el paso actual. LSTM fue diseñado por Hochreiter & Schmidhuber. Abordó el problema de las dependencias a largo plazo de RNN en las que RNN no puede predecir la palabra almacenada en la memoria a largo plazo, pero puede dar predicciones más precisas a partir de la información reciente. A medida que aumenta la longitud del espacio, RNN no proporciona un rendimiento eficiente. LSTM puede retener la información de forma predeterminada durante un largo período de tiempo. Se utiliza para procesar, predecir y clasificar sobre la base de datos de series temporales. 

Estructura de LSTM:

LSTM tiene una estructura de string que contiene cuatro redes neuronales y diferentes bloques de memoria llamados células

Las celdas retienen la información y las puertas manipulan la memoria. Hay tres puertas – 

1. Forget Gate: la información que ya no es útil en el estado de celda se elimina con la puerta de olvido. Dos entradas x_t (entrada en el momento particular) y h_t-1 (salida de celda anterior) se alimentan a la puerta y se multiplican con arrays de peso seguidas de la adición de sesgo. La resultante pasa a través de una función de activación que da una salida binaria. Si para un estado de celda en particular, la salida es 0, la información se olvida y para la salida 1, la información se conserva para uso futuro. 
 

2. Puerta de entrada: la puerta de entrada realiza la adición de información útil al estado de la celda. Primero, la información se regula usando la función sigmoidea y filtra los valores a recordar de forma similar a la puerta de olvido usando las entradas h_t-1 y x_t . Luego, se crea un vector usando la función tanh que da una salida de -1 a +1, que contiene todos los valores posibles de h_t-1 y x_t . Por último, los valores del vector y los valores regulados se multiplican para obtener la información útil 

3. Puerta de salida: La puerta de salida realiza la tarea de extraer información útil del estado actual de la celda para presentarla como salida. Primero, se genera un vector aplicando la función tanh en la celda. Luego, la información se regula mediante la función sigmoidea y se filtra por los valores a recordar mediante las entradas h_t-1 y x_t . Por último, los valores del vector y los valores regulados se multiplican para ser enviados como salida y entrada a la siguiente celda.

Algunas de las famosas aplicaciones de LSTM incluyen:  

  1. Modelado de lenguaje
  2. Máquina traductora
  3. Subtítulos de imagen
  4. Generación de escritura a mano
  5. Chatbots de respuesta a preguntas

Publicación traducida automáticamente

Artículo escrito por aakarsha_chugh y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *