Análisis semántico latente

El análisis semántico latente es un método de procesamiento del lenguaje natural que utiliza el enfoque estadístico para identificar la asociación entre las palabras de un documento. LSA se ocupa del siguiente tipo de problema:  

Ejemplo: móvil, teléfono, móvil, teléfono son todos similares, pero si planteamos una consulta como «El móvil ha estado sonando», solo se recuperarán los documentos que tengan «móvil», mientras que los documentos que contengan móvil, teléfono, teléfono no se recuperan.

Supuestos de LSA:

  1. Las palabras que se usan en el mismo contexto son análogas entre sí.
  2. La estructura semántica oculta de los datos no está clara debido a la ambigüedad de las palabras elegidas.

Valor singular de descomposición: 

La descomposición de valores singulares es el método estadístico que se utiliza para encontrar la estructura semántica latente (oculta) de las palabras repartidas por el documento.

Dejar  

C = collection of documents.  
d = number of documents.
n = number of unique words in the whole collection.
M = d X n 

El SVD descompone la array M, es decir, la array de palabra a documento en tres arrays de la siguiente manera

M = U∑VT

dónde

U = distribution of words across the different contexts
∑ = diagonal matrix of the association among the contexts
VT = distribution of contexts across the different documents

array SVD OF nxd

Una característica muy importante de SVD es que nos permite truncar algunos contextos que no necesariamente necesitamos. La array ∑ nos proporciona los valores de la diagonal que representan la importancia del contexto de mayor a menor. Al usar estos valores, podemos reducir las dimensiones y, por lo tanto, también se puede usar como una técnica de reducción de dimensionalidad.

Si seleccionamos los valores k de la diagonal mayor en ∑ una array obtenemos  

METRO k = U kk V T K

dónde

Mk = approximated matrix of M
Uk, ∑k, VTk are the matrices containing  only the k contexts from U, ∑, VT respectively

SVD truncado después de seleccionar el valor k

Publicación traducida automáticamente

Artículo escrito por jashiajm y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *