El análisis semántico latente es un método de procesamiento del lenguaje natural que utiliza el enfoque estadístico para identificar la asociación entre las palabras de un documento. LSA se ocupa del siguiente tipo de problema:
Ejemplo: móvil, teléfono, móvil, teléfono son todos similares, pero si planteamos una consulta como «El móvil ha estado sonando», solo se recuperarán los documentos que tengan «móvil», mientras que los documentos que contengan móvil, teléfono, teléfono no se recuperan.
Supuestos de LSA:
- Las palabras que se usan en el mismo contexto son análogas entre sí.
- La estructura semántica oculta de los datos no está clara debido a la ambigüedad de las palabras elegidas.
Valor singular de descomposición:
La descomposición de valores singulares es el método estadístico que se utiliza para encontrar la estructura semántica latente (oculta) de las palabras repartidas por el documento.
Dejar
C = collection of documents. d = number of documents. n = number of unique words in the whole collection. M = d X n
El SVD descompone la array M, es decir, la array de palabra a documento en tres arrays de la siguiente manera
M = U∑VT
dónde
U = distribution of words across the different contexts ∑ = diagonal matrix of the association among the contexts VT = distribution of contexts across the different documents
Una característica muy importante de SVD es que nos permite truncar algunos contextos que no necesariamente necesitamos. La array ∑ nos proporciona los valores de la diagonal que representan la importancia del contexto de mayor a menor. Al usar estos valores, podemos reducir las dimensiones y, por lo tanto, también se puede usar como una técnica de reducción de dimensionalidad.
Si seleccionamos los valores k de la diagonal mayor en ∑ una array obtenemos
METRO k = U k ∑ k V T K
dónde
Mk = approximated matrix of M Uk, ∑k, VTk are the matrices containing only the k contexts from U, ∑, VT respectively