La lematización es el proceso de agrupar las diferentes formas flexionadas de una palabra para que puedan analizarse como un solo elemento. La lematización es similar a la lematización pero aporta contexto a las palabras. Entonces vincula palabras con significados similares a una sola palabra.
El preprocesamiento de texto incluye tanto Stemming como Lematization. Muchas veces la gente encuentra estos dos términos confusos. Algunos tratan a estos dos como iguales. En realidad, se prefiere la lematización a Stemming porque la lematización hace un análisis morfológico de las palabras.
Las aplicaciones de la lematización son:
- Se utiliza en sistemas integrales de recuperación como motores de búsqueda.
- Se utiliza en la indexación compacta.
Examples of lemmatization : -> rocks : rock -> corpora : corpus -> better : good
Una diferencia importante con la derivación es que lematizar toma una parte del parámetro del discurso, «pos». Si no se proporciona, el valor predeterminado es «sustantivo».
A continuación se muestra la implementación de palabras de lematización usando TextBlob:
Python3
# from textblob lib import Word method from textblob import Word # create a Word object. u = Word("rocks") # apply lemmatization. print("rocks :", u.lemmatize()) # create a Word object. v = Word("corpora") # apply lemmatization. print("corpora :", v.lemmatize()) # create a Word object. w = Word("better") # apply lemmatization with # parameter "a", "a" denotes adjective. print("better :", w.lemmatize("a"))
Producción :
rocks : rock corpora : corpus better : good