Python | Lematización con TextBlob

La lematización es el proceso de agrupar las diferentes formas flexionadas de una palabra para que puedan analizarse como un solo elemento. La lematización es similar a la lematización pero aporta contexto a las palabras. Entonces vincula palabras con significados similares a una sola palabra.
El preprocesamiento de texto incluye tanto Stemming como Lematization. Muchas veces la gente encuentra estos dos términos confusos. Algunos tratan a estos dos como iguales. En realidad, se prefiere la lematización a Stemming porque la lematización hace un análisis morfológico de las palabras.
Las aplicaciones de la lematización son: 
 

  • Se utiliza en sistemas integrales de recuperación como motores de búsqueda.
  • Se utiliza en la indexación compacta.
Examples of lemmatization :

-> rocks : rock
-> corpora : corpus
-> better : good

Una diferencia importante con la derivación es que lematizar toma una parte del parámetro del discurso, «pos». Si no se proporciona, el valor predeterminado es «sustantivo».
A continuación se muestra la implementación de palabras de lematización usando TextBlob: 
 

Python3

# from textblob lib import Word method
from textblob import Word
 
# create a Word object.
u = Word("rocks")
 
# apply lemmatization.
print("rocks :", u.lemmatize())
 
# create a Word object.
v = Word("corpora")
 
# apply lemmatization.
print("corpora :", v.lemmatize())
 
# create a Word object.
w = Word("better")
  
# apply lemmatization with
# parameter "a", "a" denotes adjective.
print("better :", w.lemmatize("a"))

Producción : 
 

rocks : rock
corpora : corpus
better : good

Publicación traducida automáticamente

Artículo escrito por ankthon y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *