Python NLTK | nltk.tokenize.mwe()

Con la ayuda del NLTK nltk.tokenize.mwe()método, podemos tokenizar la transmisión de audio en un token de expresión de varias palabras, lo que ayuda a vincular los tokens con guiones bajos mediante el uso nltk.tokenize.mwe()del método. Recuerde que distingue entre mayúsculas y minúsculas.

Sintaxis: MWETokenizer.tokenize()
Retorno: Retorna los tokens de vinculación como uno solo si se declararon antes.

Ejemplo n.º 1:
en este ejemplo, estamos usando MWETokenizer.tokenize()el método, que solía vincular los tokens que se definió anteriormente. También podemos agregar los tokens predefinidos usando tokenizer.add_mwe()el método.

# import MWETokenizer() method from nltk
from nltk.tokenize import MWETokenizer
   
# Create a reference variable for Class MWETokenizer
tk = MWETokenizer([('g', 'f', 'g'), ('geeks', 'for', 'geeks')])
   
# Create a string input
gfg = "geeks for geeks g f g"
   
# Use tokenize method
geek = tk.tokenize(gfg.split())
   
print(geek)

Producción :

[‘geeks_for_geeks’, ‘g_f_g’]

Ejemplo #2:

# import MWETokenizer() method from nltk
from nltk.tokenize import MWETokenizer
   
# Create a reference variable for Class MWETokenizer
tk = MWETokenizer([('g', 'f', 'g'), ('geeks', 'for', 'geeks')])
tk.add_mwe(('who', 'are', 'you'))
   
# Create a string input
gfg = "who are you at geeks for geeks"
   
# Use tokenize method
geek = tk.tokenize(gfg.split())
   
print(geek)

Producción :

[‘quien_eres’, ‘en’, ‘geeks_para_geeks’]

Publicación traducida automáticamente

Artículo escrito por Jitender_1998 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *