Con la ayuda del NLTK nltk.tokenize.mwe()
método, podemos tokenizar la transmisión de audio en un token de expresión de varias palabras, lo que ayuda a vincular los tokens con guiones bajos mediante el uso nltk.tokenize.mwe()
del método. Recuerde que distingue entre mayúsculas y minúsculas.
Sintaxis:
MWETokenizer.tokenize()
Retorno: Retorna los tokens de vinculación como uno solo si se declararon antes.
Ejemplo n.º 1:
en este ejemplo, estamos usando MWETokenizer.tokenize()
el método, que solía vincular los tokens que se definió anteriormente. También podemos agregar los tokens predefinidos usando tokenizer.add_mwe()
el método.
# import MWETokenizer() method from nltk from nltk.tokenize import MWETokenizer # Create a reference variable for Class MWETokenizer tk = MWETokenizer([('g', 'f', 'g'), ('geeks', 'for', 'geeks')]) # Create a string input gfg = "geeks for geeks g f g" # Use tokenize method geek = tk.tokenize(gfg.split()) print(geek)
Producción :
[‘geeks_for_geeks’, ‘g_f_g’]
Ejemplo #2:
# import MWETokenizer() method from nltk from nltk.tokenize import MWETokenizer # Create a reference variable for Class MWETokenizer tk = MWETokenizer([('g', 'f', 'g'), ('geeks', 'for', 'geeks')]) tk.add_mwe(('who', 'are', 'you')) # Create a string input gfg = "who are you at geeks for geeks" # Use tokenize method geek = tk.tokenize(gfg.split()) print(geek)
Producción :
[‘quien_eres’, ‘en’, ‘geeks_para_geeks’]
Publicación traducida automáticamente
Artículo escrito por Jitender_1998 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA