Con la ayuda del nltk.tokenize.TabTokenizer()
método, podemos extraer los tokens de una string de palabras sobre la base de las pestañas entre ellos usando el tokenize.TabTokenizer()
método.
Sintaxis :
tokenize.TabTokenizer()
Return : Devuelve los tokens de las palabras.
Ejemplo n.º 1:
en este ejemplo, podemos ver que al usar el tokenize.TabTokenizer()
método, podemos extraer los tokens de la secuencia a palabras que tienen tabulaciones entre ellos.
# import TabTokenizer() method from nltk from nltk.tokenize import TabTokenizer # Create a reference variable for Class TabTokenizer tk = TabTokenizer() # Create a string input gfg = "Geeksfor\tGeeks..\t.$$&* \nis\t for geeks" # Use tokenize method geek = tk.tokenize(gfg) print(geek)
Producción :
[‘Geeksfor’, ‘Geeks..’, ‘.$$&* \nis’, ‘for geeks’]
Ejemplo #2:
# import TabTokenizer() method from nltk from nltk.tokenize import TabTokenizer # Create a reference variable for Class TabTokenizer tk = TabTokenizer() # Create a string input gfg = "The price\t of burger \tin BurgerKing is Rs.36.\n" # Use tokenize method geek = tk.tokenize(gfg) print(geek)
Producción :
[‘El precio’, ‘de la hamburguesa’, ‘en BurgerKing es Rs.36.\n’]
Publicación traducida automáticamente
Artículo escrito por Jitender_1998 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA