Python NLTK | nltk.WhitespaceTokenizer

Con la ayuda del nltk.tokenize.WhitespaceTokenizer()método, podemos extraer los tokens de strings de palabras u oraciones sin espacios en blanco , nuevas líneas y tabulaciones usando el tokenize.WhitespaceTokenizer()método.

Sintaxis: tokenize.WhitespaceTokenizer()
Retorno: Devuelve los tokens de una string

Ejemplo #1:
En este ejemplo, podemos ver que al usar el tokenize.WhitespaceTokenizer()método, podemos extraer los tokens del flujo de palabras.

# import WhitespaceTokenizer() method from nltk
from nltk.tokenize import WhitespaceTokenizer
     
# Create a reference variable for Class WhitespaceTokenizer
tk = WhitespaceTokenizer()
     
# Create a string input
gfg = "GeeksforGeeks \nis\t for geeks"
     
# Use tokenize method
geek = tk.tokenize(gfg)
     
print(geek)

Producción :

[‘GeeksforGeeks’, ‘es’, ‘para’, ‘geeks’]

Ejemplo #2:

# import WhitespaceTokenizer() method from nltk
from nltk.tokenize import WhitespaceTokenizer
     
# Create a reference variable for Class WhitespaceTokenizer
tk = WhitespaceTokenizer()
     
# Create a string input
gfg = "The price\t of burger \nin BurgerKing is Rs.36.\n"
     
# Use tokenize method
geek = tk.tokenize(gfg)
     
print(geek)

Producción :

[‘El’, ‘precio’, ‘de’, ‘hamburguesa’, ‘en’, ‘BurgerKing’, ‘es’, ‘Rs.36.’]

Publicación traducida automáticamente

Artículo escrito por Jitender_1998 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *