Con la ayuda del nltk.tokenize.WhitespaceTokenizer()
método, podemos extraer los tokens de strings de palabras u oraciones sin espacios en blanco , nuevas líneas y tabulaciones usando el tokenize.WhitespaceTokenizer()
método.
Sintaxis:
tokenize.WhitespaceTokenizer()
Retorno: Devuelve los tokens de una string
Ejemplo #1:
En este ejemplo, podemos ver que al usar el tokenize.WhitespaceTokenizer()
método, podemos extraer los tokens del flujo de palabras.
# import WhitespaceTokenizer() method from nltk from nltk.tokenize import WhitespaceTokenizer # Create a reference variable for Class WhitespaceTokenizer tk = WhitespaceTokenizer() # Create a string input gfg = "GeeksforGeeks \nis\t for geeks" # Use tokenize method geek = tk.tokenize(gfg) print(geek)
Producción :
[‘GeeksforGeeks’, ‘es’, ‘para’, ‘geeks’]
Ejemplo #2:
# import WhitespaceTokenizer() method from nltk from nltk.tokenize import WhitespaceTokenizer # Create a reference variable for Class WhitespaceTokenizer tk = WhitespaceTokenizer() # Create a string input gfg = "The price\t of burger \nin BurgerKing is Rs.36.\n" # Use tokenize method geek = tk.tokenize(gfg) print(geek)
Producción :
[‘El’, ‘precio’, ‘de’, ‘hamburguesa’, ‘en’, ‘BurgerKing’, ‘es’, ‘Rs.36.’]
Publicación traducida automáticamente
Artículo escrito por Jitender_1998 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA