Con la ayuda del nltk.tokenize.SpaceTokenizer()
método, podemos extraer los tokens de una string de palabras en función del espacio entre ellos utilizando el tokenize.SpaceTokenizer()
método.
Sintaxis :
tokenize.SpaceTokenizer()
Return : Devuelve los tokens de las palabras.
Ejemplo n.º 1:
en este ejemplo, podemos ver que al usar el tokenize.SpaceTokenizer()
método, podemos extraer los tokens de la secuencia a palabras que tienen espacio entre ellos.
# import SpaceTokenizer() method from nltk from nltk.tokenize import SpaceTokenizer # Create a reference variable for Class SpaceTokenizer tk = SpaceTokenizer() # Create a string input gfg = "Geeksfor Geeks.. .$$&* \nis\t for geeks" # Use tokenize method geek = tk.tokenize(gfg) print(geek)
Producción :
[‘Geeksfor’, ‘Geeks..’, ‘.$$&*’, ‘\nis\t’, ‘for’, ‘geeks’]
Ejemplo #2:
# import SpaceTokenizer() method from nltk from nltk.tokenize import SpaceTokenizer # Create a reference variable for Class SpaceTokenizer tk = SpaceTokenizer() # Create a string input gfg = "The price\t of burger \nin BurgerKing is Rs.36.\n" # Use tokenize method geek = tk.tokenize(gfg) print(geek)
Producción :
[‘El’, ‘precio\t’, ‘de’, ‘hamburguesa’, ‘\nin’, ‘BurgerKing’, ‘es’, ‘Rs.36.\n’]
Publicación traducida automáticamente
Artículo escrito por Jitender_1998 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA