Con la ayuda del nltk.tokenize.WordPunctTokenizer()()
método, podemos extraer los tokens de una string de palabras u oraciones en forma de caracteres alfabéticos y no alfabéticos utilizando el tokenize.WordPunctTokenizer()()
método.
Sintaxis:
tokenize.WordPunctTokenizer()()
Retorno: Devuelve los tokens de una string de caracteres alfabéticos o no alfabéticos.
Ejemplo n.º 1:
en este ejemplo, podemos ver que al usar el tokenize.WordPunctTokenizer()()
método, podemos extraer los tokens de un flujo de caracteres alfabéticos o no alfabéticos.
# import WordPunctTokenizer() method from nltk from nltk.tokenize import WordPunctTokenizer # Create a reference variable for Class WordPunctTokenizer tk = WordPunctTokenizer() # Create a string input gfg = "GeeksforGeeks...$$&* \nis\t for geeks" # Use tokenize method geek = tk.tokenize(gfg) print(geek)
Producción :
[‘GeeksforGeeks’, ‘…$$&*’, ‘es’, ‘para’, ‘geeks’]
Ejemplo #2:
# import WordPunctTokenizer() method from nltk from nltk.tokenize import WordPunctTokenizer # Create a reference variable for Class WordPunctTokenizer tk = WordPunctTokenizer() # Create a string input gfg = "The price\t of burger \nin BurgerKing is Rs.36.\n" # Use tokenize method geek = tk.tokenize(gfg) print(geek)
Producción :
[‘El’, ‘precio’, ‘de’, ‘hamburguesa’, ‘en’, ‘BurgerKing’, ‘es’, ‘Rs’, ‘.’, ’36’, ‘.’]
Publicación traducida automáticamente
Artículo escrito por Jitender_1998 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA