Python NLTK | tokenizar.WordPunctTokenizer()

Con la ayuda del nltk.tokenize.WordPunctTokenizer()()método, podemos extraer los tokens de una string de palabras u oraciones en forma de caracteres alfabéticos y no alfabéticos utilizando el tokenize.WordPunctTokenizer()()método.

Sintaxis: tokenize.WordPunctTokenizer()()
Retorno: Devuelve los tokens de una string de caracteres alfabéticos o no alfabéticos.

Ejemplo n.º 1:
en este ejemplo, podemos ver que al usar el tokenize.WordPunctTokenizer()()método, podemos extraer los tokens de un flujo de caracteres alfabéticos o no alfabéticos.

# import WordPunctTokenizer() method from nltk
from nltk.tokenize import WordPunctTokenizer
     
# Create a reference variable for Class WordPunctTokenizer
tk = WordPunctTokenizer()
     
# Create a string input
gfg = "GeeksforGeeks...$$&* \nis\t for geeks"
     
# Use tokenize method
geek = tk.tokenize(gfg)
     
print(geek)

Producción :

[‘GeeksforGeeks’, ‘…$$&*’, ‘es’, ‘para’, ‘geeks’]

Ejemplo #2:

# import WordPunctTokenizer() method from nltk
from nltk.tokenize import WordPunctTokenizer
     
# Create a reference variable for Class WordPunctTokenizer
tk = WordPunctTokenizer()
     
# Create a string input
gfg = "The price\t of burger \nin BurgerKing is Rs.36.\n"
     
# Use tokenize method
geek = tk.tokenize(gfg)
     
print(geek)

Producción :

[‘El’, ‘precio’, ‘de’, ‘hamburguesa’, ‘en’, ‘BurgerKing’, ‘es’, ‘Rs’, ‘.’, ’36’, ‘.’]

Publicación traducida automáticamente

Artículo escrito por Jitender_1998 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *