Python NLTK | nltk.tokenize.StanfordTokenizer()

Con la ayuda del nltk.tokenize.StanfordTokenizer()método, podemos extraer los tokens de una string de caracteres o números usando el tokenize.StanfordTokenizer()método. Sigue el estándar de Stanford para generar tokens.

Sintaxis: tokenize.StanfordTokenizer()
Retorno: Devuelve los tokens de una string de caracteres o números.

Ejemplo n.º 1:
en este ejemplo, podemos ver que al usar el tokenize.SExprTokenizer()método, podemos extraer los tokens de una secuencia de caracteres o números usando el estándar de Stanford.

# import StanfordTokenizer() method from nltk
from nltk.tokenize.stanford import StanfordTokenizer
     
# Create a reference variable for Class StanfordTokenizer
tk = StanfordTokenizer()
     
# Create a string input
gfg = "Geeks f o r Geeks"
     
# Use tokenize method
geek = tk.tokenize(gfg)
     
print(geek)

Producción :

[‘Geeks’, ‘f’, ‘o’, ‘r’, ‘Geeks’]

Ejemplo #2:

# import StanfordTokenizer() method from nltk
from nltk.tokenize.stanford import StanfordTokenizer
     
# Create a reference variable for Class StanfordTokenizer
tk = StanfordTokenizer()
     
# Create a string input
gfg = "This is your great author."
     
# Use tokenize method
geek = tk.tokenize(gfg)
     
print(geek)

Producción :

[‘Este’, ‘es’, ‘tu’, ‘gran’, ‘autor’, ‘.’]

Publicación traducida automáticamente

Artículo escrito por Jitender_1998 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *