Con la ayuda del nltk.tokenize.StanfordTokenizer()
método, podemos extraer los tokens de una string de caracteres o números usando el tokenize.StanfordTokenizer()
método. Sigue el estándar de Stanford para generar tokens.
Sintaxis:
tokenize.StanfordTokenizer()
Retorno: Devuelve los tokens de una string de caracteres o números.
Ejemplo n.º 1:
en este ejemplo, podemos ver que al usar el tokenize.SExprTokenizer()
método, podemos extraer los tokens de una secuencia de caracteres o números usando el estándar de Stanford.
# import StanfordTokenizer() method from nltk from nltk.tokenize.stanford import StanfordTokenizer # Create a reference variable for Class StanfordTokenizer tk = StanfordTokenizer() # Create a string input gfg = "Geeks f o r Geeks" # Use tokenize method geek = tk.tokenize(gfg) print(geek)
Producción :
[‘Geeks’, ‘f’, ‘o’, ‘r’, ‘Geeks’]
Ejemplo #2:
# import StanfordTokenizer() method from nltk from nltk.tokenize.stanford import StanfordTokenizer # Create a reference variable for Class StanfordTokenizer tk = StanfordTokenizer() # Create a string input gfg = "This is your great author." # Use tokenize method geek = tk.tokenize(gfg) print(geek)
Producción :
[‘Este’, ‘es’, ‘tu’, ‘gran’, ‘autor’, ‘.’]
Publicación traducida automáticamente
Artículo escrito por Jitender_1998 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA