Python NLTK | nltk.tokenize.SExprTokenizer()

Con la ayuda del nltk.tokenize.SExprTokenizer()método, podemos extraer los tokens de una string de caracteres o números usando el tokenize.SExprTokenizer()método. En realidad, busca los soportes adecuados para hacer tokens.

Sintaxis: tokenize.SExprTokenizer()
Retorno: Devuelve los tokens de una string de caracteres o números.

Ejemplo n.º 1:
en este ejemplo, podemos ver que al usar el tokenize.SExprTokenizer()método, podemos extraer los tokens de la secuencia de caracteres o números teniendo en cuenta los corchetes.

# import SExprTokenizer() method from nltk
from nltk.tokenize import SExprTokenizer
     
# Create a reference variable for Class SExprTokenizer
tk = SExprTokenizer()
     
# Create a string input
gfg = "( a * ( b + c ))ab( a-c )"
     
# Use tokenize method
geek = tk.tokenize(gfg)
     
print(geek)

Producción :

[‘(a * (b+c))’, ‘ab’, ‘(ac)’]

Ejemplo #2:

# import SExprTokenizer() method from nltk
from nltk.tokenize import SExprTokenizer
     
# Create a reference variable for Class SExprTokenizer
tk = SExprTokenizer()
     
# Create a string input
gfg = "(a b) c d (e f)"
     
# Use tokenize method
geek = tk.tokenize(gfg)
     
print(geek)

Producción :

[‘(a B C D e F)’]

Publicación traducida automáticamente

Artículo escrito por Jitender_1998 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta Cancelar la respuesta