Python NLTK | tokenizar.regexp()

Con la ayuda del NLTK tokenize.regexp()módulo, podemos extraer los tokens de la string mediante el uso de expresiones regulares con el RegexpTokenizer()método.

Sintaxis: tokenize.RegexpTokenizer()
Retorno: Devuelve una array de tokens usando una expresión regular

Ejemplo #1:
En este ejemplo estamos usando un RegexpTokenizer()método para extraer el flujo de tokens con la ayuda de expresiones regulares.

# import RegexpTokenizer() method from nltk
from nltk.tokenize import RegexpTokenizer
    
# Create a reference variable for Class RegexpTokenizer
tk = RegexpTokenizer('\s+', gaps = True)
    
# Create a string input
gfg = "I love Python"
    
# Use tokenize method
geek = tk.tokenize(gfg)
    
print(geek)

Producción :

[‘Yo’, ‘amor’, ‘Python’]

Ejemplo #2:

# import RegexpTokenizer() method from nltk
from nltk.tokenize import RegexpTokenizer
    
# Create a reference variable for Class RegexpTokenizer
tk = RegexpTokenizer('\s+', gaps = True)
    
# Create a string input
gfg = "Geeks for Geeks"
    
# Use tokenize method
geek = tk.tokenize(gfg)
    
print(geek)

Producción :

[‘Geeks’, ‘para’, ‘Geeks’]

Publicación traducida automáticamente

Artículo escrito por Jitender_1998 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *