Con la ayuda del NLTK tokenize.regexp()
módulo, podemos extraer los tokens de la string mediante el uso de expresiones regulares con el RegexpTokenizer()
método.
Sintaxis:
tokenize.RegexpTokenizer()
Retorno: Devuelve una array de tokens usando una expresión regular
Ejemplo #1:
En este ejemplo estamos usando un RegexpTokenizer()
método para extraer el flujo de tokens con la ayuda de expresiones regulares.
# import RegexpTokenizer() method from nltk from nltk.tokenize import RegexpTokenizer # Create a reference variable for Class RegexpTokenizer tk = RegexpTokenizer('\s+', gaps = True) # Create a string input gfg = "I love Python" # Use tokenize method geek = tk.tokenize(gfg) print(geek)
Producción :
[‘Yo’, ‘amor’, ‘Python’]
Ejemplo #2:
# import RegexpTokenizer() method from nltk from nltk.tokenize import RegexpTokenizer # Create a reference variable for Class RegexpTokenizer tk = RegexpTokenizer('\s+', gaps = True) # Create a string input gfg = "Geeks for Geeks" # Use tokenize method geek = tk.tokenize(gfg) print(geek)
Producción :
[‘Geeks’, ‘para’, ‘Geeks’]
Publicación traducida automáticamente
Artículo escrito por Jitender_1998 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA