Con la ayuda del nltk.tokenize.LineTokenizer()
método, podemos extraer los tokens de una string de oraciones en forma de una sola línea usando el tokenize.LineTokenizer()
método.
Sintaxis:
tokenize.LineTokenizer()
Retorno: Retorna los tokens de línea del flujo de oraciones.
Ejemplo n.º 1:
en este ejemplo, podemos ver que al usar tokenize.LineTokenizer()
el método, podemos extraer los tokens del flujo de oraciones en líneas pequeñas.
# import LineTokenizer() method from nltk from nltk.tokenize import LineTokenizer # Create a reference variable for Class LineTokenizer tk = LineTokenizer() # Create a string input gfg = "GeeksforGeeks...$$&* \nis\n for geeks" # Use tokenize method geek = tk.tokenize(gfg) print(geek)
Producción :
[‘GeeksforGeeks…$$&* ‘, ‘es’, ‘para geeks’]
Ejemplo #2:
# import LineTokenizer() method from nltk from nltk.tokenize import LineTokenizer # Create a reference variable for Class LineTokenizer tk = LineTokenizer(blanklines ='keep') # Create a string input gfg = "The price\n\n of burger \nin BurgerKing is Rs.36.\n" # Use tokenize method geek = tk.tokenize(gfg) print(geek)
Producción :
[‘El precio’, ”, ‘de la hamburguesa’, ‘en BurgerKing es Rs.36.’]
Publicación traducida automáticamente
Artículo escrito por Jitender_1998 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA