Python | Realice la segmentación de oraciones usando Spacy

El proceso de decidir desde dónde comienzan o terminan las oraciones en PNL o simplemente podemos decir que aquí estamos dividiendo un párrafo basado en oraciones. Este proceso se conoce como segmentación de oraciones . En Python, implementamos esta parte de NLP utilizando la biblioteca espacial .

Spacy se utiliza para el procesamiento del lenguaje natural en Python.

Para usar esta biblioteca en nuestro programa de python, primero debemos instalarla.

Comando para instalar esta biblioteca:

pip install spacy
python -m spacy download en_core_web_sm
Here en_core_web_sm  means core English Language available online of small size.

Ejemplo:

we have the following paragraph:
"I Love Coding. Geeks for Geeks helped me in this regard very much. I Love Geeks for Geeks."
here there are 3 sentences.
1. I Love Coding.
2. Geeks for Geeks helped me in this regard very much.
3. I Love Geeks for Geeks

En python, .sentsse usa para la segmentación de oraciones que está presente dentro de espacios. La salida viene dada por .sents un generador y necesitamos usar la lista si queremos imprimirlos aleatoriamente.

Código:

#import spacy library
import spacy
  
#load core english library
nlp = spacy.load("en_core_web_sm")
  
#take unicode string  
#here u stands for unicode
doc = nlp(u"I Love Coding. Geeks for Geeks helped me in this regard very much. I Love Geeks for Geeks.")
#to print sentences
for sent in doc.sents:
  print(sent)

Salida:

ahora, si tratamos de usar doc.sents al azar, ¿qué sucede?

Código: para superar este error, primero debemos convertir este generador en una lista usando la función de lista.

#converting the generator object result in to list
doc1 = list(doc.sents)
  
#Now we can use it randomly as
doc1[1]

Producción:

Publicación traducida automáticamente

Artículo escrito por Akashkumar17 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *