Python | Resumen de texto extractivo usando Gensim

El resumen es una herramienta útil para diversas aplicaciones textuales que tiene como objetivo resaltar información importante dentro de un gran corpus. Con la explosión de información en la web, Python proporciona algunas herramientas útiles para ayudar a resumir un texto. Este artículo proporciona una descripción general de las dos principales categorías de enfoques seguidos: extractivo y abstractivo. En este artículo, veremos un ejemplo práctico de resumen extractivo .
 

Algoritmo: 
a continuación se muestra el algoritmo implementado en la biblioteca gensim, llamado «TextRank» , que se basa en el algoritmo PageRank para clasificar los resultados de búsqueda.

  1. Preprocesar el texto dado. Esto incluye la eliminación de palabras vacías, la eliminación de puntuación y la lematización.
  2. Haz un gráfico con oraciones que sean los vértices.
  3. El gráfico tiene bordes que denotan la similitud entre las dos oraciones en los vértices.
  4. Ejecute el algoritmo PageRank en este gráfico ponderado.
  5. Elija los vértices con la puntuación más alta y agréguelos al resumen.
  6. Según la proporción o el recuento de palabras, se decide el número de vértices que se seleccionarán.

Código: Resume un artículo de Wikipedia basado en (a) proporción y (b) número de palabras.
 

Python

from gensim.summarization.summarizer import summarize
from gensim.summarization import keywords
import wikipedia
import en_core_web_sm
 
# Get wiki content.
wikisearch = wikipedia.page("Amitabh Bachchan")
wikicontent = wikisearch.content
nlp = en_core_web_sm.load()
doc = nlp(wikicontent)
 
# Save the wiki content to a file
# (for reference).
f = open("wikicontent.txt", "w")
f.write(wikicontent)
f.close()
 
# Summary (0.5% of the original content).
summ_per = summarize(wikicontent, ratio = 0.05)
print("Percent summary")
print(summ_per)
 
# Summary (200 words)
summ_words = summarize(wikicontent, word_count = 200)
print("Word count summary")
print(summ_words)

Producción 
 

Percent summary
Amitabh Bachchan (pronounced [?m??ta?b? ?b?t???n]; born Inquilaab Srivastava;
11 October 1942) is an Indian film actor, film producer, television host, 
occasional playback singer and former politician. He first gained popularity
in the early 1970s for films such as Zanjeer, Deewaar and Sholay, and was
dubbed India's "angry young man" for his on-screen roles in Bollywood.
.
.
.
Apart from National Film Awards, Filmfare Awards and other competitive awards
which Bachchan won for his performances throughout the years, he has been 
awarded several honours for his achievements in the Indian film industry.
Word count summary
Beyond the Indian subcontinent, he also has a large overseas following 
in markets including Africa (such as South Africa), the Middle East 
(especially Egypt), United Kingdom, Russia and parts of the United 
States. Bachchan has won numerous accolades in his career, including 
four National Film Awards as Best Actor and many awards at 
international film festivals and award ceremonies.
.
.
.
After a three year stint in politics from 1984 to 1987, Bachchan 
returned to films in 1988, playing the title role in Shahenshah, 
which was a box office success.

Publicación traducida automáticamente

Artículo escrito por Anannya Uberoi 1 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *