Scraping de sitios web con Newspaper3k en Python

Web Scraping es una poderosa herramienta para recopilar información de un sitio web. Para raspar varias URL, podemos usar una biblioteca de Python llamada Newspaper3k . El paquete Newspaper3k es una biblioteca de Python utilizada para artículos de Web Scraping. Está construido sobre requests y para analizar lxml . Este módulo es una versión mejorada y modificada del módulo Periódico que también se utiliza para el mismo propósito.

Instalación:

Para instalar este módulo, escriba el siguiente comando en la terminal.

pip install newspaper3k

Enfoque paso a paso:

  1. Primero definiremos una lista que contiene las URL o asignaremos una sola URL.
  2. Crearemos un objeto Article pasando parámetros como el nombre de la URL y parámetros opcionales como language=’en’, para inglés
  3. A continuación, descargaremos y analizaremos el archivo.
  4. Finalmente, muestre los datos extraídos.

A continuación se muestran algunos ejemplos basados ​​en el enfoque anterior:

Ejemplo 1

A continuación se muestra un programa para desechar datos de una URL determinada.

Python3

# Import required module
import newspaper
 
# Assign url
url = 'https://www.geeksforgeeks.org/top-5-open-source-online-machine-learning-environments/'
 
# Extract web data
url_i = newspaper.Article(url="%s" % (url), language='en')
url_i.download()
url_i.parse()
 
# Display scrapped data
print(url_i.text)

Producción:

Ejemplo 2

Aquí, desechamos datos de varias URL y luego los mostramos.

Python3

# Import required modules
import newspaper
 
# Define list of urls
list_of_urls = ['https://www.geeksforgeeks.org/how-to-get-the-magnitude-of-a-vector-in-numpy/',
                'https://www.geeksforgeeks.org/3d-wireframe-plotting-in-python-using-matplotlib/',
                'https://www.geeksforgeeks.org/difference-between-small-data-and-big-data/']
 
# Parse through each url and display its content
for url in list_of_urls:
    url_i = newspaper.Article(url="%s" % (url), language='en')
    url_i.download()
    url_i.parse()
    print(url_i.text)

Producción:

Publicación traducida automáticamente

Artículo escrito por sangy987 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *