¿Cómo escribir la salida en un archivo HTML con Python BeautifulSoup?

En este artículo, vamos a escribir el resultado en un archivo HTML con Python BeautifulSoup . BeautifulSoup es una biblioteca de python que se utiliza principalmente para el web scraping, pero en este artículo discutiremos cómo escribir la salida en un archivo HTML.

Módulos necesarios e instalación:

pip install bs4

Acercarse:

  • Primero importaremos todas las bibliotecas requeridas.
  • Realice una solicitud de obtención a la URL deseada y extraiga el contenido de su página.
  • Usando el tipo de datos de archivo de python, escriba la salida en un nuevo archivo.

Pasos a seguir:

Paso 1: Importe las bibliotecas requeridas.

Python3

# Import libraries
from bs4 import BeautifulSoup
import requests

Paso 2: realizaremos una solicitud de obtención a la página de inicio del motor de búsqueda de Google y extraeremos el contenido de la página y crearemos un objeto de sopa pasándolo a sopa hermosa, y estableceremos el marcado como html.parser.

Nota: si está extrayendo una página xml, configure el marcado como xml.parser

Python3

# set the url to perform the get request
URL = 'https://www.geeksforgeeks.org/how-to-scrape-all-pdf-files-in-a-website/'
page = requests.get(URL)
  
# load the page content
text = page.content
  
# make a soup object by using beautiful
# soup and set the markup as html parser
soup = BeautifulSoup(text, "html.parser")

Paso 3: Usamos el tipo de datos de archivo de python y escribimos el objeto de sopa en el archivo de salida. Estableceremos la codificación en UTF-8. Usaremos la función .prettify() en el objeto de sopa que hará que sea más fácil de leer. Convertiremos el objeto sopa en una string antes de escribirlo.

Guardaremos el archivo de salida en el mismo directorio con el nombre salida.html

Python3

# open the file in w mode
# set encoding to UTF-8
with open("output.html", "w", encoding = 'utf-8') as file:
    
    # prettify the soup object and convert it into a string  
    file.write(str(soup.prettify()))

A continuación se muestra la implementación completa:

Python3

# Import libraries
from bs4 import BeautifulSoup
import requests
  
# set the url to perform the get request
URL = 'https://www.geeksforgeeks.org/how-to-scrape-all-pdf-files-in-a-website/'
page = requests.get(URL)
  
# load the page content
text = page.content
  
# make a soup object by using
# beautiful soup and set the markup as html parser
soup = BeautifulSoup(text, "html.parser")
  
# open the file in w mode
# set encoding to UTF-8
with open("output.html", "w", encoding = 'utf-8') as file:
    
    # prettify the soup object and convert it into a string
    file.write(str(soup.prettify()))

Producción:

Publicación traducida automáticamente

Artículo escrito por hg070401 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *