En este artículo, vamos a escribir el resultado en un archivo HTML con Python BeautifulSoup . BeautifulSoup es una biblioteca de python que se utiliza principalmente para el web scraping, pero en este artículo discutiremos cómo escribir la salida en un archivo HTML.
Módulos necesarios e instalación:
pip install bs4
Acercarse:
- Primero importaremos todas las bibliotecas requeridas.
- Realice una solicitud de obtención a la URL deseada y extraiga el contenido de su página.
- Usando el tipo de datos de archivo de python, escriba la salida en un nuevo archivo.
Pasos a seguir:
Paso 1: Importe las bibliotecas requeridas.
Python3
# Import libraries from bs4 import BeautifulSoup import requests
Paso 2: realizaremos una solicitud de obtención a la página de inicio del motor de búsqueda de Google y extraeremos el contenido de la página y crearemos un objeto de sopa pasándolo a sopa hermosa, y estableceremos el marcado como html.parser.
Nota: si está extrayendo una página xml, configure el marcado como xml.parser
Python3
# set the url to perform the get request URL = 'https://www.geeksforgeeks.org/how-to-scrape-all-pdf-files-in-a-website/' page = requests.get(URL) # load the page content text = page.content # make a soup object by using beautiful # soup and set the markup as html parser soup = BeautifulSoup(text, "html.parser")
Paso 3: Usamos el tipo de datos de archivo de python y escribimos el objeto de sopa en el archivo de salida. Estableceremos la codificación en UTF-8. Usaremos la función .prettify() en el objeto de sopa que hará que sea más fácil de leer. Convertiremos el objeto sopa en una string antes de escribirlo.
Guardaremos el archivo de salida en el mismo directorio con el nombre salida.html
Python3
# open the file in w mode # set encoding to UTF-8 with open("output.html", "w", encoding = 'utf-8') as file: # prettify the soup object and convert it into a string file.write(str(soup.prettify()))
A continuación se muestra la implementación completa:
Python3
# Import libraries from bs4 import BeautifulSoup import requests # set the url to perform the get request URL = 'https://www.geeksforgeeks.org/how-to-scrape-all-pdf-files-in-a-website/' page = requests.get(URL) # load the page content text = page.content # make a soup object by using # beautiful soup and set the markup as html parser soup = BeautifulSoup(text, "html.parser") # open the file in w mode # set encoding to UTF-8 with open("output.html", "w", encoding = 'utf-8') as file: # prettify the soup object and convert it into a string file.write(str(soup.prettify()))
Producción: