En este artículo, veremos cómo eliminar la etiqueta de contenido de HTML usando BeautifulSoup. BeautifulSoup es una biblioteca de python utilizada para extraer archivos html y xml.
Módulos necesarios:
BeautifulSoup: nuestro módulo principal contiene un método para acceder a una página web a través de HTTP.
Para la instalación, ejecute este comando en su terminal:
pip install bs4
Acercarse:
- Primero, importaremos las bibliotecas requeridas.
- Leeremos el archivo html o texto.
- Enviaremos el texto extraído al objeto de sopa.
- Luego encontraremos la etiqueta requerida y luego borraremos su elemento.
Implementación paso a paso :
Paso 1: Inicializaremos el programa, importaremos las bibliotecas y leeremos o crearemos el documento HTML que queremos sopa.
Python3
# Importing libraries from bs4 import BeautifulSoup # Reading the html text we want to parse text = "<html> <head><title> Welcome </title></head><body><h1>This is a test page</h1></body></html>"
Paso 2: Pasaremos el texto recuperado al objeto de sopa y configuraremos el analizador, en este caso estamos usando un analizador html. Otros marcados que se pueden usar son xml o html5. Luego mencionaremos la etiqueta de la que tenemos que quitar el contenido.
Python3
# creating a soup soup = BeautifulSoup(text,"html.parser") # printing the content in h1 tag print(f"Content of h1 tag is: {soup.h1}")
Producción:
Paso 3: Usaremos la función .clear. Borra el contenido de la etiqueta mencionada.
Python3
# clearing the content of the tag soup.h1.clear() # printing the content in h1 tag after clearing print(f"Content of h1 tag after clearing: {soup.h1}")
A continuación se muestra la implementación completa:
Python3
# Importing libraries from bs4 import BeautifulSoup # Reading the html text we want to parse text = "<html> <head><title> Welcome </title></head><body><h1>This is a test page</h1></body></html>" # creating a soup soup = BeautifulSoup(text,"html.parser") # printing the content in h1 tag print(f"Content of h1 tag is: {soup.h1}") # clearing the content of the tag soup.h1.clear() # printing the content in h1 tag after clearing print(f"Content of h1 tag after clearing: {soup.h1}")