BeautifulSoup – Eliminar el contenido de la etiqueta

En este artículo, veremos cómo eliminar la etiqueta de contenido de HTML usando BeautifulSoup. BeautifulSoup es una biblioteca de python utilizada para extraer archivos html y xml.

Módulos necesarios:

BeautifulSoup: nuestro módulo principal contiene un método para acceder a una página web a través de HTTP.

Para la instalación, ejecute este comando en su terminal:

pip install bs4

Acercarse:

  • Primero, importaremos las bibliotecas requeridas.
  • Leeremos el archivo html o texto.
  • Enviaremos el texto extraído al objeto de sopa.
  • Luego encontraremos la etiqueta requerida y luego borraremos su elemento.

Implementación paso a paso :

Paso 1: Inicializaremos el programa, importaremos las bibliotecas y leeremos o crearemos el documento HTML que queremos sopa.

Python3

# Importing libraries
from bs4 import BeautifulSoup
  
# Reading the html text we want to parse
text = "<html> <head><title> Welcome </title></head><body><h1>This is a test page</h1></body></html>"

Paso 2: Pasaremos el texto recuperado al objeto de sopa y configuraremos el analizador, en este caso estamos usando un analizador html. Otros marcados que se pueden usar son xml o html5. Luego mencionaremos la etiqueta de la que tenemos que quitar el contenido.

Python3

# creating a soup
soup = BeautifulSoup(text,"html.parser")
  
# printing the content in h1 tag
print(f"Content of h1 tag is: {soup.h1}")

Producción:

Paso 3: Usaremos la función .clear. Borra el contenido de la etiqueta mencionada.

Python3

# clearing the content of the tag
soup.h1.clear()
  
# printing the content in h1 tag after clearing
print(f"Content of h1 tag after clearing: {soup.h1}")

A continuación se muestra la implementación completa:

Python3

# Importing libraries
from bs4 import BeautifulSoup
  
# Reading the html text we want to parse
text = "<html> <head><title> Welcome </title></head><body><h1>This is a test page</h1></body></html>"
  
# creating a soup
soup = BeautifulSoup(text,"html.parser")
  
# printing the content in h1 tag
print(f"Content of h1 tag is: {soup.h1}")
  
# clearing the content of the tag
soup.h1.clear()
  
# printing the content in h1 tag after clearing
print(f"Content of h1 tag after clearing: {soup.h1}")

Publicación traducida automáticamente

Artículo escrito por hg070401 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *