¿Cómo eliminar etiquetas usando BeautifulSoup en Python?

Requisito previo: módulo Beautifulsoup

En este artículo, vamos a redactar un script de python que elimina una etiqueta del árbol y luego la destruye por completo junto con su contenido. Para esto, se utiliza el método decompose() que viene integrado en el módulo.

Sintaxis:

Beautifulsoup.Tag.decompose()

Tag.decompose() elimina una etiqueta del árbol de un documento HTML determinado y luego la destruye por completo junto con su contenido.

Implementación:

Ejemplo 1:

Python3

# import module
from bs4 import BeautifulSoup
  
# URL for scrapping data 
markup = '<a href="https://www.geeksforgeeks.org/">Welcome to <i>geeksforgeeks.com</i></a>'
  
# get URL html 
soup = BeautifulSoup(markup, 'html.parser')
  
# display before decompose
print("Before Decompose")
print(soup.a)
  
# decomposing the
# soup data
new_tag = soup.a.decompose()
print("After decomposing:")
print(new_tag)

Producción:

antes de descomponer

<a href=”https://www.geeksforgeeks.org/”>Bienvenido a <i>geeksforgeeks.com</i></a>

Después de descomponer:

Ninguna
 

Ejemplo 2: Implementación de URL dada para raspar el documento HTML.

Python3

# import module
from bs4 import BeautifulSoup
import requests
  
# Get URL html
# Scraping the data from
# Html doc
url = 'https://www.geeksforgeeks.org/'
reqs = requests.get(url)
soup = BeautifulSoup(reqs.text, 'html.parser')
  
# Before decomposing
print("Before Decomposing")
print(soup)
  
# decompose the soup
result = soup.decompose()
print("After decomposing:")
print(result)

Producción:

antes de descomponerse

<!DOCTYPEhtml>

<!–[si IE 7]>

<html class=”ie ie7″ lang=”en-US” prefix=”og: http://ogp.me/ns#”>

<![fin]–>

<!–[si IE 8]>

<html class=”ie ie8″ lang=”en-US” prefix=”og: http://ogp.me/ns#”>

<![fin]–>

<!–[si!(IE 7) | !(IE 8) ]><!–>

<html lang=”en-US” prefijo=”og: http://ogp.me/ns#”>

<!–<![fin]–>

<cabeza>

<juego de caracteres meta=”utf-8″/>..

……

Después de descomponer:

Ninguna
 

Publicación traducida automáticamente

Artículo escrito por kumar_satyam y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *