Requisito previo: módulo Beautifulsoup
En este artículo, vamos a redactar un script de python que elimina una etiqueta del árbol y luego la destruye por completo junto con su contenido. Para esto, se utiliza el método decompose() que viene integrado en el módulo.
Sintaxis:
Beautifulsoup.Tag.decompose()
Tag.decompose() elimina una etiqueta del árbol de un documento HTML determinado y luego la destruye por completo junto con su contenido.
Implementación:
Ejemplo 1:
Python3
# import module from bs4 import BeautifulSoup # URL for scrapping data markup = '<a href="https://www.geeksforgeeks.org/">Welcome to <i>geeksforgeeks.com</i></a>' # get URL html soup = BeautifulSoup(markup, 'html.parser') # display before decompose print("Before Decompose") print(soup.a) # decomposing the # soup data new_tag = soup.a.decompose() print("After decomposing:") print(new_tag)
Producción:
antes de descomponer
<a href=”https://www.geeksforgeeks.org/”>Bienvenido a <i>geeksforgeeks.com</i></a>
Después de descomponer:
Ninguna
Ejemplo 2: Implementación de URL dada para raspar el documento HTML.
Python3
# import module from bs4 import BeautifulSoup import requests # Get URL html # Scraping the data from # Html doc url = 'https://www.geeksforgeeks.org/' reqs = requests.get(url) soup = BeautifulSoup(reqs.text, 'html.parser') # Before decomposing print("Before Decomposing") print(soup) # decompose the soup result = soup.decompose() print("After decomposing:") print(result)
Producción:
antes de descomponerse
<!DOCTYPEhtml>
<!–[si IE 7]>
<html class=”ie ie7″ lang=”en-US” prefix=”og: http://ogp.me/ns#”>
<![fin]–>
<!–[si IE 8]>
<html class=”ie ie8″ lang=”en-US” prefix=”og: http://ogp.me/ns#”>
<![fin]–>
<!–[si!(IE 7) | !(IE 8) ]><!–>
<html lang=”en-US” prefijo=”og: http://ogp.me/ns#”>
<!–<![fin]–>
<cabeza>
<juego de caracteres meta=”utf-8″/>..
……
Después de descomponer:
Ninguna
Publicación traducida automáticamente
Artículo escrito por kumar_satyam y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA