Elimine todas las etiquetas de estilo, secuencias de comandos y HTML con BeautifulSoup

Requisito previo: BeautifulSoup , Requests

elimine todas las etiquetas de estilo, secuencias de comandos y HTML con un jabón hermoso.

Módulos Requeridos:

  • bs4: Beautiful Soup (bs4) es una biblioteca de Python que se utiliza principalmente para extraer datos de HTML, XML y otros lenguajes de marcado. Es una de las bibliotecas más utilizadas para Web Scraping. 
    Ejecute el siguiente comando en la terminal para instalar esta biblioteca:
pip install bs4
  • requests: esta biblioteca se utiliza para realizar requests HTTP en python.
    Ejecute el siguiente comando en la terminal para instalar esta biblioteca:
pip install requests

Acercarse:

  • Importar biblioteca bs4
  • Crear un documento HTML
  • Analizar el contenido en un objeto BeautifulSoup
  • Iterar sobre los datos para eliminar las etiquetas del documento usando el método decompose()
  • Use el método stripped_strings() para recuperar el contenido de la etiqueta
  • Imprimir los datos extraídos

Implementación:

Python3

# Import Module
from bs4 import BeautifulSoup
  
# HTML Document
HTML_DOC = """
              <html>
                <head>
                    <title> Geeksforgeeks </title>
                    <style>.call {background-color:black;} </style>
                    <script>getit</script>
                </head>
                <body>
                    is a
                    <div>Computer Science portal.</div>
                </body>
              </html>
            """
  
# Function to remove tags
def remove_tags(html):
  
    # parse html content
    soup = BeautifulSoup(html, "html.parser")
  
    for data in soup(['style', 'script']):
        # Remove tags
        data.decompose()
  
    # return data by retrieving the tag content
    return ' '.join(soup.stripped_strings)
  
  
# Print the extracted data
print(remove_tags(HTML_DOC))

Producción:

Geeksforgeeks is a Computer Science portal.

Eliminación de todas las etiquetas de estilo, secuencias de comandos y HTML de una URL

Acercarse:

  • Importar bs4 y biblioteca de requests
  • Obtenga contenido de la URL dada usando la instancia de requests
  • Analizar el contenido en un objeto BeautifulSoup
  • Iterar sobre los datos para eliminar las etiquetas del documento usando el método decompose()
  • Use el método stripped_strings() para recuperar el contenido de la etiqueta
  • Imprimir los datos extraídos

Implementación:

Python3

# Import Module
from bs4 import BeautifulSoup
import requests
  
# Website URL
URL = 'https://www.geeksforgeeks.org/data-structures/'
  
# Page content from Website URL
page = requests.get(URL)
  
# Function to remove tags
def remove_tags(html):
  
    # parse html content
    soup = BeautifulSoup(html, "html.parser")
  
    for data in soup(['style', 'script']):
        # Remove tags
        data.decompose()
  
    # return data by retrieving the tag content
    return ' '.join(soup.stripped_strings)
  
  
# Print the extracted data
print(remove_tags(page.content))

Producción:

Publicación traducida automáticamente

Artículo escrito por yuvraj_chandra y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *