Objeto BeautifulSoup – Python Beautifulsoup

El objeto BeautifulSoup lo proporciona Beautiful Soup, que es un marco de web scraping para Python. El raspado web es el proceso de extracción de datos del sitio web utilizando herramientas automatizadas para acelerar el proceso. El objeto BeautifulSoup representa el documento analizado como un todo. Para la mayoría de los propósitos, puede tratarlo como un objeto Tag.

Sintaxis:  BeautifulSoup(documento, analizador)

Parámetros: Esta función acepta dos parámetros como se explica a continuación: 

  • documento: este parámetro contiene el documento XML o HTML.
  • analizador: este parámetro contiene el nombre del analizador que se utilizará para analizar el documento.

Los siguientes ejemplos explican el concepto de objeto BeautifulSoup en Beautiful Soup.  
Ejemplo 1: en este ejemplo, vamos a crear un documento con un objeto BeautifulSoup e imprimir una etiqueta.

Python3

# Import Beautiful Soup
from bs4 import BeautifulSoup
  
# Initialize the object with a HTML page
soup = BeautifulSoup('''
    <html>
        <h2> Heading 1 </h2>
        <h1> Heading 2 </h1>
    </html>
    ''', "lxml")
  
# Get the whole h2 tag
tag = soup.h2
  
# Print the tag
print(tag)

Producción: 

<h2> Heading 1 </h2>

Ejemplo 2: en este ejemplo, vamos a crear un documento con un objeto BeautifulSoup y luego extraer los atributos utilizando el enfoque attrs.

Python3

# Import Beautiful Soup
from bs4 import BeautifulSoup
  
# Initialize the object with a HTML page
soup = BeautifulSoup('''
      
        <h2 class="hello"> Heading 1 </h2>
        <h1> Heading 2 </h1>
      
    ''', "lxml")
  
# Get the whole h2 tag
tag = soup.h2
  
# Get the attribute
attribute = tag.attrs
  
# Print the output
print(attribute)

Producción: 

{'class': ['hello']}

Publicación traducida automáticamente

Artículo escrito por gurrrung y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *