El objeto BeautifulSoup lo proporciona Beautiful Soup, que es un marco de web scraping para Python. El raspado web es el proceso de extracción de datos del sitio web utilizando herramientas automatizadas para acelerar el proceso. El objeto BeautifulSoup representa el documento analizado como un todo. Para la mayoría de los propósitos, puede tratarlo como un objeto Tag.
Sintaxis: BeautifulSoup(documento, analizador)
Parámetros: Esta función acepta dos parámetros como se explica a continuación:
- documento: este parámetro contiene el documento XML o HTML.
- analizador: este parámetro contiene el nombre del analizador que se utilizará para analizar el documento.
Los siguientes ejemplos explican el concepto de objeto BeautifulSoup en Beautiful Soup.
Ejemplo 1: en este ejemplo, vamos a crear un documento con un objeto BeautifulSoup e imprimir una etiqueta.
Python3
# Import Beautiful Soup from bs4 import BeautifulSoup # Initialize the object with a HTML page soup = BeautifulSoup(''' <html> <h2> Heading 1 </h2> <h1> Heading 2 </h1> </html> ''', "lxml") # Get the whole h2 tag tag = soup.h2 # Print the tag print(tag)
Producción:
<h2> Heading 1 </h2>
Ejemplo 2: en este ejemplo, vamos a crear un documento con un objeto BeautifulSoup y luego extraer los atributos utilizando el enfoque attrs.
Python3
# Import Beautiful Soup from bs4 import BeautifulSoup # Initialize the object with a HTML page soup = BeautifulSoup(''' <h2 class="hello"> Heading 1 </h2> <h1> Heading 2 </h1> ''', "lxml") # Get the whole h2 tag tag = soup.h2 # Get the attribute attribute = tag.attrs # Print the output print(attribute)
Producción:
{'class': ['hello']}