El objeto de etiqueta lo proporciona Beautiful Soup, que es un marco de web scraping para Python. El raspado web es el proceso de extracción de datos del sitio web utilizando herramientas automatizadas para acelerar el proceso. El objeto de etiqueta corresponde a una etiqueta XML o HTML en el documento original. Además, este objeto generalmente se usa para extraer una etiqueta de todo el documento HTML. Además, Beautiful Soup no es un cliente HTTP, lo que significa que para descartar sitios web en línea, primero debe descargarlos usando el módulo de requests y luego enviarlo a Beautiful Soup para eliminarlos. Además, este objeto devuelve la primera etiqueta encontrada si su documento tiene varias etiquetas con el mismo nombre.
Requisito previo: Hermosa instalación de sopa
Sintaxis:
Object.tag_name
Parámetros: Esta función no acepta ningún parámetro.
Los siguientes ejemplos explican el concepto de objeto Tag en Beautiful Soup.
Ejemplo 1: en este ejemplo vamos a extraer solo el elemento de etiqueta h1 .
# Import Beautiful Soup from bs4 import BeautifulSoup # Initialize the object with an HTML page soup = BeautifulSoup(''' <html> <h1>a web page</h1> </html> ''', "lxml") # Get the tag tag = soup.h1 # Print the output print(tag)
Producción:
<h1>a web page</h1>
Ejemplo 2: En este ejemplo vamos a ver solo el tipo de elemento de etiqueta fuerte .
# Import Beautiful Soup from bs4 import BeautifulSoup # Initialize the object with an HTML page soup = BeautifulSoup(''' <html> <strong>a web page</strong> </html> ''', "lxml") # Get the tag tag = soup.strong # Print the output print(type(tag))
Producción:
<class 'bs4.element.Tag'>
Ejemplo 3: En este ejemplo vamos a ver el resultado de un HTML con varias etiquetas.
# Import Beautiful Soup from bs4 import BeautifulSoup # Initialize the object with a HTML page soup = BeautifulSoup(''' <html> <strong>the first strong tag</strong> <h1> Heading </h1> <strong>the second strong tag</strong> </html> ''', "lxml") # Get the tag tag = soup.strong # Print the output print(tag)
Producción:
<strong>the first strong tag</strong>