Etiqueta Objeto – Python Beautifulsoup

El objeto de etiqueta lo proporciona Beautiful Soup, que es un marco de web scraping para Python. El raspado web es el proceso de extracción de datos del sitio web utilizando herramientas automatizadas para acelerar el proceso. El objeto de etiqueta corresponde a una etiqueta XML o HTML en el documento original. Además, este objeto generalmente se usa para extraer una etiqueta de todo el documento HTML. Además, Beautiful Soup no es un cliente HTTP, lo que significa que para descartar sitios web en línea, primero debe descargarlos usando el módulo de requests y luego enviarlo a Beautiful Soup para eliminarlos. Además, este objeto devuelve la primera etiqueta encontrada si su documento tiene varias etiquetas con el mismo nombre.

Requisito previo: Hermosa instalación de sopa

Sintaxis:

Object.tag_name

Parámetros: Esta función no acepta ningún parámetro.

Los siguientes ejemplos explican el concepto de objeto Tag en Beautiful Soup.
Ejemplo 1: en este ejemplo vamos a extraer solo el elemento de etiqueta h1 .

# Import Beautiful Soup
from bs4 import BeautifulSoup
  
# Initialize the object with an HTML page
soup = BeautifulSoup('''
    <html>
        <h1>a web page</h1>
    </html>
    ''', "lxml")
  
# Get the tag
tag = soup.h1
  
# Print the output
print(tag)

Producción:

<h1>a web page</h1>

Ejemplo 2: En este ejemplo vamos a ver solo el tipo de elemento de etiqueta fuerte .

# Import Beautiful Soup
from bs4 import BeautifulSoup
  
# Initialize the object with an HTML page
soup = BeautifulSoup('''
    <html>
        <strong>a web page</strong>
    </html>
    ''', "lxml")
  
# Get the tag
tag = soup.strong
  
# Print the output
print(type(tag))

Producción:

<class 'bs4.element.Tag'>

Ejemplo 3: En este ejemplo vamos a ver el resultado de un HTML con varias etiquetas.

# Import Beautiful Soup
from bs4 import BeautifulSoup
  
# Initialize the object with a HTML page
soup = BeautifulSoup('''
    <html>
        <strong>the first strong tag</strong>
        <h1> Heading </h1>
        <strong>the second strong tag</strong>
    </html>
    ''', "lxml")
  
# Get the tag
tag = soup.strong
  
# Print the output
print(tag)

Producción:

<strong>the first strong tag</strong>

Publicación traducida automáticamente

Artículo escrito por gurrrung y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta Cancelar la respuesta