BeautifulSoup – Lista de raspado de HTML

Requisito previo: 

Python se puede emplear para desechar información de una página web. También se puede usar para recuperar datos proporcionados dentro de una etiqueta específica, este artículo explica cómo los elementos de la lista se pueden extraer de HTML.

Módulo necesario:

  • bs4: Beautiful Soup (bs4) es una biblioteca de Python para extraer datos de archivos HTML y XML. Este módulo no viene integrado con Python. Para instalar este tipo, escriba el siguiente comando en la terminal.
pip install bs4
  • requests: Requests le permite enviar requests HTTP/1.1 con mucha facilidad. Este módulo tampoco viene integrado con Python. Para instalar este tipo, escriba el siguiente comando en la terminal.
pip install requests

Acercarse:

  • Módulo de importación
  • Obtener código HTML usando el módulo de requests
  • Encuentre todas las etiquetas de la lista usando el método find_all() .
  • Iterar a través de todas las etiquetas de lista y obtener texto usando textproperty

Ejemplo 1: lista de extracción de código HTML

Python3

# Import Required Modules
from bs4 import BeautifulSoup
import requests
 
# HTML Code
html_content = """
<ul>
  <li>Coffee</li>
  <li>Tea</li>
  <li>Milk</li>
</ul>
"""
 
# Parse the html content
soup = BeautifulSoup(html_content, "lxml")
 
# Find all li tag
datas = soup.find_all("li")
 
# Iterate through all li tags
for data in datas:
    # Get text from each tag
    print(data.text)
 
print(f"Total {len(datas)} li tag found")

Producción:

Café

Leche

Total de 3 etiquetas li encontradas

Ejemplo 2: lista de extracción de URL web

Python3

# Import Required Modules
from bs4 import BeautifulSoup
import requests
 
# HTML Code
html_content = """
<ul>
  <li>Coffee</li>
  <li>Tea</li>
  <li>Milk</li>
</ul>
"""
 
# Parse the html content
soup = BeautifulSoup(html_content, "lxml")
 
# Find all li tag
datas = soup.find_all("li")
 
# Iterate through all li tags
for data in datas:
    # Get text from each tag
    print(data.text)
 
print(f"Total {len(datas)} li tag found")

Producción:

Publicación traducida automáticamente

Artículo escrito por abhigoya y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *