Requisito previo:
Python se puede emplear para desechar información de una página web. También se puede usar para recuperar datos proporcionados dentro de una etiqueta específica, este artículo explica cómo los elementos de la lista se pueden extraer de HTML.
Módulo necesario:
- bs4: Beautiful Soup (bs4) es una biblioteca de Python para extraer datos de archivos HTML y XML. Este módulo no viene integrado con Python. Para instalar este tipo, escriba el siguiente comando en la terminal.
pip install bs4
- requests: Requests le permite enviar requests HTTP/1.1 con mucha facilidad. Este módulo tampoco viene integrado con Python. Para instalar este tipo, escriba el siguiente comando en la terminal.
pip install requests
Acercarse:
- Módulo de importación
- Obtener código HTML usando el módulo de requests
- Encuentre todas las etiquetas de la lista usando el método find_all() .
- Iterar a través de todas las etiquetas de lista y obtener texto usando textproperty
Ejemplo 1: lista de extracción de código HTML
Python3
# Import Required Modules from bs4 import BeautifulSoup import requests # HTML Code html_content = """ <ul> <li>Coffee</li> <li>Tea</li> <li>Milk</li> </ul> """ # Parse the html content soup = BeautifulSoup(html_content, "lxml") # Find all li tag datas = soup.find_all("li") # Iterate through all li tags for data in datas: # Get text from each tag print(data.text) print(f"Total {len(datas)} li tag found")
Producción:
Café
Té
Leche
Total de 3 etiquetas li encontradas
Ejemplo 2: lista de extracción de URL web
Python3
# Import Required Modules from bs4 import BeautifulSoup import requests # HTML Code html_content = """ <ul> <li>Coffee</li> <li>Tea</li> <li>Milk</li> </ul> """ # Parse the html content soup = BeautifulSoup(html_content, "lxml") # Find all li tag datas = soup.find_all("li") # Iterate through all li tags for data in datas: # Get text from each tag print(data.text) print(f"Total {len(datas)} li tag found")
Producción: