Requisito previo: Implementar Web Scraping en Python con BeautifulSoup
En este artículo vamos a ver cómo extraer CSS de un documento HTML o URL usando python.
Módulo necesario:
- bs4: Beautiful Soup (bs4) es una biblioteca de Python para extraer datos de archivos HTML y XML. Este módulo no viene integrado con Python. Para instalar este tipo, escriba el siguiente comando en la terminal.
pip install bs4
- requests: Requests le permite enviar requests HTTP/1.1 con mucha facilidad. Este módulo tampoco viene integrado con Python. Para instalar este tipo, escriba el siguiente comando en la terminal.
pip install requests
Acercarse:
- Módulo de importación
- Cree un documento HTML y especifique la etiqueta CSS en el código
- Pase el documento HTML a la función Beautifulsoup()
- Ahora recorra la etiqueta con el método select().
Implementación:
Python3
# import module from bs4 import BeautifulSoup # Html doc html_doc = """ <html> <head> <title>Geeks</title> </head> <body> <h2>paragraphs</h2> <p>Welcome geeks.</p> <p>Hello geeks.</p> <a class="example" href="www.geeksforgeeks.com" id="dsx_23">java</a> <a class="example" href="www.geeksforgeeks.com/python" id="sdcsdsdf">python</a> </body> </html> """ soup = BeautifulSoup(html_doc, "lxml") # traverse CSS from soup print("display by CSS class:") print(soup.select(".example"))
Producción:
display by CSS class: [<a class="example" href="www.geeksforgeeks.com" id="dsx_23">java</a>, <a class="example" href="www.geeksforgeeks.com/python" id="sdcsdsdf">python</a>]
Ahora obtengamos la etiqueta CSS con URL:
Python3
# import module from bs4 import BeautifulSoup import requests # link for extract html data # Making a GET request def getdata(url): r=requests.get(url) return r.text html_doc = getdata('https://www.geeksforgeeks.org/') soup = BeautifulSoup(html_doc,"lxml") # traverse CSS from soup print("\nTags by CSS class:") print(soup.select(".header-main__wrapper"))
Producción:
Publicación traducida automáticamente
Artículo escrito por kumar_satyam y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA