Extraiga la etiqueta CSS de un HTML dado usando Python

Requisito previo: Implementar Web Scraping en Python con BeautifulSoup

En este artículo vamos a ver cómo extraer CSS de un documento HTML o URL usando python.

 Módulo necesario:

  • bs4: Beautiful Soup (bs4) es una biblioteca de Python para extraer datos de archivos HTML y XML. Este módulo no viene integrado con Python. Para instalar este tipo, escriba el siguiente comando en la terminal.
pip install bs4
  • requests: Requests le permite enviar requests HTTP/1.1 con mucha facilidad. Este módulo tampoco viene integrado con Python. Para instalar este tipo, escriba el siguiente comando en la terminal.
pip install requests

Acercarse:

  • Módulo de importación
  • Cree un documento HTML y especifique la etiqueta CSS en el código
  • Pase el documento HTML a la función Beautifulsoup()
  • Ahora recorra la etiqueta con el método select().

Implementación:

Python3

# import module
from bs4 import BeautifulSoup
  
# Html doc
html_doc = """
<html>
<head>
<title>Geeks</title>
</head>
<body>
<h2>paragraphs</h2>
  
<p>Welcome geeks.</p>
  
  
<p>Hello geeks.</p>
  
<a class="example" href="www.geeksforgeeks.com" id="dsx_23">java</a>
<a class="example" href="www.geeksforgeeks.com/python"  id="sdcsdsdf">python</a>
</body>
</html>
"""
soup = BeautifulSoup(html_doc, "lxml")
  
# traverse CSS from soup
print("display by CSS class:")
print(soup.select(".example"))

Producción:

display by CSS class:
[<a class="example" href="www.geeksforgeeks.com" id="dsx_23">java</a>, 
<a class="example" href="www.geeksforgeeks.com/python" id="sdcsdsdf">python</a>]

Ahora obtengamos la etiqueta CSS con URL:

Python3

# import module
from bs4 import BeautifulSoup
import requests
  
# link for extract html data
# Making a GET request 
      
def getdata(url):
    r=requests.get(url)
    return r.text
html_doc = getdata('https://www.geeksforgeeks.org/')
soup = BeautifulSoup(html_doc,"lxml")
  
# traverse CSS from soup
  
print("\nTags by CSS class:")
print(soup.select(".header-main__wrapper"))

Producción:

Publicación traducida automáticamente

Artículo escrito por kumar_satyam y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *