Scraping En este artículo, vamos a escribir secuencias de comandos de Python para extraer todas las URL del sitio web o puede guardarlas como un archivo CSV.
Módulo necesario:
- bs4 : Beautiful Soup (bs4) es una biblioteca de Python para extraer datos de archivos HTML y XML. Este módulo no viene integrado con Python. Para instalar este tipo, escriba el siguiente comando en la terminal.
pip install bs4
- requests : Requests le permite enviar requests HTTP/1.1 muy fácilmente. Este módulo tampoco viene integrado con Python. Para instalar este tipo, escriba el siguiente comando en la terminal.
pip install requests
Acercarse:
- Módulo de importación
- Hacer una instancia de requests y pasar a la URL
- Pase las requests a una función Beautifulsoup()
- Use la etiqueta ‘a’ para encontrar todas las etiquetas (‘a href’)
Ejemplo 1:
Python3
import requests from bs4 import BeautifulSoup url = 'https://www.geeksforgeeks.org/' reqs = requests.get(url) soup = BeautifulSoup(reqs.text, 'html.parser') urls = [] for link in soup.find_all('a'): print(link.get('href'))
Producción:
Ejemplo 2:
Extraer URL y guardar como archivos CSV.
Python3
import requests from bs4 import BeautifulSoup urls = 'https://www.geeksforgeeks.org/' grab = requests.get(urls) soup = BeautifulSoup(grab.text, 'html.parser') # opening a file in write mode f = open("test1.txt", "w") # traverse paragraphs from soup for link in soup.find_all("a"): data = link.get('href') f.write(data) f.write("\n") f.close()
Producción:
Publicación traducida automáticamente
Artículo escrito por kumar_satyam y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA