Raspado En este artículo, vamos a ver cómo raspar imágenes de sitios web usando python. Para raspar imágenes, probaremos diferentes enfoques.
Método 1: Uso de BeautifulSoup y Requests
- bs4 : Beautiful Soup (bs4) es una biblioteca de Python para extraer datos de archivos HTML y XML. Este módulo no viene integrado con Python. Para instalar este tipo, escriba el siguiente comando en la terminal.
pip install bs4
- requests : Requests le permite enviar requests HTTP/1.1 muy fácilmente. Este módulo tampoco viene integrado con Python. Para instalar este tipo, escriba el siguiente comando en la terminal.
pip install requests
Acercarse:
- Módulo de importación
- Hacer una instancia de requests y pasar a la URL
- Pase las requests a una función Beautifulsoup()
- Use la etiqueta ‘img’ para encontrar todas las etiquetas (‘src’)
Implementación:
Python3
import requests from bs4 import BeautifulSoup def getdata(url): r = requests.get(url) return r.text htmldata = getdata("https://www.geeksforgeeks.org/") soup = BeautifulSoup(htmldata, 'html.parser') for item in soup.find_all('img'): print(item['src'])
Producción:
https://media.geeksforgeeks.org/wp-content/cdn-uploads/20201018234700/GFG-RT-DSA-Creative.png
https://media.geeksforgeeks.org/wp-content/cdn-uploads/logo-new -2.svg
Método 2: Usar urllib y BeautifulSoup
urllib : ItURL Para instalar este tipo, escriba el siguiente comando en la terminal.
pip install urllib
Acercarse:
- Módulo de importación
- Leer URL con urlopen()
- Pase las requests a una función Beautifulsoup()
- Use la etiqueta ‘img’ para encontrar todas las etiquetas (‘src’)
Implementación:
Python3
from urllib.request import urlopen from bs4 import BeautifulSoup htmldata = urlopen('https://www.geeksforgeeks.org/') soup = BeautifulSoup(htmldata, 'html.parser') images = soup.find_all('img') for item in images: print(item['src'])
Producción:
https://media.geeksforgeeks.org/wp-content/cdn-uploads/20201018234700/GFG-RT-DSA-Creative.png
https://media.geeksforgeeks.org/wp-content/cdn-uploads/logo-new -2.svg
Publicación traducida automáticamente
Artículo escrito por kumar_satyam y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA