Raspado de imágenes con Python

Raspado En este artículo, vamos a ver cómo raspar imágenes de sitios web usando python. Para raspar imágenes, probaremos diferentes enfoques.

Método 1: Uso de BeautifulSoup y Requests

bs4 : Beautiful Soup (bs4) es una biblioteca de Python para extraer datos de archivos HTML y XML. Este módulo no viene integrado con Python. Para instalar este tipo, escriba el siguiente comando en la terminal.

pip install bs4

requests : Requests le permite enviar requests HTTP/1.1 muy fácilmente. Este módulo tampoco viene integrado con Python. Para instalar este tipo, escriba el siguiente comando en la terminal.

pip install requests

Acercarse:

Módulo de importación
Hacer una instancia de requests y pasar a la URL
Pase las requests a una función Beautifulsoup()
Use la etiqueta ‘img’ para encontrar todas las etiquetas (‘src’)

Implementación:

Python3

import requests 
from bs4 import BeautifulSoup 
    
def getdata(url): 
    r = requests.get(url) 
    return r.text 
    
htmldata = getdata("https://www.geeksforgeeks.org/") 
soup = BeautifulSoup(htmldata, 'html.parser') 
for item in soup.find_all('img'):
    print(item['src'])

Producción:

https://media.geeksforgeeks.org/wp-content/cdn-uploads/20201018234700/GFG-RT-DSA-Creative.png
https://media.geeksforgeeks.org/wp-content/cdn-uploads/logo-new -2.svg

Método 2: Usar urllib y BeautifulSoup

urllib : ItURL Para instalar este tipo, escriba el siguiente comando en la terminal.

pip install urllib

Acercarse:

Módulo de importación
Leer URL con urlopen()
Pase las requests a una función Beautifulsoup()
Use la etiqueta ‘img’ para encontrar todas las etiquetas (‘src’)

Implementación:

Python3

from urllib.request import urlopen
from bs4 import BeautifulSoup
  
htmldata = urlopen('https://www.geeksforgeeks.org/')
soup = BeautifulSoup(htmldata, 'html.parser')
images = soup.find_all('img')
  
for item in images:
    print(item['src'])

Producción:

https://media.geeksforgeeks.org/wp-content/cdn-uploads/20201018234700/GFG-RT-DSA-Creative.png
https://media.geeksforgeeks.org/wp-content/cdn-uploads/logo-new -2.svg

Publicación traducida automáticamente

Artículo escrito por kumar_satyam y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Python3

Python3

Deja una respuesta Cancelar la respuesta