Web Scraping usando cURL en PHP

Todos hemos intentado obtener datos de un sitio web de muchas maneras. En este artículo, aprenderemos cómo raspar web usando bots para extraer contenido y datos de un sitio web. 

Usaremos PHP cURL para raspar una página web, parece un error tipográfico por dejar el bloqueo de mayúsculas, pero así es como se escribe. cURL es el sistema utilizado para realizar requests HTTP con PHP. Es la forma de llamar a las páginas web desde su script.

La declaración « Scrape Data, Not Content « es para todas las personas que quieren aprender web scraping. cURL y web scraping son herramientas poderosas que se pueden usar para automatizar lo que de otro modo serían tareas repetitivas algo largas y tediosas. Solo debemos recopilar información, no artículos y contenido completos.

Ejemplo: El siguiente ejemplo demuestra el raspado de imágenes del artículo https://www.geeksforgeeks.org/matlab-data-types/ 

PHP

<?php
 
// Initialize curl
$ch = curl_init();
 
// URL for Scraping
curl_setopt($ch, CURLOPT_URL,
    'https://www.geeksforgeeks.org/matlab-data-types/');
 
// Return Transfer True
curl_setopt($ch, CURLOPT_RETURNTRANSFER, true);
 
$output = curl_exec($ch);
 
// Closing cURL
curl_close($ch);
 
// For web page display
echo '<head>';
echo '<meta http-equiv="content-type"
    content="text/html; charset=utf-8" />';
echo '</head>';
echo '<body>';
 
echo '<h1>Web Scraping using cURL</h1>';
 
// Checking for images
preg_match_all(
'!https://media.geeksforgeeks.org/wp-content/uploads/(.*)/(.*).png!',
    $output, $data
);
 
foreach ($data[0] as $list) {
    echo "<img src='$list'/>";
}
 
echo '</body>';
 
?>

Producción:

raspado web

Publicación traducida automáticamente

Artículo escrito por atul07 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *