Todos hemos intentado obtener datos de un sitio web de muchas maneras. En este artículo, aprenderemos cómo raspar web usando bots para extraer contenido y datos de un sitio web.
Usaremos PHP cURL para raspar una página web, parece un error tipográfico por dejar el bloqueo de mayúsculas, pero así es como se escribe. cURL es el sistema utilizado para realizar requests HTTP con PHP. Es la forma de llamar a las páginas web desde su script.
La declaración « Scrape Data, Not Content « es para todas las personas que quieren aprender web scraping. cURL y web scraping son herramientas poderosas que se pueden usar para automatizar lo que de otro modo serían tareas repetitivas algo largas y tediosas. Solo debemos recopilar información, no artículos y contenido completos.
Ejemplo: El siguiente ejemplo demuestra el raspado de imágenes del artículo https://www.geeksforgeeks.org/matlab-data-types/
PHP
<?php // Initialize curl $ch = curl_init(); // URL for Scraping curl_setopt($ch, CURLOPT_URL, 'https://www.geeksforgeeks.org/matlab-data-types/'); // Return Transfer True curl_setopt($ch, CURLOPT_RETURNTRANSFER, true); $output = curl_exec($ch); // Closing cURL curl_close($ch); // For web page display echo '<head>'; echo '<meta http-equiv="content-type" content="text/html; charset=utf-8" />'; echo '</head>'; echo '<body>'; echo '<h1>Web Scraping using cURL</h1>'; // Checking for images preg_match_all( '!https://media.geeksforgeeks.org/wp-content/uploads/(.*)/(.*).png!', $output, $data ); foreach ($data[0] as $list) { echo "<img src='$list'/>"; } echo '</body>'; ?>
Producción: