Extraiga todas las URL de la página web usando R Language

En este artículo, aprenderemos cómo eliminar todas las URL de la página web utilizando el lenguaje de programación R. 

Para descartar URL, usaremos bibliotecas httr y XML . Usaremos el paquete httr para hacer requests HTTPXML y XML para identificar URL usando etiquetas xml. 

  • La biblioteca httr se utiliza para realizar requests HTTP en lenguaje R, ya que proporciona un contenedor para el paquete curl.
  • La biblioteca XML se utiliza para trabajar con archivos XML y etiquetas XML. 

Instalación:

instalar.paquetes(“httr”)

instalar.paquetes(“XML”)

Después de instalar los paquetes necesarios, debemos importar las bibliotecas httr y XML y crear una variable y almacenar la URL del sitio. Ahora usaremos GET() de los paquetes httr para realizar requests HTTP, por lo que tenemos datos sin procesar y necesitamos convertirlos en formato HTML, lo que se puede hacer usando htmlParse() el 

Hemos eliminado con éxito los datos HTML, pero solo necesitamos las URL, por lo que para eliminar la URL, usamos xpathSApply() y le pasamos los datos HTML. Todavía no hemos completado, ahora tenemos que pasarle la etiqueta XML para que podamos obtener todo lo relacionado con eso. etiqueta. Para las URL, usaremos la etiqueta «href» , que se usa para declarar las URL.

Nota: no necesita usar install.packages() si ya instaló el paquete una vez.

Implementación paso a paso

Paso 1: Instalación de bibliotecas:

R

# installing packages
install.packages("httr")
install.packages("XML")

Paso 2: Importar bibliotecas:

R

# importing packages
library(httr)
library(XML)

Paso 3: Realización de requests HTTP:

En este paso, pasaremos nuestra URL en GET() para solicitar datos del sitio y almacenar los datos devueltos en la variable de recursos.

R

url<-"https://www.geeksforgeeks.org"
  
# making http request
resource<-GET(url)

Paso 4: Analice los datos del sitio en formato HTML:

En este paso, analizamos los datos en HTML usando htmlparse().

R

# parsing data to html format
parse<-htmlParse(resource)

Paso 5: Identifique las URL e imprímalas:

En este paso, usamos xpathSApply() para ubicar las URL.

R

# scrapping all the href tags
links<-xpathSApply(parse,path = "//a",xmlGetAttr,"href")
  
# printing links
print(links)

Sabemos que la etiqueta <a> se usa para definir la URL y se almacena en el atributo href .

<a href=”url”></a>

Entonces xpathSApply() encontrará todas las etiquetas <a> y eliminará el enlace almacenado en el atributo href . Y luego almacenaremos todas las URL en una variable y las imprimiremos.

Ejemplo:

R

# installing packages
install.packages("httr")
install.packages("XML")
  
# importing packages
library(httr)
library(XML)
  
# storing request url in url variable
url < -"https://www.geeksforgeeks.org"
  
# making http request
resource < -GET(url)
  
# converting all the data to HTML format
parse < -htmlParse(resource)
  
# scrapping all the href tags
links < -xpathSApply(parse, path="//a", xmlGetAttr, "href")
  
# printing links
print(links)

Producción:

Publicación traducida automáticamente

Artículo escrito por vinamrayadav y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *