Obtenga el contenido de toda la página usando Selenium

En este artículo, discutiremos formas de obtener el contenido de la página completa usando Selenium. En términos generales, puede haber dos métodos para lo mismo. Vamos a discutirlos en detalle.

Método 1:

Para extraer el texto visible de toda la página, podemos usar los métodos find_element_by_* que nos ayudan a encontrar o ubicar los elementos en la página. Luego, usaremos el método de texto que ayuda a recuperar el texto de un elemento web específico.

Acercarse

  • Módulo de importación
  • Instanciar controlador
  • Obtener el contenido de la página
  • Mostrar contenidos raspados
  • Cerrar controlador

Sintaxis:

controlador.find_element_by_class_xpath(“/html/cuerpo”).texto

Para buscar o localizar varios elementos en una página:

  • buscar_elemento_por_enlace_texto
  • find_element_by_parcial_link_text
  • encontrar_elemento_por_xpath
  • buscar_elemento_por_nombre_de_etiqueta
  • buscar_elemento_por_nombre_de_clase
  • buscar_elemento_por_css_selector
  • encontrar_elemento_por_id
  • buscar_elemento_por_nombre

Podemos usar estos métodos anteriores para encontrar o ubicar elementos en una página completa. El método más utilizado es find_element_by_xpath, que nos ayuda a localizar fácilmente cualquier elemento. Usaremos los métodos apropiados según nuestros requisitos.

Programa:

Python3

# importing the modules
from selenium import webdriver
from webdriver_manager.chrome import ChromeDriverManager
  
# using webdriver for chrome browser
driver = webdriver.Chrome(ChromeDriverManager().install())
  
# using target url
driver.get(
    "https://www.geeksforgeeks.org/competitive-programming-a-complete-guide/")
  
# printing the content of entire page
print(driver.find_element_by_xpath("/html/body").text)
  
# closing the driver
driver.close()

Producción:

Método 2:

Hay otro método disponible para lograr el resultado deseado. Esta línea recuperará el texto completo de la página web. Una vez que obtengamos los datos extraídos, con la ayuda del sistema de archivos, almacenaremos el resultado dentro del archivo result.html .

Acercarse:

  • Módulo de importación
  • Instanciar webdriver
  • Obtener contenido de la URL
  • abrir un archivo
  • Guardar contenido en un archivo
  • Cerrar el archivo
  • Cerrar controlador

Sintaxis:

controlador.página_fuente

Programa:

Python3

# Importing important library
from selenium import webdriver
from webdriver_manager.chrome import ChromeDriverManager
  
# using chrome browser
driver = webdriver.Chrome(ChromeDriverManager().install())
  
# Target url
driver.get(
    "https://www.geeksforgeeks.org/competitive-programming-a-complete-guide/")
  
# Storing the page source in page variable
page = driver.page_source.encode('utf-8')
# print(page)
  
# open result.html
file_ = open('result.html', 'wb')
  
# Write the entire page content in result.html
file_.write(page)
  
# Closing the file
file_.close()
  
# Closing the driver
driver.close()

Producción:

Haga clic aquí para descargar el archivo de salida del programa anterior.

Publicación traducida automáticamente

Artículo escrito por shubhanshuarya007 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *