En este artículo, discutiremos formas de obtener el contenido de la página completa usando Selenium. En términos generales, puede haber dos métodos para lo mismo. Vamos a discutirlos en detalle.
Método 1:
Para extraer el texto visible de toda la página, podemos usar los métodos find_element_by_* que nos ayudan a encontrar o ubicar los elementos en la página. Luego, usaremos el método de texto que ayuda a recuperar el texto de un elemento web específico.
Acercarse
- Módulo de importación
- Instanciar controlador
- Obtener el contenido de la página
- Mostrar contenidos raspados
- Cerrar controlador
Sintaxis:
controlador.find_element_by_class_xpath(“/html/cuerpo”).texto
Para buscar o localizar varios elementos en una página:
- buscar_elemento_por_enlace_texto
- find_element_by_parcial_link_text
- encontrar_elemento_por_xpath
- buscar_elemento_por_nombre_de_etiqueta
- buscar_elemento_por_nombre_de_clase
- buscar_elemento_por_css_selector
- encontrar_elemento_por_id
- buscar_elemento_por_nombre
Podemos usar estos métodos anteriores para encontrar o ubicar elementos en una página completa. El método más utilizado es find_element_by_xpath, que nos ayuda a localizar fácilmente cualquier elemento. Usaremos los métodos apropiados según nuestros requisitos.
Programa:
Python3
# importing the modules from selenium import webdriver from webdriver_manager.chrome import ChromeDriverManager # using webdriver for chrome browser driver = webdriver.Chrome(ChromeDriverManager().install()) # using target url driver.get( "https://www.geeksforgeeks.org/competitive-programming-a-complete-guide/") # printing the content of entire page print(driver.find_element_by_xpath("/html/body").text) # closing the driver driver.close()
Producción:
Método 2:
Hay otro método disponible para lograr el resultado deseado. Esta línea recuperará el texto completo de la página web. Una vez que obtengamos los datos extraídos, con la ayuda del sistema de archivos, almacenaremos el resultado dentro del archivo result.html .
Acercarse:
- Módulo de importación
- Instanciar webdriver
- Obtener contenido de la URL
- abrir un archivo
- Guardar contenido en un archivo
- Cerrar el archivo
- Cerrar controlador
Sintaxis:
controlador.página_fuente
Programa:
Python3
# Importing important library from selenium import webdriver from webdriver_manager.chrome import ChromeDriverManager # using chrome browser driver = webdriver.Chrome(ChromeDriverManager().install()) # Target url driver.get( "https://www.geeksforgeeks.org/competitive-programming-a-complete-guide/") # Storing the page source in page variable page = driver.page_source.encode('utf-8') # print(page) # open result.html file_ = open('result.html', 'wb') # Write the entire page content in result.html file_.write(page) # Closing the file file_.close() # Closing the driver driver.close()
Producción:
Haga clic aquí para descargar el archivo de salida del programa anterior.
Publicación traducida automáticamente
Artículo escrito por shubhanshuarya007 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA