Obtenga todo el texto de la página usando Selenium en Python

Como sabemos, Selenium es una herramienta de automatización a través de la cual podemos automatizar los navegadores escribiendo algunas líneas de código. Es compatible con todos los navegadores, sistemas operativos y también su programa se puede escribir en cualquier lenguaje de programación como Python, Java y muchos más.

Selenium proporciona una API conveniente para acceder a Selenium WebDrivers como Firefox, IE, Chrome, Remote, etc. Las versiones de Python compatibles actualmente son 3.5 y superiores.

Instalación:

Use pip para instalar el paquete Selenium. Simplemente escriba este comando a continuación en el símbolo del sistema.

pip install selenium

Una vez realizada la instalación. Abra Python Console y simplemente escriba estos dos comandos para verificar si Selenium está instalado o no.

Python3

import selenium
  
print(selenium.__version__)

Producción:

'3.141.0'

Administrador de controladores web para Python:

Previamente, deberíamos descargar chromedriver binario y descomprimirlo en algún lugar de nuestra PC y también establecer una ruta. Después de eso, establezca la ruta a este controlador de esta manera:

webdriver.Chrome(ejecutable_path=”D:\PyCharm_Projects\SeleniumLearning\Drivers\ChromeDriverServer.exe”)

Pero cada vez, se lanza la nueva versión del controlador, por lo que necesitamos descargar un nuevo controlador; de lo contrario, nos dará errores. Para resolver este problema, necesitamos instalar webdriver-manager :

Instalación:

pip install webdriver-manager

Si estamos usando el controlador Chrome , entonces debemos escribir estas líneas:

Python3

from selenium import webdriver
from webdriver_manager.chrome import ChromeDriverManager
  
driver = webdriver.Chrome(ChromeDriverManager().install())

Al igual que Chrome, también tenemos otros navegadores. Por ejemplo:

Uso con cromo:

Python3

from selenium import webdriver
from webdriver_manager.chrome import ChromeDriverManager
from webdriver_manager.utils import ChromeType
  
driver = webdriver.Chrome(ChromeDriverManager(chrome_type = ChromeType.CHROMIUM).install())

Uso con FireFox:

Python3

from selenium import webdriver
from webdriver_manager.firefox import GeckoDriverManager
  
driver = webdriver.Firefox(executable_path = GeckoDriverManager().install())

Usar con IE:

Python3

from selenium import webdriver
from webdriver_manager.microsoft import IEDriverManager
  
driver = webdriver.Ie(IEDriverManager().install())

Uso con borde:

Python3

from selenium import webdriver
from webdriver_manager.microsoft import EdgeChromiumDriverManager
  
driver = webdriver.Edge(EdgeChromiumDriverManager().install())

Obtenga todo el texto de la página usando Selenium en Python

Aprendamos cómo automatizar las tareas con la ayuda de selenium en la programación de Python. Aquí en este artículo, estamos discutiendo cómo obtener todo el texto de la página usando selenium.

Acercarse:

  1. Importe el controlador web desde el módulo de selenium
  2. Aquí, en este artículo, automatizaremos la tarea en el navegador Chrome. Entonces, tenemos que importar ChromeDriverManager desde webdriver_manager.chrome. Ahora, no estamos obligados a descargar ningún controlador de Internet. Este comando descargará automáticamente los controladores de Internet. Actualmente, las implementaciones de WebDriver admitidas son Firefox, Chrome, IE y Remote.
  3. Instalar el controlador de Chrome y la tienda en la instancia de webdriver.
  4. El método driver.get navegará a una página dada por la URL. WebDriver esperará hasta que la página se cargue por completo antes de devolver el control a nuestro programa.
  5. WebDriver brinda varias formas de encontrar los elementos en nuestra página usando uno de los métodos find_element_by_*. Por ejemplo, la sección del cuerpo de la página dada se puede ubicar con la ayuda de su xpath, usaremos el método find_element_by_xpath.
  6. Finalmente, para cerrar la ventana del navegador. Usaremos el método driver.close. Un método más, tenemos el método driver.exit que cierra navegadores completos donde driver.close cerrará solo una pestaña de ventana.

A continuación se muestra la implementación:

Python3

# Importing necessary modules
from selenium import webdriver
from webdriver_manager.chrome import ChromeDriverManager
  
# WebDriver Chrome
driver = webdriver.Chrome(ChromeDriverManager().install())
  
# Target URL
driver.get("https://www.geeksforgeeks.org/competitive-programming-a-complete-guide/")
  
# print(driver.title)
  
# Printing the whole body text
print(driver.find_element_by_xpath("/html/body").text)
  
# Closing the driver
driver.close()

Producción:

Publicación traducida automáticamente

Artículo escrito por shubhanshuarya007 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *