Requisito previo Implementación de Web Scraping en Python con BeautifulSoup , Módulo Python Urllib , Herramientas para Web Scraping
En este artículo, vamos a escribir secuencias de comandos de Python para extraer el título de la página web de la URL de la página web dada.
Método 1: bs4 Beautiful Soup (bs4) es una biblioteca de Python para extraer datos de archivos HTML y XML. Este módulo no viene integrado con Python. Para instalar este tipo, escriba el siguiente comando en la terminal.
pip install bs4
El módulo de requests le permite enviar requests HTTP/1.1 con extrema facilidad. Este módulo tampoco viene integrado con Python. Para instalar este tipo, escriba el siguiente comando en la terminal.
pip install requests
Acercarse:
- Importar los módulos
- Hacer una instancia de requests y pasar a la URL
- Pase las requests a una función Beautifulsoup()
- Use la etiqueta ‘título’ para encontrar todas las etiquetas (‘título’)
Código:
Python3
# importing the modules import requests from bs4 import BeautifulSoup # target url url = 'https://www.geeksforgeeks.org/' # making requests instance reqs = requests.get(url) # using the BeautifulSoup module soup = BeautifulSoup(reqs.text, 'html.parser') # displaying the title print("Title of the website is : ") for title in soup.find_all('title'): print(title.get_text())
Producción:
Title of the website is : GeeksforGeeks | A computer science portal for geeks
Método 2: en este método, usaremos los módulos urllib y Beautifulsoup para extraer el título del sitio web. urllib es un paquete que le permite acceder a la página web con el programa.
Instalación:
pip install urllib
Acercarse:
- Módulo de importación
- Lea la URL con la solicitud.urlopen(URL).
- Encuentre el título con sopa.título del documento HTML
Implementación:
Python3
# importing the modules from urllib.request import urlopen from bs4 import BeautifulSoup # target url url = 'https://www.geeksforgeeks.org/' # using the BeautifulSoup module soup = BeautifulSoup(urlopen(url)) # displaying the title print("Title of the website is : ") print (soup.title.get_text())
Producción:
Title of the website is : GeeksforGeeks | A computer science portal for geeks
Método 3: En este método, utilizaremos el módulo de mecanizado . Es una navegación web programática con estado en Python. Navegue por las páginas mediante programación con formularios HTML fáciles de completar y hacer clic en los enlaces.
Instalación:
pip install mechanize
Acercarse:
- Módulo de importación.
- Inicialice la instancia del navegador().
- Recupera el contenido de la página web Browser.open().
- Mostrar el título con Browser.title()
Implementación:
Python3
# importing the module from mechanize import Browser # target url url = 'https://www.geeksforgeeks.org/' # creating a Browser instance br = Browser() br.open(url) # displaying the title print("Title of the website is : ") print( br.title())
Producción:
Title of the website is : GeeksforGeeks | A computer science portal for geeks
Publicación traducida automáticamente
Artículo escrito por kumar_satyam y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA