Extrae el título de una página web usando Python

Requisito previo Implementación de Web Scraping en Python con BeautifulSoup , Módulo Python Urllib , Herramientas para Web Scraping

En este artículo, vamos a escribir secuencias de comandos de Python para extraer el título de la página web de la URL de la página web dada.

Método 1: bs4 Beautiful Soup (bs4) es una biblioteca de Python para extraer datos de archivos HTML y XML. Este módulo no viene integrado con Python. Para instalar este tipo, escriba el siguiente comando en la terminal.

pip install bs4

El módulo de requests le permite enviar requests HTTP/1.1 con extrema facilidad. Este módulo tampoco viene integrado con Python. Para instalar este tipo, escriba el siguiente comando en la terminal.

pip install requests

Acercarse:

  • Importar los módulos
  • Hacer una instancia de requests y pasar a la URL
  • Pase las requests a una función Beautifulsoup()
  • Use la etiqueta ‘título’ para encontrar todas las etiquetas (‘título’)

Código:

Python3

# importing the modules
import requests
from bs4 import BeautifulSoup
 
# target url
url = 'https://www.geeksforgeeks.org/'
 
# making requests instance
reqs = requests.get(url)
 
# using the BeautifulSoup module
soup = BeautifulSoup(reqs.text, 'html.parser')
 
# displaying the title
print("Title of the website is : ")
for title in soup.find_all('title'):
    print(title.get_text())

Producción:

Title of the website is : 
GeeksforGeeks | A computer science portal for geeks

Método 2: en este método, usaremos los módulos urllib y Beautifulsoup para extraer el título del sitio web. urllib es un paquete que le permite acceder a la página web con el programa.

Instalación:

pip install urllib

Acercarse:

  • Módulo de importación
  • Lea la URL con la solicitud.urlopen(URL).
  • Encuentre el título con sopa.título del documento HTML

Implementación:

Python3

# importing the modules
from urllib.request import urlopen
from bs4 import BeautifulSoup
 
# target url
url = 'https://www.geeksforgeeks.org/'
 
# using the BeautifulSoup module
soup = BeautifulSoup(urlopen(url))
 
# displaying the title
print("Title of the website is : ")
print (soup.title.get_text())

Producción:

Title of the website is : 
GeeksforGeeks | A computer science portal for geeks

Método 3: En este método, utilizaremos el módulo de mecanizado . Es una navegación web programática con estado en Python. Navegue por las páginas mediante programación con formularios HTML fáciles de completar y hacer clic en los enlaces.

Instalación:

pip install mechanize

Acercarse:

  • Módulo de importación.
  • Inicialice la instancia del navegador().
  • Recupera el contenido de la página web Browser.open().
  • Mostrar el título con Browser.title()

Implementación:

Python3

# importing the module
from mechanize import Browser
 
# target url
url = 'https://www.geeksforgeeks.org/'
 
# creating a Browser instance
br = Browser()
br.open(url)
 
# displaying the title
print("Title of the website is : ")
print( br.title())

Producción:

Title of the website is : 
GeeksforGeeks | A computer science portal for geeks

Publicación traducida automáticamente

Artículo escrito por kumar_satyam y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *