Web Scraping Noticias financieras usando Python

En este artículo, cubriremos cómo extraer noticias financieras sin problemas usando Python .

Esta noticia financiera ayuda a muchos comerciantes a colocar el comercio en criptomonedas, bitcoins, los mercados bursátiles y muchos otros mercados bursátiles globales. La configuración del bot comercial nos ayudará a analizar los datos. Por lo tanto, todo esto se puede hacer con la ayuda del web scraping usando el lenguaje python que puede obtener todas las noticias financieras de la fuente dada. Antes de discutir, cubramos algunos conceptos básicos de web scraping.

Módulo necesario

Solicitud : este módulo tiene varios métodos integrados para realizar requests HTTP a un URI específico mediante requests GET, POST, PUT, PATCH o HEAD. Una solicitud HTTP está destinada a recuperar datos de un URI específico o enviar datos a un servidor.

pip install requests

Beautiful Soup : Beautiful Soup es un marco de web scraping para Python. El raspado web es el proceso de extracción de datos del sitio web utilizando herramientas automatizadas para acelerar el proceso.

pip install bs4

Pasos requeridos:

Paso 1: Importe todas las bibliotecas requeridas.

from bs4 import BeautifulSoup as BS
import requests as req

Paso 2: encuentre el mejor sitio web de noticias financieras para obtener actualizaciones diarias sin problemas.

https://www.businesstoday.in/latest/economy

Paso 3: Inspeccione la etiqueta en la que se almacena el contenido de noticias con la ayuda de inspeccionar el código HTML.

 

Paso 4: Ahora revisaremos el nombre de la etiqueta y usaremos ese nombre en nuestro código, es decir, aquí se usa una etiqueta ancla, así que usaremos ‘a’ en nuestro código.

 

Paso 5: especifique la clase en nuestro código para obtener todos los encabezados de noticias en la etiqueta de anclaje.

Python3

# IMPORT ALL LIBRARIES
from bs4 import BeautifulSoup as BS
import requests as req
  
url = "https://www.businesstoday.in/latest/economy"
  
webpage = req.get(url)  # YOU CAN EVEN DIRECTLY PASTE THE URL IN THIS
# HERE HTML PARSER IS ACTUALLY THE WHOLE HTML PAGE
trav = BS(webpage.content, "html.parser")
  
# TO GET THE TPYE OF CLASS
# HERE 'a' STANDS FOR ANCHOR TAG IN WHICH NEWS IS STORED
for link in trav.find_all('a'):
    print(type(link.string), " ", link.string)

Producción:

El siguiente resultado muestra que tiene dos tipos de clases en su etiqueta de anclaje que son » NoneType » y » bs4.element.NavigableString».

Output for the type of classes in anchor tag

Salida para el tipo de clases en una etiqueta de anclaje

Paso 6: para obtener el material relacionado con las noticias, solo necesitamos la clase » bs4.element.NavigableString «.

Paso 7: Establezca el límite de longitud de caracteres de noticias a menos de 35 caracteres.

A continuación se muestra la implementación completa:

Python3

# IMPORT ALL THE REQUIRED LIBRARIES
from bs4 import BeautifulSoup as BS
import requests as req
  
url = "https://www.businesstoday.in/latest/economy"
  
webpage = req.get(url)
trav = BS(webpage.content, "html.parser")
M = 1
for link in trav.find_all('a'):
    
    # PASTE THE CLASS TYPE THAT WE GET
    # FROM THE ABOVE CODE IN THIS AND
    # SET THE LIMIT GRATER THAN 35
    if(str(type(link.string)) == "<class 'bs4.element.NavigableString'>"
       and len(link.string) > 35):
  
        print(str(M)+".", link.string)
        M += 1

Producción:

 

Publicación traducida automáticamente

Artículo escrito por abhilashgaurav003 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *