En este artículo, cubriremos cómo extraer noticias financieras sin problemas usando Python .
Esta noticia financiera ayuda a muchos comerciantes a colocar el comercio en criptomonedas, bitcoins, los mercados bursátiles y muchos otros mercados bursátiles globales. La configuración del bot comercial nos ayudará a analizar los datos. Por lo tanto, todo esto se puede hacer con la ayuda del web scraping usando el lenguaje python que puede obtener todas las noticias financieras de la fuente dada. Antes de discutir, cubramos algunos conceptos básicos de web scraping.
Módulo necesario
Solicitud : este módulo tiene varios métodos integrados para realizar requests HTTP a un URI específico mediante requests GET, POST, PUT, PATCH o HEAD. Una solicitud HTTP está destinada a recuperar datos de un URI específico o enviar datos a un servidor.
pip install requests
Beautiful Soup : Beautiful Soup es un marco de web scraping para Python. El raspado web es el proceso de extracción de datos del sitio web utilizando herramientas automatizadas para acelerar el proceso.
pip install bs4
Pasos requeridos:
Paso 1: Importe todas las bibliotecas requeridas.
from bs4 import BeautifulSoup as BS import requests as req
Paso 2: encuentre el mejor sitio web de noticias financieras para obtener actualizaciones diarias sin problemas.
https://www.businesstoday.in/latest/economy
Paso 3: Inspeccione la etiqueta en la que se almacena el contenido de noticias con la ayuda de inspeccionar el código HTML.
Paso 4: Ahora revisaremos el nombre de la etiqueta y usaremos ese nombre en nuestro código, es decir, aquí se usa una etiqueta ancla, así que usaremos ‘a’ en nuestro código.
Paso 5: especifique la clase en nuestro código para obtener todos los encabezados de noticias en la etiqueta de anclaje.
Python3
# IMPORT ALL LIBRARIES from bs4 import BeautifulSoup as BS import requests as req url = "https://www.businesstoday.in/latest/economy" webpage = req.get(url) # YOU CAN EVEN DIRECTLY PASTE THE URL IN THIS # HERE HTML PARSER IS ACTUALLY THE WHOLE HTML PAGE trav = BS(webpage.content, "html.parser") # TO GET THE TPYE OF CLASS # HERE 'a' STANDS FOR ANCHOR TAG IN WHICH NEWS IS STORED for link in trav.find_all('a'): print(type(link.string), " ", link.string)
Producción:
El siguiente resultado muestra que tiene dos tipos de clases en su etiqueta de anclaje que son » NoneType » y » bs4.element.NavigableString».
Paso 6: para obtener el material relacionado con las noticias, solo necesitamos la clase » bs4.element.NavigableString «.
Paso 7: Establezca el límite de longitud de caracteres de noticias a menos de 35 caracteres.
A continuación se muestra la implementación completa:
Python3
# IMPORT ALL THE REQUIRED LIBRARIES from bs4 import BeautifulSoup as BS import requests as req url = "https://www.businesstoday.in/latest/economy" webpage = req.get(url) trav = BS(webpage.content, "html.parser") M = 1 for link in trav.find_all('a'): # PASTE THE CLASS TYPE THAT WE GET # FROM THE ABOVE CODE IN THIS AND # SET THE LIMIT GRATER THAN 35 if(str(type(link.string)) == "<class 'bs4.element.NavigableString'>" and len(link.string) > 35): print(str(M)+".", link.string) M += 1
Producción:
Publicación traducida automáticamente
Artículo escrito por abhilashgaurav003 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA