Raspado de puntos de rating de televisión usando Python

En este artículo, vamos a escribir secuencias de comandos de Python para raspar TRP (Punto de clasificación de televisión) de BARC . TRP significa Television Rating Point, representa cuántas personas vieron qué canales durante cuánto tiempo durante un período en particular. Se utiliza para juzgar qué programa de televisión se ve más.

Módulo necesario:

  • bs4 : Beautiful Soup (bs4) es una biblioteca de Python para extraer datos de archivos HTML y XML. Este módulo no viene integrado con Python. Para instalar este tipo, escriba el siguiente comando en la terminal.
pip install bs4
  • requests: Solicitud le permite enviar requests HTTP/1.1 de forma extremadamente sencilla. Este módulo tampoco viene integrado con Python. Para instalar este tipo, escriba el siguiente comando en la terminal.
pip install requests

Veamos la ejecución paso a paso del script.

Paso 1: importar todas las dependencias

Python3

# import module
import requests
from bs4 import BeautifulSoup

Paso 2: Cree una función de obtención de URL

Python3

# user define function 
# Scrape the data 
def getdata(url): 
    r = requests.get(url) 
    return r.text

Paso 3: ahora pase la URL a la función getdata() y convierta esos datos en código HTML

Python3

htmldata = getdata("https://barcindia.co.in/data-insights")
soup = BeautifulSoup(htmldata, 'html.parser')
data = ''
for i in soup.find_all('tbody'):
    data = data + (i.get_text())
      
data

Producción:

Nota: estos scripts le darán solo datos sin procesar en formato de string que tiene que imprimir sus datos con sus necesidades. 

Paso 4: Ahora recorra los datos.

Python3

data = ''.join((filter(lambda i: i not in ['\t'], data)))
print(data)

Producción:

Publicación traducida automáticamente

Artículo escrito por kumar_satyam y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *