En este artículo, vamos a escribir secuencias de comandos de Python para raspar TRP (Punto de clasificación de televisión) de BARC . TRP significa Television Rating Point, representa cuántas personas vieron qué canales durante cuánto tiempo durante un período en particular. Se utiliza para juzgar qué programa de televisión se ve más.
Módulo necesario:
- bs4 : Beautiful Soup (bs4) es una biblioteca de Python para extraer datos de archivos HTML y XML. Este módulo no viene integrado con Python. Para instalar este tipo, escriba el siguiente comando en la terminal.
pip install bs4
- requests: Solicitud le permite enviar requests HTTP/1.1 de forma extremadamente sencilla. Este módulo tampoco viene integrado con Python. Para instalar este tipo, escriba el siguiente comando en la terminal.
pip install requests
Veamos la ejecución paso a paso del script.
Paso 1: importar todas las dependencias
Python3
# import module import requests from bs4 import BeautifulSoup
Paso 2: Cree una función de obtención de URL
Python3
# user define function # Scrape the data def getdata(url): r = requests.get(url) return r.text
Paso 3: ahora pase la URL a la función getdata() y convierta esos datos en código HTML
Python3
htmldata = getdata("https://barcindia.co.in/data-insights") soup = BeautifulSoup(htmldata, 'html.parser') data = '' for i in soup.find_all('tbody'): data = data + (i.get_text()) data
Producción:
Nota: estos scripts le darán solo datos sin procesar en formato de string que tiene que imprimir sus datos con sus necesidades.
Paso 4: Ahora recorra los datos.
Python3
data = ''.join((filter(lambda i: i not in ['\t'], data))) print(data)
Producción:
Publicación traducida automáticamente
Artículo escrito por kumar_satyam y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA