Prueba de concepto sobre agregador de noticias usando tecnologías de Big Data

Big Data es un gran conjunto de datos que puede tener un gran volumen de datos, velocidad y variedad de datos. Por ejemplo, miles de millones de usuarios buscan en Google al mismo tiempo y ese será un conjunto de datos muy grande. En este, discutiremos la prueba de concepto (POC) en un agregador de noticias usando Big Data (Hadoop, Hive, Pig). Y realizará operaciones basadas en MapReduce Operations. Para realizar la operación, usaremos HiveQL (Lenguaje de consulta de Hive), que es un lenguaje de consulta similar a SQL que puede procesar datos estructurados usando Hive. Hive se utiliza para facilitar las consultas y el análisis. Y es una herramienta de almacenamiento de datos sobre Hadoop. 

Verá el enfoque de implementación de cómo puede hacer POC en un agregador de noticias usando Big Data. Aquí, haremos POC y podremos encontrar todas las consultas utilizando tecnologías de big data como Hadoop, Hive y Pig. Y Consultas como la cantidad de noticias divididas en diferentes categorías, contar la aparición total de diferentes títulos en una tabla, el nombre del editor, una consulta sobre las noticias que se publicaron, una consulta para encontrar el nombre del título y una consulta para encontrar la identificación alfanumérica del clúster que incluye noticias sobre la misma historia, etc. Discutamos uno por uno. 

Prueba de concepto sobre agregador de noticias:

  • Este POC se basa en datos agregadores de noticias.
  • El DATASET público está disponible debajo del enlace del sitio web.
https://archive.ics.uci.edu/ml/datasets/News+Aggregator  

Redes sociales de la industria:

Datos

Un conjunto de datos disponible públicamente con atributos como los siguientes.

  • ID: un número entero de ID numérico.
  • TITLE -Título de la noticia de tipo String.
  • URL: URL de tipo String.
  • EDITOR – Nombre del editor de tipo String.
  • CATEGORÍA -Categoría de noticias de tipo String.
  • HISTORIA – ID alfanumérico del clúster que incluye noticias sobre la misma historia.
  • HOSTNAME -URL nombre de host de tipo String.
  • HORA – Hora aproximada de publicación de la noticia.

Planteamiento del problema:

  1. Encuentra no de noticias divididas en diferentes categorías.
  2. Cuente la ocurrencia total de diferentes títulos en una tabla.
  3. Encuentre el nombre del editor y el título de la categoría comercial.
  4. Encuentra la noticia que se publicó durante un tiempo aproximado.
  5. Encuentre 5 nombres de títulos de la tabla que publica Los Angeles Times.
  6. Encuentre la identificación alfanumérica del clúster que incluye noticias sobre la misma historia.

Guión de concha:

El propósito de este script de shell es crear una tabla y ejecutar el comando Hive para almacenar el resultado.

Creación de tabla: para crear una tabla utilizando la siguiente consulta de la siguiente manera.

hive>create table new
(
id bigint,
title String,
url String,
publishername String,
category String,
story String,
hostname String,
time bigint
);

> row format delimited
> fields terminated by '\t'
> lines terminated by '\n'
> stored as textfile;

Cargando Tablas: Para cargar las tablas usando la siguiente consulta de la siguiente manera.

hive>load data local inpath ‘/home/training/Desktop/news.txt’
>overwrite into table news;

Salida: para mostrar la salida se utilizó la siguiente consulta.

hive>select * from news;

Comandos de colmena

1. Encuentra una serie de noticias divididas en diferentes categorías.

hive >SELECT category, COUNT(*) from news GROUP BY category

2 . Cuente la ocurrencia total de diferentes títulos en una tabla.

hive > select count (DISTINCT title) from news

3. Busque el nombre del editor y el título de la categoría comercial.  

hive >select title , publishername from news where category==’b’;

4. Encuentra la noticia que se publicó durante un tiempo aproximado.

hive >SELECT * from news SORT BY time DESC limit 1;

5 . Encuentre 5 nombres de títulos de la tabla que publica Los Angeles Times.

hive> SELECT title FROM news where publishername='Los Angeles Times' LIMIT 5;  

    

6. Encuentra la identificación alfanumérica del grupo que incluye noticias sobre la misma historia.

hive>SELECT story, COUNT(*) from news GROUP BY story;

Publicación traducida automáticamente

Artículo escrito por monikasoni2 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *