Tipos de datos primitivos de Hive

Hive es una herramienta de almacenamiento de datos que se creó sobre Hadoop. Hive actúa como una interfaz para el ecosistema Hadoop. Es un marco que se usa para almacenar los datos usando HDFS (sistema de archivos distribuido Hadoop) y procesar los datos usando Map Reduce . Entonces, la colmena toma los datos presentes en … Continue reading «Tipos de datos primitivos de Hive»

Eliminación de archivos en HDFS usando Python Snakebite

Requisito previo: instalación de Hadoop , HDFS Python Snakebite es una biblioteca de Python muy popular que podemos usar para comunicarnos con HDFS. Usando la biblioteca de cliente de Python proporcionada por el paquete Snakebite, podemos escribir fácilmente código de Python que funcione en HDFS. Utiliza mensajes protobuf para comunicarse directamente con NameNode. La biblioteca … Continue reading «Eliminación de archivos en HDFS usando Python Snakebite»

Operaciones de base de datos en HIVE con CLOUDERA: estación de trabajo VMWARE

Vamos a crear una base de datos y crear una tabla en nuestra base de datos. Y cubrirá las operaciones de la base de datos en HIVE usando CLOUDERA – VMWARE Work Station. Vamos a discutir uno por uno. Introducción: Hive es una herramienta ETL que proporciona una interfaz similar a SQL entre el usuario … Continue reading «Operaciones de base de datos en HIVE con CLOUDERA: estación de trabajo VMWARE»

Cómo encontrar registros top-N usando MapReduce

Encontrar los 10 o 20 registros principales de un gran conjunto de datos es el corazón de muchos sistemas de recomendación y también es un atributo importante para el análisis de datos. Aquí, discutiremos los dos métodos para encontrar registros top-N de la siguiente manera. Método 1: Primero, busquemos las 10 películas más vistas para … Continue reading «Cómo encontrar registros top-N usando MapReduce»

Diferencia entre tablas internas y externas de Hive

Hive se puede usar para administrar datos estructurados en la parte superior de Hadoop . Los datos se almacenan en forma de tabla dentro de una base de datos. En Hive, el usuario puede crear tablas internas y externas para administrar y almacenar datos en una base de datos. En este artículo, discutiremos la diferencia … Continue reading «Diferencia entre tablas internas y externas de Hive»

Las 10 herramientas de análisis de Big Data más populares

A medida que crecemos con el ritmo de la tecnología, la demanda de seguimiento de datos aumenta rápidamente. Hoy en día, casi 2,5 quintillones de bytes de datos se generan a nivel mundial y es inútil hasta que esos datos se segregan en una estructura adecuada. Se ha vuelto crucial para las empresas mantener la … Continue reading «Las 10 herramientas de análisis de Big Data más populares»

Introducción a Hadoop

¿Qué es Hadoop? Hadoop es un marco de programación de software de código abierto para almacenar una gran cantidad de datos y realizar el cálculo. Su framework está basado en programación Java con algo de código nativo en C y scripts de shell. Historia de Hadoop Apache Software Foundation es el desarrollador de Hadoop, y … Continue reading «Introducción a Hadoop»

Apache HIVE: opciones de la base de datos

Apache Hive es una herramienta de almacenamiento de datos construida sobre Hadoop. Los datos estructurados se pueden manejar con el lenguaje de consulta de Hive. En este artículo, vamos a ver las opciones que están disponibles con las bases de datos en Hive. La base de datos se utiliza para almacenar información. La colmena creará … Continue reading «Apache HIVE: opciones de la base de datos»

Hadoop – Mapeador en MapReduce

Map-Reduce es un modelo de programación que se divide principalmente en dos fases Map Phase y Reduce Phase . Está diseñado para procesar los datos en paralelo que se dividen en varias máquinas (Nodes). HadoopJava _ _Los programas consisten en la clase Mapper y la clase Reducer junto con la clase del controlador. Hadoop Mapper … Continue reading «Hadoop – Mapeador en MapReduce»