Diferencia entre Hadoop y Elasticsearch

Hadoop: es un marco que permite el análisis de datos distribuidos voluminosos y su procesamiento en grupos de computadoras en una fracción de segundos utilizando modelos de programación simples. Está diseñado para escalar un solo servidor a varias máquinas, cada una de las cuales ofrece computación y almacenamiento locales.  Easticsearch: Es un “motor de búsqueda … Continue reading «Diferencia entre Hadoop y Elasticsearch»

Instalación de Apache Pig en Windows y estudio de caso

Apache Pig es una herramienta de manipulación de datos construida sobre MapReduce de Hadoop. Pig nos proporciona un lenguaje de secuencias de comandos para una manipulación de datos más fácil y rápida. Este lenguaje de scripting se llama Pig Latin. Los scripts de Apache Pig se pueden ejecutar de 3 maneras de la siguiente manera: … Continue reading «Instalación de Apache Pig en Windows y estudio de caso»

Ejecución del trabajo de MapReduce

Una vez que el programador del administrador de recursos asigna recursos a la tarea para un contenedor en un Node en particular, el maestro de la aplicación inicia el contenedor poniéndose en contacto con el administrador del Node. La tarea cuya clase principal es YarnChild es ejecutada por una aplicación Java. Localiza los recursos que … Continue reading «Ejecución del trabajo de MapReduce»

Instale Apache Spark en modo independiente en Windows

Apache Spark es un motor de análisis unificado ultrarrápido que se utiliza para la computación en clúster para grandes conjuntos de datos como BigData y Hadoop con el objetivo de ejecutar programas en paralelo en varios Nodes. Es una combinación de varias bibliotecas de pila, como SQL y Dataframes, GraphX, MLlib y Spark Streaming. Spark … Continue reading «Instale Apache Spark en modo independiente en Windows»

Apache Hive Instalación y configuración de MySql Metastore para Hive

Apache Hive fue desarrollado inicialmente por Facebook en 2010. Es un paquete de almacenamiento de datos, utilizado para el análisis de datos. Hive se usa para administrar y consultar datos estructurados con su lenguaje de consulta conocido como HQL o HIVEQL, que es bastante similar al lenguaje de consulta SQL . Hadoop proporciona MapReduce como … Continue reading «Apache Hive Instalación y configuración de MySql Metastore para Hive»

Apache Hive: partición estática con ejemplos

La partición en Apache Hive es muy necesaria para mejorar el rendimiento al escanear las tablas de Hive. Permite a un usuario que trabaja en la colmena consultar una parte pequeña o deseada de las tablas de la colmena. Supongamos que tenemos una tabla de estudiantes que contiene 5000 registros y queremos procesar solo los … Continue reading «Apache Hive: partición estática con ejemplos»

Diferencia entre HDFS y HBase

HDFS : Hadoop Distributed File System es un sistema de archivos distribuido diseñado para almacenar y ejecutar en múltiples máquinas que están conectadas entre sí como Nodes y brindan confiabilidad de datos. Consiste en clústeres, a cada uno de los cuales se accede a través de una sola herramienta de software NameNode instalada en una … Continue reading «Diferencia entre HDFS y HBase»

Instalación de Apache Hive con base de datos Derby y Beeline

Apache Hive es una poderosa herramienta ETL (Extract Transform And Load) de almacenamiento de datos construida sobre Hadoop que se puede usar con bases de datos relacionales para administrar y realizar operaciones en RDBMS. Está escrito en Java y fue lanzado por la Fundación Apache en el año 2012 para las personas que no se … Continue reading «Instalación de Apache Hive con base de datos Derby y Beeline»

Hadoop: programadores y tipos de programadores

En Hadoop, podemos recibir múltiples trabajos de diferentes clientes para realizar. El marco Map-Reduce se utiliza para realizar múltiples tareas en paralelo en un clúster típico de Hadoop para procesar conjuntos de datos de gran tamaño a un ritmo rápido. Este Framework Map-Reduce se encarga de programar y monitorear las tareas dadas por diferentes clientes … Continue reading «Hadoop: programadores y tipos de programadores»

Hadoop – Arquitectura

Como todos sabemos, Hadoop es un marco escrito en Java que utiliza un gran grupo de hardware básico para mantener y almacenar datos de gran tamaño. Hadoop funciona con el algoritmo de programación MapReduce que introdujo Google. Hoy en día, muchas empresas de grandes marcas están utilizando Hadoop en su organización para manejar grandes datos, … Continue reading «Hadoop – Arquitectura»