Integración del lenguaje de programación Hadoop y R

Hadoop es un marco de código abierto que fue presentado por ASF (Apache Software Foundation) . Hadoop es el marco más crucial para copiar con Big Data. Hadoop ha sido escrito en Java y no está basado en OLAP (Online Analytical Processing) . La mejor parte de este marco de big data es que es … Continue reading «Integración del lenguaje de programación Hadoop y R»

Arquitectura y funcionamiento de Hive

Requisito previo: Introducción a Hadoop , Apache Hive  Los componentes principales de Hive y su interacción con Hadoop se muestran en la siguiente figura y todos los componentes se describen con más detalle:  Interfaz de usuario (UI):  como su nombre lo describe, la interfaz de usuario proporciona una interfaz entre el usuario y la colmena. … Continue reading «Arquitectura y funcionamiento de Hive»

Hadoop: características de Hadoop que lo hacen popular

Hoy en día, toneladas de empresas están adoptando las herramientas de Big Data de Hadoop  para resolver sus consultas de Big Data y sus segmentos de mercado de clientes. También hay muchas otras herramientas disponibles en el mercado, como HPCC desarrollada por LexisNexis Risk Solution, Storm, Qubole, Cassandra, Statwing, CouchDB, Pentaho, Openrefine, Flink, etc. Entonces, … Continue reading «Hadoop: características de Hadoop que lo hacen popular»

Importar y exportar datos usando SQOOP

SQOOP se utiliza básicamente para transferir datos desde bases de datos relacionales como MySQL, Oracle a almacenes de datos como Hadoop HDFS (Hadoop File System). Por lo tanto, cuando se transfieren datos de una base de datos relacional a HDFS , decimos que estamos importando datos. De lo contrario, cuando transferimos datos de HDFS a … Continue reading «Importar y exportar datos usando SQOOP»

Apache Spark con Scala: conjunto de datos distribuido resistente

En el mundo moderno, nos enfrentamos a grandes conjuntos de datos todos los días. Los datos están creciendo incluso más rápido que las velocidades de procesamiento. Para realizar cálculos en datos tan grandes, a menudo se logra mediante el uso de sistemas distribuidos. Un sistema distribuido consta de clústeres (Nodes/computadoras en red) que ejecutan procesos … Continue reading «Apache Spark con Scala: conjunto de datos distribuido resistente»

Voluntariado y Grid Computing | Hadoop

¿Qué es la Informática Voluntaria? Cuando las personas se enteran por primera vez de Hadoop y MapReduce, a menudo preguntan: «¿En qué se diferencia de SETI@home?» SETI , la Búsqueda de Inteligencia Extraterrestre, ejecuta una empresa llamada SETI@home en la que los voluntarios dan tiempo de CPU desde sus PC generalmente inactivas para examinar la … Continue reading «Voluntariado y Grid Computing | Hadoop»

Inicialización del trabajo en MapReduce

El administrador de recursos entrega la solicitud al programador de YARN cuando recibe una llamada a su método submitApplication() . El administrador de recursos inicia el proceso del maestro de aplicaciones allí cuando el programador asigna un contenedor bajo la administración del administrador de Nodes. MRAppMaster es la clase principal de la aplicación Java para … Continue reading «Inicialización del trabajo en MapReduce»

Diferencia entre Hadoop y Spark

Hadoop: Hadoop comenzó como un proyecto de Yahoo en 2006, que luego se convirtió en un proyecto de código abierto de Apache de alto nivel. Es una forma de uso general de procesamiento distribuido que tiene varios componentes: el sistema de archivos distribuidos de Hadoop (HDFS), almacena archivos en un formato nativo de Hadoop y … Continue reading «Diferencia entre Hadoop y Spark»

Diferencia entre Hadoop 1 y Hadoop 2

Hadoop es un marco de programación de software de código abierto para almacenar una gran cantidad de datos y realizar el cálculo. Su framework está basado en programación Java con algo de código nativo en C y scripts de shell. Hadoop 1 frente a Hadoop 2 1. Componentes: en Hadoop 1 tenemos MapReduce pero Hadoop … Continue reading «Diferencia entre Hadoop 1 y Hadoop 2»