Caché distribuida en Hadoop MapReduce

El marco MapReduce de Hadoop brinda la posibilidad de almacenar en caché archivos pequeños a moderados de solo lectura, como archivos de texto, archivos zip, archivos jar, etc. y transmitirlos a todos los Nodes de datos (Nodes de trabajo) donde se ejecuta el trabajo de MapReduce. Cada Datanode obtiene una copia del archivo (copia local) … Continue reading «Caché distribuida en Hadoop MapReduce»

Cómo se ejecuta el trabajo en MapReduce

MapReduce se puede usar para trabajar con una sola llamada de método: enviar() en un objeto de trabajo (también puede llamar a waitForCompletion() , que presenta la actividad en caso de que no se haya enviado correctamente, entonces se sienta firme para que termine).  Entendamos los componentes: Cliente: Envío del trabajo de MapReduce. Administrador de … Continue reading «Cómo se ejecuta el trabajo en MapReduce»

Tutorial de Hadoop

Big Data es una colección de datos que está creciendo exponencialmente, y es enorme en volumen con mucha complejidad ya que proviene de varios recursos. Estos datos pueden ser datos estructurados, no estructurados o semiestructurados. Entonces, para manejarlo o administrarlo de manera eficiente, Hadoop entra en escena. Hadoop es un marco escrito en el lenguaje … Continue reading «Tutorial de Hadoop»

colmena apache

Requisitos previos: introducción a Hadoop , plataformas informáticas y tecnologías  Apache Hivees un almacén de datos y una herramienta ETL que proporciona una interfaz similar a SQL entre el usuario y el sistema de archivos distribuido de Hadoop (HDFS) que integra Hadoop. Está construido sobre Hadoop. Es un proyecto de software que proporciona consulta y … Continue reading «colmena apache»

hadoop | Historia o Evolución

Hadoop es un marco de código abierto supervisado por Apache Software Foundation que está escrito en Java para almacenar y procesar grandes conjuntos de datos con el clúster de hardware básico. Hay principalmente dos problemas con los grandes datos. El primero es almacenar una cantidad tan grande de datos y el segundo es procesar esos … Continue reading «hadoop | Historia o Evolución»

Introducción al sistema de archivos distribuidos de Hadoop (HDFS)

Con el aumento de la velocidad de los datos, el tamaño de los datos supera fácilmente el límite de almacenamiento de una máquina. Una solución sería almacenar los datos en una red de máquinas. Estos sistemas de archivos se denominan sistemas de archivos distribuidos . Dado que los datos se almacenan en una red, entran … Continue reading «Introducción al sistema de archivos distribuidos de Hadoop (HDFS)»

Colmena – Mesa desplegable

Apache Hive es una herramienta de almacenamiento de datos que usamos para administrar nuestros datos de estructura en Hadoop. Las tablas en la colmena se utilizan para almacenar datos en formato tabular (estructurado). Hive es muy capaz de consultar petabytes de registros almacenados dentro de la tabla Hive. El comando DROP TABLE en la colmena … Continue reading «Colmena – Mesa desplegable»

Análisis de datos con Unix – Parte 1

Para comprender cómo trabajar con Unix, se utilizan los datos: Weather Dataset. Los sensores meteorológicos recopilan datos constantemente en numerosas áreas del mundo y recopilan una gran cantidad de datos de registro, lo cual es una posibilidad decente para investigar con MapReduce porque se requiere procesar cada uno de los datos, y los datos se … Continue reading «Análisis de datos con Unix – Parte 1»

Diferencia entre Hadoop y Cassandra

Hadoop es un marco de programación de software de código abierto. El marco de trabajo de Hadoop se basa en el lenguaje de programación Java con algo de código nativo en shell script y C .  Este marco se utiliza para administrar, almacenar y procesar los datos y el cálculo para las diferentes aplicaciones de … Continue reading «Diferencia entre Hadoop y Cassandra»

Diferencia entre Hadoop 2.x y Hadoop 3.x

El viaje de Hadoop comenzó en 2005 por Doug Cutting y Mike Cafarella. ¿Cuál es una compilación de software de código abierto para manejar datos de gran tamaño? El objetivo de este artículo es familiarizarlo con las diferencias entre la versión Hadoop 2.x y Hadoop 3.x. Obviamente, Hadoop 3.x tiene algunas funciones más avanzadas y … Continue reading «Diferencia entre Hadoop 2.x y Hadoop 3.x»