Apache HIVE: características y limitaciones

Apache Hive es una herramienta de almacenamiento de datos construida sobre Hadoop y utilizada para extraer información significativa de los datos. El almacenamiento de datos se trata de almacenar todo tipo de datos generados a partir de diferentes fuentes en la misma ubicación. Los datos están disponibles principalmente en 3 formas, es decir, estructurados (base … Continue reading «Apache HIVE: características y limitaciones»

Marcos de Big Data: Hadoop vs Spark vs Flink

Hadoop es el Framework de código abierto basado en Apache escrito en Java . Es una de las famosas herramientas de Big Data que proporciona la función de almacenamiento distribuido utilizando su sistema de archivos HDFS (Sistema de archivos distribuido de Hadoop) y el procesamiento distribuido utilizando el modelo de programación Map-Reduce. Hadoop utiliza un … Continue reading «Marcos de Big Data: Hadoop vs Spark vs Flink»

¿Qué es Schema On Read y Schema On Write en Hadoop?

Schema on-Read es el nuevo enfoque de investigación de datos en nuevas herramientas como Hadoop y otras tecnologías de manejo de datos. En este esquema, el analista tiene que identificar cada conjunto de datos que lo hace más versátil. Este esquema se utiliza cuando la organización de los datos no es el objetivo óptimo, pero … Continue reading «¿Qué es Schema On Read y Schema On Write en Hadoop?»

¿Cómo configurar el Eclipse con Apache Hadoop?

Eclipse es un IDE (Entorno de desarrollo integrado) que ayuda a crear y construir una aplicación según nuestros requisitos. Y Hadoop se usa para almacenar y procesar grandes datos. Y si tiene requisitos para configurar Eclipse con Hadoop, puede seguir esta sección paso a paso. Aquí, discutiremos 8 pasos en los que verá la parte … Continue reading «¿Cómo configurar el Eclipse con Apache Hadoop?»

Cómo ejecutar el programa WordCount en MapReduce usando Cloudera Distribution Hadoop (CDH)

Requisitos previos: Hadoop y MapReduce Contar la cantidad de palabras en cualquier idioma es pan comido como en C, C++, Python, Java, etc. MapReduce también usa Java, pero es muy fácil si conoce la sintaxis sobre cómo escribirlo. Es el básico de MapReduce. Primero aprenderá cómo ejecutar este código similar al programa «Hello World» en … Continue reading «Cómo ejecutar el programa WordCount en MapReduce usando Cloudera Distribution Hadoop (CDH)»

Hadoop: una solución para grandes datos

Desperdiciar la información útil oculta detrás de los datos puede ser un obstáculo peligroso para las industrias, e ignorar esta información finalmente hace retroceder el crecimiento de su industria. ¿Datos? ¿Grandes datos? Qué tan grande crees que es, sí, es realmente enorme en volumen con gran velocidad, variedad, veracidad y valor. Entonces, ¿cómo crees que … Continue reading «Hadoop: una solución para grandes datos»

Los mejores lenguajes de programación para Apache Spark

Se ha observado con tanta frecuencia que las personas u organizaciones no se enfocan en seleccionar el idioma correcto antes de trabajar en cualquier proyecto. Sin embargo, hay ciertos criterios a tener en cuenta antes de seguir adelante, como una combinación perfecta de datos, implementación correcta, precisión, modelos de datos , etc. El punto es … Continue reading «Los mejores lenguajes de programación para Apache Spark»

Hadoop: comando copyFromLocal

El comando Hadoop copyFromLocal se usa para copiar el archivo de su sistema de archivos local al HDFS (Sistema de archivos distribuidos de Hadoop). El comando copyFromLocal tiene un interruptor opcional -f que se usa para reemplazar el archivo ya existente en el sistema, lo que significa que se puede usar para actualizar ese archivo. … Continue reading «Hadoop: comando copyFromLocal»

Hive – Cargar datos en la tabla

Las tablas de Hive nos proporcionan el esquema para almacenar datos en varios formatos (como CSV). Hive proporciona varias formas de agregar datos a las tablas. Podemos usar consultas DML (lenguaje de manipulación de datos) en Hive para importar o agregar datos a la tabla. También se puede poner la tabla directamente en la colmena … Continue reading «Hive – Cargar datos en la tabla»

Características de HDFS

HDFS es uno de los principales componentes de Hadoop que proporciona una forma eficiente de almacenamiento de datos en un clúster de Hadoop. Pero antes de comprender las características de HDFS, sepamos qué es un sistema de archivos y un sistema de archivos distribuido. Podemos decir que un sistema de archivos es una arquitectura de … Continue reading «Características de HDFS»