Diferencia entre Hadoop y MongoDB

Hadoop: Apache Hadoop es un marco de programación de software donde se almacena y utiliza una gran cantidad de datos para realizar el cálculo. Su marco se basa en la programación de Java, que es similar a C y scripts de shell. En otras palabras, podemos decir que es una plataforma que se utiliza para … Continue reading «Diferencia entre Hadoop y MongoDB»

Creación de una tabla de base de datos mediante el lenguaje de consulta de Hive (HQL)

Hive es una solución de almacenamiento de datos construida sobre Hadoop . En Hive, los datos se administran en el sistema de archivos distribuido de Hadoop (HDFS). En este esquema, al leer no se requiere verificación de restricciones como se requiere en RDBMS. Está especialmente diseñado para trabajar con un conjunto de datos muy grande. … Continue reading «Creación de una tabla de base de datos mediante el lenguaje de consulta de Hive (HQL)»

Hadoop: bloques de archivos y factor de replicación

Hadoop Distributed File System, es decir, HDFS se utiliza en Hadoop para almacenar los datos, lo que significa que todos nuestros datos se almacenan en HDFS. Hadoop también es conocido por su técnica de almacenamiento eficiente y confiable. Entonces, ¿alguna vez se preguntó cómo Hadoop hace que su almacenamiento sea tan eficiente y confiable? Sí, … Continue reading «Hadoop: bloques de archivos y factor de replicación»

Diferencia entre Hadoop y Splunk

Hadoop: la biblioteca de software Apache Hadoop es un marco que permite el procesamiento distribuido de grandes conjuntos de datos en grupos de computadoras utilizando modelos de programación simples. En términos simples, Hadoop es un marco para procesar ‘Big Data’ . Está diseñado para escalar desde servidores individuales a miles de máquinas, cada una de … Continue reading «Diferencia entre Hadoop y Splunk»

¿Qué son los datos semiestructurados?

Los datos semiestructurados son datos que no se ajustan a un modelo de datos pero tienen alguna estructura. Carece de un esquema fijo o rígido. Son los datos que no residen en una base de datos racional pero que tienen algunas propiedades organizativas que facilitan su análisis. Con algunos procesos, podemos almacenarlos en la base … Continue reading «¿Qué son los datos semiestructurados?»

Los 5 mejores libros recomendados para aprender Hadoop

Hadoop es una herramienta de Big Data que está escrita en Java para analizar y manejar datos de gran tamaño utilizando sistemas/servidores más baratos. También es conocido por su técnica de almacenamiento eficiente y confiable. Hadoop funciona con el algoritmo de programación MapReduce y la arquitectura maestro-esclavo. Las principales empresas como Facebook, Yahoo, Netflix, eBay, … Continue reading «Los 5 mejores libros recomendados para aprender Hadoop»

Colmena – Alterar base de datos

Apache Hive viene con una base de datos ya creada con el nombre predeterminado . La base de datos predeterminada no se puede modificar en Hive porque está restringida. Para cada base de datos creada con éxito, la alteración se puede realizar según los requisitos del usuario. La alteración en la base de datos se … Continue reading «Colmena – Alterar base de datos»

Diferencia entre Apache Hadoop y Apache Storm

Apache Hadoop: es una colección de utilidades de software de código abierto que facilitan el uso de una red de muchas computadoras para resolver problemas que involucran cantidades masivas de datos y computación. Proporciona un marco de software para el almacenamiento distribuido y el procesamiento de grandes datos utilizando el modelo de programación MapReduce.  Apache … Continue reading «Diferencia entre Apache Hadoop y Apache Storm»

Arquitectura MapReduce

MapReduce y HDFS son los dos componentes principales de Hadoop que lo hacen tan poderoso y eficiente de usar. MapReduce es un modelo de programación utilizado para el procesamiento eficiente en paralelo de grandes conjuntos de datos de forma distribuida. Los datos primero se dividen y luego se combinan para producir el resultado final. Las … Continue reading «Arquitectura MapReduce»

El mundo de los grandes datos

“Ningún poder en la tierra puede detener una idea cuyo momento ha llegado”. – Victor Hugo Big data es una de esas ideas notables. En el mundo socialmente activo de hoy en día, los datos están creciendo a un ritmo tremendo de 2,5 quintillones de bytes por día aproximadamente, y se espera que aumente en … Continue reading «El mundo de los grandes datos»