Introducción a Hadoop

¿Qué es Hadoop? Hadoop es un marco de programación de software de código abierto para almacenar una gran cantidad de datos y realizar el cálculo. Su framework está basado en programación Java con algo de código nativo en C y scripts de shell. Historia de Hadoop Apache Software Foundation es el desarrollador de Hadoop, y … Continue reading «Introducción a Hadoop»

Tecnologías populares de Big Data

Grandes datostrata con grandes conjuntos de datos o trata con el complejo que maneja el software de aplicación de procesamiento de datos tradicional. Tiene tres conceptos clave como volumen, variedad y velocidad. En volumen, determinando el tamaño de los datos y en variedad, los datos serán categorizados, los medios determinarán el tipo de datos como … Continue reading «Tecnologías populares de Big Data»

¿Los datos oscuros tienen algún valor en el mundo de los grandes datos?

¡Big Data es el nuevo petróleo en los tiempos modernos! ¡Y aquellas empresas que pueden analizar estos datos para obtener información procesable son los nuevos súper ricos! Cada vez más empresas comprenden este hecho e invierten en Big Data Analytics . Tanto es así que este número ha alcanzado el 53 % en 2017 , … Continue reading «¿Los datos oscuros tienen algún valor en el mundo de los grandes datos?»

Protocolo de chismes en Cassandra

En este artículo, veremos brevemente el protocolo Gossip que se implementa en la base de datos Apache Cassandra . En este artículo, discutiremos el protocolo Gossip y cómo Cassandra logra la coordinación entre los Nodes y cómo los Nodes se mantienen sincronizados. En Cassandra, todos los Nodes son iguales y tienen una arquitectura de igual … Continue reading «Protocolo de chismes en Cassandra»

colmena apache

Requisitos previos: introducción a Hadoop , plataformas informáticas y tecnologías  Apache Hivees un almacén de datos y una herramienta ETL que proporciona una interfaz similar a SQL entre el usuario y el sistema de archivos distribuido de Hadoop (HDFS) que integra Hadoop. Está construido sobre Hadoop. Es un proyecto de software que proporciona consulta y … Continue reading «colmena apache»

Características de HDFS

HDFS es uno de los principales componentes de Hadoop que proporciona una forma eficiente de almacenamiento de datos en un clúster de Hadoop. Pero antes de comprender las características de HDFS, sepamos qué es un sistema de archivos y un sistema de archivos distribuido. Podemos decir que un sistema de archivos es una arquitectura de … Continue reading «Características de HDFS»

Prueba de concepto sobre agregador de noticias usando tecnologías de Big Data

Big Data es un gran conjunto de datos que puede tener un gran volumen de datos, velocidad y variedad de datos. Por ejemplo, miles de millones de usuarios buscan en Google al mismo tiempo y ese será un conjunto de datos muy grande. En este, discutiremos la prueba de concepto (POC) en un agregador de … Continue reading «Prueba de concepto sobre agregador de noticias usando tecnologías de Big Data»

Las 5 mejores bibliotecas de Python para Big Data

Hoy en día, Python se ha convertido en el primer idioma preferido de todos, especialmente cuando se trata de DATOS en todas partes. Nunca ha decepcionado a nadie cuando se trata de análisis de datos, visualización, extracción de datos, etc. El único propósito de su amplio usuario es su lenguaje sencillo que facilita la realización … Continue reading «Las 5 mejores bibliotecas de Python para Big Data»

Introducción al sistema de archivos distribuidos de Hadoop (HDFS)

Con el aumento de la velocidad de los datos, el tamaño de los datos supera fácilmente el límite de almacenamiento de una máquina. Una solución sería almacenar los datos en una red de máquinas. Estos sistemas de archivos se denominan sistemas de archivos distribuidos . Dado que los datos se almacenan en una red, entran … Continue reading «Introducción al sistema de archivos distribuidos de Hadoop (HDFS)»