hadoop | Historia o Evolución

Hadoop es un marco de código abierto supervisado por Apache Software Foundation que está escrito en Java para almacenar y procesar grandes conjuntos de datos con el clúster de hardware básico. Hay principalmente dos problemas con los grandes datos. El primero es almacenar una cantidad tan grande de datos y el segundo es procesar esos … Continue reading «hadoop | Historia o Evolución»

Los 7 mejores proyectos de Big Data de código abierto para mejorar sus habilidades

Big data es la próxima gran novedad en la industria tecnológica. Cuando se aprovecha al máximo, puede mejorar las prácticas comerciales. Y los proyectos de código abierto que utilizan big data son un gran factor que contribuye a ello. Muchas empresas ya utilizan software de código abierto porque es personalizable y técnicamente superior. Además, las … Continue reading «Los 7 mejores proyectos de Big Data de código abierto para mejorar sus habilidades»

Cómo se ejecuta el trabajo en MapReduce

MapReduce se puede usar para trabajar con una sola llamada de método: enviar() en un objeto de trabajo (también puede llamar a waitForCompletion() , que presenta la actividad en caso de que no se haya enviado correctamente, entonces se sienta firme para que termine).  Entendamos los componentes: Cliente: Envío del trabajo de MapReduce. Administrador de … Continue reading «Cómo se ejecuta el trabajo en MapReduce»

Arquitectura de HBase

Requisitos previos:  introducción a Hadoop , Apache HBase  La arquitectura HBase tiene 3 componentes principales: HMaster, Region Server, Zookeeper.  Figura – Arquitectura de HBase  Los 3 componentes se describen a continuación:   HMaster:  la implementación de Master Server en HBase es HMaster. Es un proceso en el que las regiones se asignan al servidor de regiones, … Continue reading «Arquitectura de HBase»

Diferencia entre Hadoop y Teradata

Hadoop es un marco de programación de software donde se almacena y utiliza una gran cantidad de datos para realizar el cálculo. Su marco se basa en la programación de Java, que es similar a C y scripts de shell. En otras palabras, podemos decir que es una plataforma que se utiliza para administrar datos, … Continue reading «Diferencia entre Hadoop y Teradata»

Voluntariado y Grid Computing | Hadoop

¿Qué es la Informática Voluntaria? Cuando las personas se enteran por primera vez de Hadoop y MapReduce, a menudo preguntan: «¿En qué se diferencia de SETI@home?» SETI , la Búsqueda de Inteligencia Extraterrestre, ejecuta una empresa llamada SETI@home en la que los voluntarios dan tiempo de CPU desde sus PC generalmente inactivas para examinar la … Continue reading «Voluntariado y Grid Computing | Hadoop»

Arquitectura y funcionamiento de Hive

Requisito previo: Introducción a Hadoop , Apache Hive  Los componentes principales de Hive y su interacción con Hadoop se muestran en la siguiente figura y todos los componentes se describen con más detalle:  Interfaz de usuario (UI):  como su nombre lo describe, la interfaz de usuario proporciona una interfaz entre el usuario y la colmena. … Continue reading «Arquitectura y funcionamiento de Hive»

Copia de seguridad y restauración de datos en Cassandra

En este artículo, discutiremos cómo podemos hacer una copia de seguridad y restaurar nuestros datos y también discutiremos de cuántas maneras podemos restaurar nuestros datos en Cassandra . Podemos restaurar nuestros datos usando una instantánea y usando la utilidad sstableloader y usando una actualización de nodetool. Vamos a discutir uno por uno. Primero, vamos a … Continue reading «Copia de seguridad y restauración de datos en Cassandra»

Introducción de NewSQL | conjunto 2

Requisito previo: introducción a NoSQL , diferencia entre SQL y NoSQL El término NewSQL no es exactamente tan amplio como NoSQL. Todos los sistemas NewSQL comienzan con el modelo de datos relacionales y el lenguaje de consulta SQL y todos intentan cubrir una parte de tipos similares de escalabilidad, flexibilidad o falta de enfoque que … Continue reading «Introducción de NewSQL | conjunto 2»

Diferencia entre datos estructurados, semiestructurados y no estructurados

Big Data incluye gran volumen, alta velocidad y variedad extensible de datos. Estos son 3 tipos: datos estructurados, datos semiestructurados y datos no estructurados.   Datos estructurados:  los datos estructurados son datos cuyos elementos son direccionables para un análisis efectivo. Se ha organizado en un repositorio formateado que suele ser una base de datos. Se trata … Continue reading «Diferencia entre datos estructurados, semiestructurados y no estructurados»