¿Cómo configurar Windows para compilar un proyecto con Apache Spark Code sin instalarlo?

Apache Spark es un motor de análisis unificado y se utiliza para procesar datos a gran escala. Apache Spark proporciona la funcionalidad para conectarse con otros lenguajes de programación como Java, Python, R, etc. mediante el uso de API. Proporciona una manera fácil de configurar con otro IDE para realizar nuestras tareas según sus requisitos. … Continue reading «¿Cómo configurar Windows para compilar un proyecto con Apache Spark Code sin instalarlo?»

Diferencia entre Hadoop y colmena

Hadoop: Hadoop es un marco o software que se inventó para administrar grandes datos o Big Data. Hadoop se utiliza para almacenar y procesar grandes datos distribuidos en un grupo de servidores básicos. Hadoop almacena los datos mediante el sistema de archivos distribuido Hadoop y los procesa/consulta mediante el modelo de programación Map-Reduce. Hive: Hive … Continue reading «Diferencia entre Hadoop y colmena»

MapReduce – Combinadores

Map-Reduce es un modelo de programación que se utiliza para procesar conjuntos de datos de gran tamaño en sistemas distribuidos en Hadoop. La fase de mapa y la fase de reducción son las dos partes importantes principales de cualquier trabajo de Map-Reduce. Las aplicaciones de Map-Reduce están limitadas por el ancho de banda disponible en … Continue reading «MapReduce – Combinadores»

Apache Hive: Introducción a la creación y eliminación de bases de datos HQL

Requisito previo: Instalación de Hive 3.1.2, Instalación de Hadoop 3.1.2 HiveQL o HQL es un lenguaje de consulta de Hive que usamos para procesar o consultar datos estructurados en Hive. Las sintaxis de HQL son muy similares a MySQL pero tienen algunas diferencias significativas. Usaremos el comando hive , que es un script de shell … Continue reading «Apache Hive: Introducción a la creación y eliminación de bases de datos HQL»

Prueba de concepto sobre agregador de noticias usando tecnologías de Big Data

Big Data es un gran conjunto de datos que puede tener un gran volumen de datos, velocidad y variedad de datos. Por ejemplo, miles de millones de usuarios buscan en Google al mismo tiempo y ese será un conjunto de datos muy grande. En este, discutiremos la prueba de concepto (POC) en un agregador de … Continue reading «Prueba de concepto sobre agregador de noticias usando tecnologías de Big Data»

Multiplicación de arrays con 1 paso MapReduce

MapReduce es una técnica en la que un gran programa se subdivide en pequeñas tareas y se ejecuta en paralelo para acelerar el cálculo, ahorrar tiempo y se utiliza principalmente en sistemas distribuidos. Tiene 2 partes importantes:  Mapeador: toma la entrada de datos sin procesar y los organiza en pares de valores clave. Por ejemplo, … Continue reading «Multiplicación de arrays con 1 paso MapReduce»

Diferencia entre RDBMS y Hadoop

RDMS (Sistema de gestión de bases de datos relacionales): RDBMS es un sistema de gestión de información, que se basa en un modelo de datos. En RDBMS, las tablas se utilizan para el almacenamiento de información. Cada fila de la tabla representa un registro y cada columna representa un atributo de datos. La organización de … Continue reading «Diferencia entre RDBMS y Hadoop»

Varios sistemas de archivos en Hadoop

Hadoop es un marco de software de código abierto escrito en Java junto con algunos scripts de shell y código C para realizar cálculos sobre datos muy grandes. Hadoop se utiliza para el procesamiento por lotes/fuera de línea en la red de tantas máquinas que forman un clúster físico. El marco funciona de tal manera … Continue reading «Varios sistemas de archivos en Hadoop»

Hadoop – HDFS (Sistema de archivos distribuidos de Hadoop)

Antes de pasar a aprender sobre el HDFS (Sistema de archivos distribuido de Hadoop), debemos saber qué es realmente el sistema de archivos. El sistema de archivos es un tipo de estructura de datos o método que usamos en un sistema operativo para administrar archivos en el espacio del disco. Esto significa que permite al … Continue reading «Hadoop – HDFS (Sistema de archivos distribuidos de Hadoop)»

Instalación y configuración de Hadoop en modo pseudodistribuido en Windows 10

Para realizar la configuración e instalación de Hadoop en el modo pseudodistribuido en Windows 10, siga los siguientes pasos que se detallan a continuación. Discutamos uno por uno. Paso 1: Descargue el paquete binario: Descargue el último binario del siguiente sitio de la siguiente manera. http://hadoop.apache.org/releases.html Como referencia, puede verificar que el archivo se guarde … Continue reading «Instalación y configuración de Hadoop en modo pseudodistribuido en Windows 10»