Hadoop es una colección de utilidades de software de código abierto que facilitan el uso de una red de muchas computadoras para resolver problemas que involucran cantidades masivas de datos y computación. Proporciona un marco de software para el almacenamiento distribuido y el procesamiento de grandes datos utilizando el modelo de programación MapReduce.
Hadoop está construido en Java y es accesible a través de muchos lenguajes de programación para escribir código MapReduce, incluido Python, a través de un cliente Thrift. Está disponible como código abierto a través de la distribución de Apache o a través de proveedores como Cloudera (el mayor proveedor de Hadoop por tamaño y alcance), MapR o HortonWorks.
Apache Spark es un marco de computación en clúster de propósito general distribuido de código abierto. Spark proporciona una interfaz para programar clústeres completos con paralelismo de datos implícito y tolerancia a fallas.
Spark está estructurado en torno a Spark Core, el motor que impulsa la programación, las optimizaciones y la abstracción de RDD, además de conectar Spark al sistema de archivos correcto (HDFS, S3, RDBMS o Elasticsearch). Hay varias bibliotecas que funcionan sobre Spark Core, incluido Spark SQL, que le permite ejecutar comandos similares a SQL en conjuntos de datos distribuidos, MLLib para aprendizaje automático, GraphX para problemas de gráficos y transmisión que permite la entrada de transmisión continua. Dato de registro.
Hadoop frente a Apache Spark
Características | Hadoop | chispa apache |
---|---|---|
Procesamiento de datos | Apache Hadoop proporciona procesamiento por lotes | Apache Spark proporciona procesamiento por lotes y flujo de procesamiento |
Uso de memoria | Hadoop está vinculado al disco | Spark usa grandes cantidades de RAM |
Seguridad | Mejores características de seguridad | Su seguridad está actualmente en su infancia. |
Tolerancia a fallos | La replicación se utiliza para la tolerancia a errores. | RDD y varios modelos de almacenamiento de datos se utilizan para la tolerancia a fallas. |
Procesamiento de gráficos | Se utilizan algoritmos como PageRank. | Spark viene con una biblioteca de cálculo de gráficos llamada GraphX. |
Facilidad de uso | Difícil de usar. | Más fácil de usar. |
Procesamiento de datos en tiempo real | Falla cuando se trata de procesamiento de datos en tiempo real. | Puede procesar datos en tiempo real. |
Velocidad | El modelo MapReduce de Hadoop lee y escribe desde un disco, por lo que ralentiza la velocidad de procesamiento. | Spark reduce la cantidad de ciclos de lectura/escritura en el disco y almacena datos intermedios en la memoria, por lo tanto, la velocidad de procesamiento es más rápida. |
Latencia | Es un marco de computación de alta latencia. | Es una computación de baja latencia y puede procesar datos de forma interactiva. |
Publicación traducida automáticamente
Artículo escrito por rakshitarora y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA