Diferencia entre Hadoop y Apache Spark

Hadoop es una colección de utilidades de software de código abierto que facilitan el uso de una red de muchas computadoras para resolver problemas que involucran cantidades masivas de datos y computación. Proporciona un marco de software para el almacenamiento distribuido y el procesamiento de grandes datos utilizando el modelo de programación MapReduce. 

Hadoop está construido en Java y es accesible a través de muchos lenguajes de programación para escribir código MapReduce, incluido Python, a través de un cliente Thrift. Está disponible como código abierto a través de la distribución de Apache o a través de proveedores como Cloudera (el mayor proveedor de Hadoop por tamaño y alcance), MapR o HortonWorks. 

Apache Spark es un marco de computación en clúster de propósito general distribuido de código abierto. Spark proporciona una interfaz para programar clústeres completos con paralelismo de datos implícito y tolerancia a fallas. 

Spark está estructurado en torno a Spark Core, el motor que impulsa la programación, las optimizaciones y la abstracción de RDD, además de conectar Spark al sistema de archivos correcto (HDFS, S3, RDBMS o Elasticsearch). Hay varias bibliotecas que funcionan sobre Spark Core, incluido Spark SQL, que le permite ejecutar comandos similares a SQL en conjuntos de datos distribuidos, MLLib para aprendizaje automático, GraphX ​​para problemas de gráficos y transmisión que permite la entrada de transmisión continua. Dato de registro. 
 

Hadoop-vs-Apache-Spark

Hadoop frente a Apache Spark

Características Hadoop chispa apache
Procesamiento de datos Apache Hadoop proporciona procesamiento por lotes Apache Spark proporciona procesamiento por lotes y flujo de procesamiento
Uso de memoria Hadoop está vinculado al disco  Spark usa grandes cantidades de RAM
Seguridad Mejores características de seguridad Su seguridad está actualmente en su infancia.
Tolerancia a fallos La replicación se utiliza para la tolerancia a errores. RDD y varios modelos de almacenamiento de datos se utilizan para la tolerancia a fallas.
Procesamiento de gráficos Se utilizan algoritmos como PageRank. Spark viene con una biblioteca de cálculo de gráficos llamada GraphX.
Facilidad de uso Difícil de usar. Más fácil de usar.
Procesamiento de datos en tiempo real Falla cuando se trata de procesamiento de datos en tiempo real. Puede procesar datos en tiempo real.
Velocidad El modelo MapReduce de Hadoop lee y escribe desde un disco, por lo que ralentiza la velocidad de procesamiento. Spark reduce la cantidad de ciclos de lectura/escritura en el disco y almacena datos intermedios en la memoria, por lo tanto, la velocidad de procesamiento es más rápida.
Latencia Es un marco de computación de alta latencia. Es una computación de baja latencia y puede procesar datos de forma interactiva.

Publicación traducida automáticamente

Artículo escrito por rakshitarora y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *