Diferencia entre MapReduce y Hive

MapReduce es un modelo que funciona sobre Hadoop para acceder a grandes datos almacenados de manera eficiente en HDFS (Sistema de archivos distribuidos de Hadoop). Es el componente central de Hadoop, que divide los grandes datos en pequeños fragmentos y los procesa en paralelo. 

Características de MapReduce: 

  • Puede almacenar y distribuir grandes cantidades de datos a través de varios servidores.
  • Permite a los usuarios almacenar datos en un mapa y reducir el formulario para procesarlos.
  • Protege el sistema para obtener cualquier acceso no autorizado.
  • Es compatible con el modelo de procesamiento paralelo.

Hive es una iniciativa iniciada por Facebook para proporcionar una interfaz de almacenamiento de datos tradicional para la programación de MapReduce. Para escribir consultas para MapReduce de forma SQL, el compilador de Hive las convierte en segundo plano para que se ejecuten en el clúster de Hadoop. Ayuda a los programadores a usar su conocimiento de SQL en lugar de centrarse en desarrollar un nuevo lenguaje. 

Características de la colmena: 

  • Proporcione un lenguaje de tipo SQL que se llama HQL.
  • Ayuda a consultar grandes conjuntos de datos almacenados en HDFS (Sistema de archivos distribuidos de Hadoop).
  • Es una herramienta de código abierto.
  • Admite vistas de proyectos flexibles y facilita la visualización de datos.

MapReduce frente a Hive

S.No Mapa reducido Colmena
1. Es un lenguaje de procesamiento de datos. Es un lenguaje de consulta similar a SQL.
2. Convierte el trabajo en funciones map-reduce. Convierte las consultas SQL a HQL (Hive-QL)
3. Proporciona un bajo nivel de abstracción. Proporciona un alto nivel de abstracción.
4. Es difícil para el usuario realizar operaciones de combinación. Facilita al usuario realizar operaciones similares a SQL en HDFS.
5. El usuario tiene que escribir 10 veces más líneas de código para realizar una tarea similar a la de Pig. El usuario tiene que escribir unas pocas líneas de código que MapReduce.
6. Tiene varios trabajos por lo que el tiempo de ejecución es mayor. El tiempo de ejecución del código es mayor pero el esfuerzo de desarrollo es menor.
7. Es compatible con versiones de Hadoop. También es compatible con versiones recientes de Hadoop.

Publicación traducida automáticamente

Artículo escrito por manmeetjuneja5 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *