MapReduce es un modelo que funciona sobre Hadoop para acceder a grandes datos almacenados de manera eficiente en HDFS (Sistema de archivos distribuidos de Hadoop). Es el componente central de Hadoop, que divide los grandes datos en pequeños fragmentos y los procesa en paralelo.
Características de MapReduce:
- Puede almacenar y distribuir grandes cantidades de datos a través de varios servidores.
- Permite a los usuarios almacenar datos en un mapa y reducir el formulario para procesarlos.
- Protege el sistema para obtener cualquier acceso no autorizado.
- Es compatible con el modelo de procesamiento paralelo.
Pig es una herramienta de código abierto que se basa en el ecosistema Hadoop para proporcionar un mejor procesamiento de Big Data. Es un lenguaje de secuencias de comandos de alto nivel que se conoce comúnmente como secuencias de comandos Pig Latin. Funciona en HDFS (Sistema de archivos distribuidos de Hadoop), que admite el uso de varios tipos de datos.
Características del cerdo:
- Permite al usuario crear funciones personalizadas definidas por el usuario.
- Es extensible al uso.
- Admite una variedad de tipos de datos, como funciones y esquemas flotantes de caracteres largos.
- Proporciona diferentes operaciones en HDFS como GROUP, FILTER, JOIN, SORT.
Diferencia entre MapReduce y Pig:
S.No |
Mapa reducido |
Cerdo |
---|---|---|
1. | Es un lenguaje de procesamiento de datos. | Es un lenguaje de flujo de datos. |
2. | Convierte el trabajo en funciones map-reduce. | Convierte la consulta en funciones map-reduce. |
3. | Es un lenguaje de bajo nivel. | es un lenguaje de alto nivel |
4. | Es difícil para el usuario realizar operaciones de combinación. | Hace que sea fácil para el usuario realizar operaciones de Unión. |
5. | El usuario tiene que escribir 10 veces más líneas de código para realizar una tarea similar a la de Pig. | El usuario tiene que escribir menos líneas de código porque admite el enfoque de consultas múltiples. |
6. | Tiene varios trabajos por lo que el tiempo de ejecución es mayor. | Es menos tiempo de compilación ya que el operador Pig lo convierte en trabajos de MapReduce. |
7. | Es compatible con versiones recientes de Hadoop. | Es compatible con todas las versiones de Hadoop. |
Publicación traducida automáticamente
Artículo escrito por manmeetjuneja5 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA