Hadoop es un marco de programación de software de código abierto para almacenar una gran cantidad de datos y realizar el cálculo. Su framework está basado en programación Java con algo de código nativo en C y scripts de shell.
Hadoop 1 frente a Hadoop 2
1. Componentes: en Hadoop 1 tenemos MapReduce pero Hadoop 2 tiene YARN (Yet Another Resource Negotiator) y MapReduce versión 2.
Hadoop 1 | hadoop2 |
---|---|
HDFS | HDFS |
Mapa reducido | HILO / MRv2 |
2. Demonios:
Hadoop 1 | hadoop2 |
---|---|
Node de nombre | Node de nombre |
Node de datos | Node de datos |
Node de nombre secundario | Node de nombre secundario |
Rastreador de trabajos | Administrador de recursos |
Rastreador de tareas | Administrador de Nodes |
3. Trabajo:
- En Hadoop 1 , hay HDFS que se utiliza para el almacenamiento y, además, Map Reduce, que funciona como gestión de recursos y procesamiento de datos. Debido a esta carga de trabajo en Map Reduce, afectará el rendimiento.
- En Hadoop 2 , nuevamente hay HDFS que se usa nuevamente para el almacenamiento y, además de HDFS, está YARN que funciona como administración de recursos. Básicamente, asigna los recursos y mantiene todas las cosas en marcha.
4. Limitaciones: Hadoop 1 es una arquitectura Maestro-Esclavo. Se compone de un solo maestro y varios esclavos. Supongamos que si el Node maestro se bloqueó, independientemente de sus mejores Nodes esclavos, su clúster será destruido. Una vez más, crear ese clúster significa que copiar archivos del sistema, archivos de imágenes, etc. en otro sistema consume demasiado tiempo, lo que no será tolerado por las organizaciones en la actualidad. Hadoop 2 también es una arquitectura Master-Slave. Pero esto consta de múltiples maestros (es decir, Nodes de nombres activos y Nodes de nombres en espera) y múltiples esclavos. Si aquí el Node maestro se bloqueó, el Node maestro en espera se hará cargo de él. Puede hacer múltiples combinaciones de Nodes activo-en espera. Por lo tanto, Hadoop 2 eliminará el problema de un único punto de falla .
5. Ecosistema:
- Oozie es básicamente un programador de flujo de trabajo. Decide el tiempo particular de ejecución de los trabajos según su dependencia.
- Pig, Hive y Mahout son herramientas de procesamiento de datos que funcionan sobre Hadoop.
- Sqoop se utiliza para importar y exportar datos estructurados. Puede importar y exportar directamente los datos a HDFS utilizando la base de datos SQL.
- Flume se utiliza para importar y exportar los datos no estructurados y los datos de transmisión.
6. Soporte de Windows:
en Hadoop 1 no hay soporte para Microsoft Windows provisto por Apache mientras que en Hadoop 2 hay soporte para Microsoft Windows.
Publicación traducida automáticamente
Artículo escrito por AnkitSelwal y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA