Hadoop: clúster, propiedades y sus tipos

Antes de comenzar a aprender sobre el clúster de Hadoop, lo primero que debemos saber es qué significa realmente el clúster . El clúster es una colección de algo, un clúster de computadoras simple es un grupo de varias computadoras que están conectadas entre sí a través de LAN (Red de área local), los Nodes en un clúster comparten los datos, trabajan en la misma tarea y estos Nodes son buenos suficiente para trabajar como una sola unidad significa que todos ellos trabajen juntos.

Del mismo modo, un clúster de Hadoop también es una colección de varios productos básicos de hardware (dispositivos económicos y ampliamente disponibles). Estos componentes de hardware funcionan juntos como una sola unidad. En el clúster de Hadoop, hay muchos Nodes (pueden ser computadoras y servidores) que contienen maestros y esclavos, el Node de nombre y el administrador de recursos funcionan como Nodes maestros y de datos, y el administrador de Nodes funciona como esclavo. El propósito de los Nodes maestros es guiar a los Nodes esclavos en un solo clúster de Hadoop. Diseñamos clústeres de Hadoop para almacenar, analizar, comprender y encontrar los hechos que se ocultan detrás de los datos o conjuntos de datos que contienen información crucial. El clúster de Hadoop almacena diferentes tipos de datos y los procesa.

  • Datos estructurados: los datos que están bien estructurados como Mysql.
  • Datos semiestructurados: los datos que tienen la estructura pero no el tipo de datos como XML, Json (notación de objetos Javascript).
  • Datos no estructurados: los datos que no tienen ninguna estructura como audio, video.

Esquema de clúster de Hadoop:

Hadoop-Cluster-Schema

Propiedades de los clústeres de Hadoop

Hadoop-Clusters-Properties

1. Escalabilidad: los clústeres de Hadoop son muy capaces de aumentar y reducir la cantidad de Nodes, es decir, servidores o hardware básico. Veamos con un ejemplo de lo que realmente significa esta propiedad escalable. Supongamos que una organización desea analizar o mantener alrededor de 5 PB de datos durante los próximos 2 meses, por lo que utilizó 10 Nodes (servidores) en su clúster de Hadoop para mantener todos estos datos. Pero ahora lo que sucede es que, entre este mes, la organización recibió datos adicionales de 2 PB, en ese caso, la organización debe configurar o actualizar la cantidad de servidores en su sistema de clúster de Hadoop de 10 a 12 (consideremos) para poder para mantenerlo El proceso de aumentar o reducir la cantidad de servidores en el clúster de Hadoop se denomina escalabilidad.

2. Flexibilidad: esta es una de las propiedades importantes que posee un clúster de Hadoop. De acuerdo con esta propiedad, el clúster de Hadoop es muy flexible, lo que significa que puede manejar cualquier tipo de datos, independientemente de su tipo y estructura. Con la ayuda de esta propiedad, Hadoop puede procesar cualquier tipo de datos de plataformas web en línea.

3. Velocidad: los clústeres de Hadoop son muy eficientes para trabajar con una velocidad muy rápida porque los datos se distribuyen entre el clúster y también por su capacidad de mapeo de datos, es decir, la arquitectura MapReduce que funciona en los fenómenos Maestro-Esclavo.

4. Sin pérdida de datos: no hay posibilidad de pérdida de datos de ningún Node en un clúster de Hadoop porque los clústeres de Hadoop tienen la capacidad de replicar los datos en algún otro Node. Entonces, en caso de falla de cualquier Node, no se pierden datos, ya que realiza un seguimiento de la copia de seguridad de esos datos.

5. Económico: Los clústeres de Hadoop son muy rentables ya que poseen la técnica de almacenamiento distribuido en sus clústeres, es decir, los datos se distribuyen en un clúster entre todos los Nodes. Entonces, en el caso de aumentar el almacenamiento, solo necesitamos agregar otro almacenamiento de hardware que no sea mucho más costoso.

Tipos de clústeres de Hadoop

1. Clúster de Hadoop de un solo Node
2. Clúster de Hadoop de varios Nodes

Types-of-Hadoop-clusters

1. Clúster de Hadoop de un solo Node: En el Clúster de Hadoop de un solo Node, como su nombre indica, el clúster es de un solo Node, lo que significa que todos nuestros Daemons de Hadoop, es decir, Node de nombre, Node de datos, Node de nombre secundario, Administrador de recursos, Administrador de Nodes se ejecutarán en el mismo sistema o en la misma máquina. También significa que todos nuestros procesos serán manejados por una sola instancia de proceso JVM (Java Virtual Machine).

2. Clúster de Hadoop de múltiples Nodes: En los clústeres de Hadoop de múltiples Nodes, como sugiere el nombre, contiene múltiples Nodes. En este tipo de configuración de clúster, todos nuestros Hadoop Daemons se almacenarán en diferentes Nodes en la misma configuración de clúster. En general, en la configuración del clúster Hadoop de múltiples Nodes, tratamos de utilizar nuestros Nodes de procesamiento superior para el Node maestro, es decir, el nombre y el administrador de recursos, y utilizamos el sistema más económico para el administrador de ieNode y el Node de datos del demonio esclavo.

Multiple-Node-Hadoop-Cluster

Publicación traducida automáticamente

Artículo escrito por dikshantmalidev y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *