Introducción a Hadoop

¿Qué es Hadoop?

Hadoop es un marco de programación de software de código abierto para almacenar una gran cantidad de datos y realizar el cálculo. Su framework está basado en programación Java con algo de código nativo en C y scripts de shell.

Historia de Hadoop

Apache Software Foundation es el desarrollador de Hadoop, y sus cofundadores son Doug Cutting y Mike Cafarella .
Su cofundador, Doug Cutting, lo nombró en el elefante de juguete de su hijo. En octubre de 2003, el primer lanzamiento en papel fue Google File System. En enero de 2006, el desarrollo de MapReduce comenzó en Apache Nutch, que constaba de alrededor de 6000 líneas codificadas para él y alrededor de 5000 líneas codificadas para HDFS. En abril de 2006 se lanzó Hadoop 0.1.0.

Sistema de archivos distribuido Hadoop

Tiene un sistema de archivos distribuido conocido como HDFS y este HDFS divide los archivos en bloques y los envía a través de varios Nodes en forma de grandes grupos. También en caso de falla de un Node, el sistema opera y se lleva a cabo la transferencia de datos entre los Nodes que es facilitada por HDFS.

HDFS

Ventajas de HDFS:
es económico, de naturaleza inmutable, almacena datos de manera confiable, tiene la capacidad de tolerar fallas, es escalable, está estructurado en bloques, puede procesar una gran cantidad de datos simultáneamente y mucho más.

Desventajas de HDFS:
Su mayor desventaja es que no es apto para pequeñas cantidades de datos. Además, tiene problemas relacionados con la estabilidad potencial, de naturaleza restrictiva y áspera.

Hadoop también es compatible con una amplia gama de paquetes de software como Apache Flumes, Apache Oozie, Apache HBase, Apache Sqoop, Apache Spark, Apache Storm, Apache Pig, Apache Hive, Apache Phoenix, Cloudera Impala.

Algunos marcos comunes de Hadoop

  1. Hive: utiliza HiveQl para la estructuración de datos y para escribir MapReduce complicado en HDFS.
  2. Drill- Consta de funciones definidas por el usuario y se utiliza para la exploración de datos.
  3. Storm: permite el procesamiento y la transmisión de datos en tiempo real.
  4. Spark: contiene una biblioteca de aprendizaje automático (MLlib) para proporcionar un aprendizaje automático mejorado y se usa ampliamente para el procesamiento de datos. También es compatible con Java, Python y Scala.
  5. Pig: tiene Pig Latin, un lenguaje similar a SQL y realiza la transformación de datos no estructurados.
  6. Tez: reduce las complejidades de Hive y Pig y ayuda a ejecutar sus códigos más rápido.

Hadoop framework se compone de los siguientes módulos:

  1. Hadoop MapReduce: un modelo de programación de MapReduce para manejar y procesar grandes datos.
  2. Sistema de archivos distribuidos de Hadoop: archivos distribuidos en clústeres entre Nodes.
  3. Hadoop YARN- una plataforma que gestiona los recursos informáticos.
  4. Hadoop Common: contiene paquetes y bibliotecas que se utilizan para otros módulos.

Ventajas y desventajas de Hadoop

ventajas:

  • Capacidad para almacenar una gran cantidad de datos.
  • Alta flexibilidad.
  • Económico.
  • Alto poder computacional.
  • Las tareas son independientes.
  • Escalado lineal.

Desventajas:

  • No es muy efectivo para datos pequeños.
  • Gestión de clústeres duros.
  • Tiene problemas de estabilidad.
  • Preocupaciones de seguridad.

Publicación traducida automáticamente

Artículo escrito por AkshitaKumawat y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *