Hadoop: Hadoop es un marco de código abierto de Apache que se utiliza para almacenar y procesar grandes conjuntos de datos distribuidos en un grupo de servidores. Los cuatro componentes principales de Hadoop son el sistema de archivos distribuidos de Hadoop (HDFS), Yarn, MapReduce y las bibliotecas. No solo implica grandes datos, sino también una combinación de información estructurada, semiestructurada y no estructurada. Amazon, IBM, Microsoft, Cloudera, ScienceSoft, Pivotal, Hortonworks son algunas de las empresas que utilizan la tecnología Hadoop.
HBase: HBase es una base de datos de código abierto de Apache que se ejecuta en el clúster de Hadoop. Se incluye en el sistema de gestión de bases de datos no relacionales. Tres componentes importantes de HBase son HMaster, servidor de región, Zookeeper. CapitalOne, JPMorganchase, Apple, MTB, AT&T, Lockheed Martin son algunas de las empresas que utilizan HBase.
A continuación se muestra una tabla de diferencias entre Hadoop y HBase:
S. No. | Hadoop | HBase |
---|---|---|
1 | Hadoop es una colección de herramientas de software | HBase es parte del ecosistema Hadoop |
2 | Almacena conjuntos de datos en un entorno distribuido. | Almacena datos de manera orientada a columnas |
3 | Hadoop es un marco | HBase es una base de datos NOSQL |
4 | Los datos se almacenan en forma de fragmentos. | Los datos se almacenan en forma de par clave/valor |
5 | Hadoop no permite cambios en el tiempo de ejecución | HBase permite cambios en el tiempo de ejecución |
6 | El archivo se puede escribir solo una vez, se puede leer muchas veces | El archivo se puede leer y escribir varias veces |
7 | Hadoop tiene operaciones de baja latencia | HBase tiene operaciones de alta latencia |
8 | Se puede acceder a HDFS a través de MapReduce | Se puede acceder a HBase a través de comandos de shell, API de Java, REST |
Publicación traducida automáticamente
Artículo escrito por chitralekhaselvam99 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA