Hadoop: Hadoop es un marco o software que se inventó para administrar grandes datos o Big Data. Hadoop se utiliza para almacenar y procesar grandes datos distribuidos en un grupo de servidores básicos. Hadoop almacena los datos mediante el sistema de archivos distribuido Hadoop y los procesa/consulta mediante el modelo de programación Map-Reduce.
Hive: Hive es una aplicación que se ejecuta en el marco Hadoop y proporciona una interfaz similar a SQL para procesar/consultar los datos. Hive está diseñado y desarrollado por Facebook antes de formar parte del proyecto Apache-Hadoop. Hive ejecuta su consulta usando HQL (lenguaje de consulta de Hive). Hive tiene la misma estructura que RDBMS y se pueden usar casi los mismos comandos en Hive. Hive puede almacenar los datos en tablas externas, por lo que no es obligatorio usar HDFS y también admite formatos de archivo como ORC, archivos Avro, archivos de secuencia y archivos de texto, etc.
A continuación se muestra una tabla de diferencias entre Hadoop y Hive:
Hadoop | Colmena |
---|---|
Hadoop es un framework para procesar/consultar el Big data | Hive es una herramienta basada en SQL que se basa en Hadoop para procesar los datos. |
Hadoop solo puede entender Map Reduce. | Hive procesa / consulta todos los datos usando HQL (Hive Query Language) es un lenguaje similar a SQL |
Map Reduce es una parte integral de Hadoop | La consulta de Hive primero se convierte en Map Reduce y luego Hadoop la procesa para consultar los datos. |
Hadoop entiende SQL solo con Map Reduce basado en Java. | Hive funciona en consulta SQL Like |
En Hadoop , debe escribir programas complejos de Map Reduce utilizando Java, que no es similar al Java tradicional. | En Hive , los comandos tradicionales de «base de datos relacional» utilizados anteriormente también se pueden usar para consultar los grandes datos |
Hadoop está diseñado para todo tipo de datos, ya sean estructurados, no estructurados o semiestructurados. | Hive solo puede procesar/consultar los datos estructurados |
En el ecosistema Hadoop simple , la necesidad de escribir programas Java complejos para los mismos datos. | Usando Hive , uno puede procesar/consultar los datos sin una programación compleja |
Los marcos Hadoop de un lado necesitan una línea de 100 para preparar el programa MR basado en Java | Hive puede consultar los mismos datos utilizando de 8 a 10 líneas de HQL. |
Publicación traducida automáticamente
Artículo escrito por mansiagrawal2103 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA