Apache HIVE: características y limitaciones

Apache Hive es una herramienta de almacenamiento de datos construida sobre Hadoop y utilizada para extraer información significativa de los datos. El almacenamiento de datos se trata de almacenar todo tipo de datos generados a partir de diferentes fuentes en la misma ubicación. Los datos están disponibles principalmente en 3 formas, es decir, estructurados (base de datos SQL), semiestructurados (XML o JSON) y no estructurados (música o video). Para procesar los datos estructurados disponibles en formato tabular, usamos Hive sobre Hadoop. The Hive es tan poderoso que puede consultar Petabytes (PB) de datos de manera muy eficiente. 

Como sabemos, MapReduce es el modelo predeterminado que usamos para programar en Hadoop con Java o algún otro lenguaje, por lo que Hive se diseñó principalmente para los desarrolladores que se sienten cómodos con SQL . Después del nacimiento de Hive, las personas que no se sienten muy cómodas con Java también pueden procesar datos sobre Hadoop con la ayuda de Hive. El uso de Hive también facilita la consulta de datos de estructura porque escribir código en Java es difícil en comparación con Hive. HQL o HIVEQL es el lenguaje de consulta que usamos para trabajar con Hive, cuya sintaxis es muy similar al lenguaje SQL lo que hace que Hive sea muy fácil de usar.

Características de Apache Hive   

Características

Explicación

Motor informático compatible Hive es compatible con los motores informáticos MapReduce, Tez y Spark.
Estructura Hive es un marco estable de procesamiento por lotes construido sobre el sistema de archivos distribuidos de Hadoop y puede funcionar como un almacén de datos. 
Fácil de codificar Hive utiliza el lenguaje de consulta HIVE para consultar datos de estructura que es fácil de codificar. Las 100 líneas de código Java que usamos para consultar los datos de una estructura se pueden minimizar a 4 líneas con HQL.  
Declarativo HQL es un lenguaje declarativo como SQL, lo que significa que no es de procedimiento.
Estructura de la tabla  La tabla, la estructura es similar al RDBMS. También es compatible con la partición y el almacenamiento en cubos.
Estructuras de datos compatibles La partición, el cubo y las tablas son las 3 estructuras de datos que admite Hive.
Soporta ETL Apache Hive es compatible con ETL, es decir, extraer, transformar y cargar. Antes de que Hive python se use para ETL.
Almacenamiento Hive permite a los usuarios acceder a archivos desde HDFS, Apache HBase, Amazon S3, etc.
Capaz Hive es capaz de procesar conjuntos de datos muy grandes de tamaño Petabytes.  
Ayuda en el procesamiento de datos no estructurados. Podemos incorporar fácilmente código MapReduce personalizado con Hive para procesar datos no estructurados. 
Conductores Los controladores JDBC/ODBC también están disponibles en Hive.
Tolerancia a fallos Dado que almacenamos datos de Hive en HDFS, Hadoop proporciona tolerancia a fallas. 
Área de usos Podemos usar una colmena para la extracción de datos, el modelado predictivo y la indexación de documentos.

Limitaciones de Apache Hive

Limitación

Explicación

No es compatible con OLAP Apache Hive no es compatible con el procesamiento de transacciones en línea (OLTP), pero sí con el procesamiento analítico en línea (OLAP).
Sin actualización y eliminación Hive no admite operaciones de actualización y eliminación en tablas.
No admite subconsultas Las subconsultas no son compatibles.
Latencia La latencia en la consulta de Apache Hive es muy alta.
Solo se admiten datos no reales o fríos Hive no se usa para consultas de datos en tiempo real, ya que lleva un tiempo producir un resultado.
No se admite el procesamiento de transacciones HQL no es compatible con la función de procesamiento de transacciones.

Publicación traducida automáticamente

Artículo escrito por dikshantmalidev y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *