Requisitos previos: introducción a Hadoop , plataformas informáticas y tecnologías
Apache Hivees un almacén de datos y una herramienta ETL que proporciona una interfaz similar a SQL entre el usuario y el sistema de archivos distribuido de Hadoop (HDFS) que integra Hadoop. Está construido sobre Hadoop. Es un proyecto de software que proporciona consulta y análisis de datos. Facilita la lectura, escritura y manejo de amplios conjuntos de datos almacenados en almacenamiento distribuido y consultados mediante la sintaxis del lenguaje de consulta de estructura (SQL). No está diseñado para cargas de trabajo de procesamiento transaccional en línea (OLTP). Se utiliza con frecuencia para tareas de almacenamiento de datos como encapsulación de datos, consultas ad-hoc y análisis de grandes conjuntos de datos. Está diseñado para mejorar la escalabilidad, la extensibilidad, el rendimiento, la tolerancia a fallas y el bajo acoplamiento con sus formatos de entrada.
Inicialmente, Hive es desarrollado por Facebook y Amazon, Netflix y ofrece funcionalidad SQL estándar para análisis. Las consultas SQL tradicionales se escriben en MapReduce Java API para ejecutar aplicaciones SQL y consultas SQL sobre datos distribuidos. Hive proporciona portabilidad ya que la mayoría de las aplicaciones de almacenamiento de datos funcionan con lenguajes de consulta basados en SQL como NoSQL.
Componentes de la colmena:
- HCatalog:
es un componente de Hive y es una tabla, así como una capa de administración de tiendas para Hadoop. Permite al usuario junto con varias herramientas de procesamiento de datos como Pig y MapReduce que permiten leer y escribir en la cuadrícula fácilmente. - WebHCat:
proporciona un servicio que el usuario puede utilizar para ejecutar Hadoop MapReduce (o YARN), Pig, tareas de Hive o funciones de operaciones de metadatos de Hive con una interfaz HTTP.
Modos de colmena:
- Modo local:
se usa cuando Hadoop se construye en modo pseudo que tiene solo un Node de datos, cuando el tamaño de los datos es más pequeño en términos de estar restringido a una sola máquina local y cuando el procesamiento será más rápido en conjuntos de datos más pequeños existentes en el local. máquina. - Modo de reducción de mapas:
se utiliza cuando Hadoop se crea con múltiples Nodes de datos y los datos se dividen en varios Nodes, funcionará en grandes conjuntos de datos y la consulta se ejecutará en paralelo, y para lograr un rendimiento mejorado en el procesamiento de grandes conjuntos de datos.
Características de la colmena:
- Las bases de datos y las tablas se construyen antes de cargar los datos.
- Hive como almacén de datos está diseñado para administrar y consultar solo los datos estructurados que residen debajo de las tablas.
- En el momento de manejar datos estructurados, MapReduce carece de funciones de optimización y usabilidad, como las UDF, mientras que el marco Hive tiene optimización y usabilidad.
- La programación en Hadoop trata directamente con los archivos. Entonces, Hive puede particionar los datos con estructuras de directorio para mejorar el rendimiento en ciertas consultas.
- Hive es compatible con varios formatos de archivo que son TEXTFILE, SEQUENCEFILE, ORC, RCFILE, etc.
- Hive usa la base de datos derby en el almacenamiento de metadatos de un solo usuario y usa MYSQL para metadatos de múltiples usuarios o metadatos compartidos.
Características de la colmena:
- Proporciona índices, incluidos índices de mapa de bits para acelerar las consultas. Tipo de índice que contiene compactación e índice de mapa de bits a partir de 0.10.
- El almacenamiento de metadatos en un RDBMS reduce el tiempo para realizar comprobaciones semánticas durante la ejecución de consultas.
- Funciones definidas por el usuario (UDF) integradas para la manipulación de strings, fechas y otras herramientas de minería de datos. Hive está reforzado para extender el conjunto de UDF para tratar los casos de uso no reforzados por funciones predefinidas.
- DEFLATE, BWT, snappy, etc. son los algoritmos para operar en datos comprimidos que se almacenan en Hadoop Ecosystem.
- Almacena esquemas en una base de datos y procesa los datos en el sistema de archivos distribuidos de Hadoop File (HDFS).
- Está diseñado para procesamiento analítico en línea (OLAP).
- Ofrece varios tipos de lenguaje de consulta que se conocen con frecuencia como Hive Query Language (HVL o HiveQL).
Publicación traducida automáticamente
Artículo escrito por Madhurkant Sharma y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA