Apache Hive es una poderosa herramienta ETL (Extract Transform And Load) de almacenamiento de datos construida sobre Hadoop que se puede usar con bases de datos relacionales para administrar y realizar operaciones en RDBMS. Está escrito en Java y fue lanzado por la Fundación Apache en el año 2012 para las personas que no se sienten muy cómodas con Java. Hive usa lenguaje HIVEQL cuya sintaxis es muy similar a la sintaxis SQL. HIVE es compatible con los lenguajes de programación C++ , Java y Python . Podemos manejar o consultar petabytes de datos con Hive y SQL.
Derby también es una herramienta de base de datos relacional de código abierto que viene con una colmena (de forma predeterminada) y es propiedad de apache. Hoy en día, desde una perspectiva de la industria, el derby se usa solo con fines de prueba, y con fines de implementación, se usa Metastore de MySql .
Requisito previo: Hadoop debe estar preinstalado.
Paso 1: Descarga la versión 3.1.2 de Hive desde este Link
Paso 2: coloque el archivo tar descargado en la ubicación deseada (en nuestro caso, lo colocaremos en el directorio /home).
Paso 3: ahora extraiga el archivo tar con la ayuda del comando que se muestra a continuación.
tar -xvzf apache-hive-3.1.2-bin.tar.gz
Paso 4: ahora tenemos que colocar la ruta de la colmena en el archivo .bashrc. Para eso, use el siguiente comando.
sudo gedit ~/.bashrc
Ruta de HIVE (agregue la ruta correcta y el nombre de la versión de Hive)
export HIVE_HOME="/home/dikshant/apache-hive-3.1.2-bin" export PATH=$PATH:$HIVE_HOME/bin
Coloque la ruta de HIVE dentro de este archivo .bashrc (no olvide guardar, presione CTRL + S). Verifique las líneas 122 y 123 en la imagen a continuación como referencia.
Paso 5: ahora agregue la siguiente propiedad al archivo core-site.xml . Podemos encontrar el archivo en el directorio /home/{user-name}/hadoop/etc/hadoop . Para simplificar, hemos cambiado el nombre de mi carpeta hadoop-3.1.2 a solo Hadoop.
# to change the directory cd /home/dikshant/hadoop/etc/hadoop/ # to list the directory content ls # to open and edit core-site.xml sudo gedit core-site.xml
Propiedad (no elimine las propiedades de Hadoop agregadas anteriormente)
<property> <name>hadoop.proxyuser.dikshant.groups</name> <value>*</value> </property> <property> <name>hadoop.proxyuser.dikshant.hosts</name> <value>*</value> </property> <property> <name>hadoop.proxyuser.server.hosts</name> <value>*</value> </property> <property> <name>hadoop.proxyuser.server.groups</name> <value>*</value> </property>
Paso 6: Ahora cree un directorio con el nombre /tmp en HDFS con la ayuda del siguiente comando.
hdfs dfs -mkdir /tmp
Paso 7: use el comando que se proporciona a continuación para crear un almacén, una colmena y un directorio de usuarios que usaremos para almacenar nuestras tablas y otros datos.
hdfs dfs -mkdir /user hdfs dfs -mkdir /user/hive hdfs dfs -mkdir /user/hive/warehouse
Ahora, verifique si los directorios se crearon correctamente o no con la ayuda del siguiente comando.
hdfs dfs -ls -R / #switch -R will help -ls to recursively show /(root) hdfs data
Paso 8: Ahora otorgue permiso de lectura, escritura y ejecución a todos los usuarios de estos directorios creados con la ayuda de los siguientes comandos.
hdfs dfs -chmod ugo+rwx /tmp hdfs dfs -chmod ugo+rwx /user/hive/warehouse
Paso 9: vaya al directorio /apache-hive-3.1.2-bin/conf y cambie el nombre de archivo de hive-default.xml.template a hive-site.xml . Ahora en este archivo vaya a la línea no. 3215 y quite porque esto le dará un error al inicializar la base de datos derby y dado que está en la descripción, no es muy importante para nosotros.
Después,
Ahora,
Paso 10: ahora inicialice la base de datos derby, ya que HIVE utiliza de forma predeterminada la base de datos derby para el almacenamiento y otras perspectivas. Use el comando dado a continuación (asegúrese de estar en el directorio apache-hive-3.1.2-bin).
bin/schematool -dbType derby -initSchema
Paso 11: Ahora inicie HiveServer2 usando el siguiente comando.
hiveserver2
Paso 12: Escriba los siguientes comandos en la pestaña diferente, para iniciar el shell de comandos de beeline.
cd /home/dikshant/apache-hive-3.1.2-bin/bin/ beeline -n dikshant -u jdbc:hive2://localhost:10000 (If you face any problem try to use hadoop instead of your user name)
Ahora hemos configurado e instalado con éxito apache hive con la base de datos derby.
Paso 13: Usemos el comando show databases para verificar si funciona bien o no.
show databases;
Publicación traducida automáticamente
Artículo escrito por dikshantmalidev y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA