Instalación de Apache Hive con base de datos Derby y Beeline

Apache Hive es una poderosa herramienta ETL (Extract Transform And Load) de almacenamiento de datos construida sobre Hadoop que se puede usar con bases de datos relacionales para administrar y realizar operaciones en RDBMS. Está escrito en Java y fue lanzado por la Fundación Apache en el año 2012 para las personas que no se sienten muy cómodas con Java. Hive usa lenguaje HIVEQL cuya sintaxis es muy similar a la sintaxis SQL. HIVE es compatible con los lenguajes de programación C++ , Java y Python . Podemos manejar o consultar petabytes de datos con Hive y SQL.

Derby también es una herramienta de base de datos relacional de código abierto que viene con una colmena (de forma predeterminada) y es propiedad de apache. Hoy en día, desde una perspectiva de la industria, el derby se usa solo con fines de prueba, y con fines de implementación, se usa Metastore de MySql .

Requisito previo: Hadoop debe estar preinstalado.

Paso 1: Descarga la versión 3.1.2 de Hive desde este Link

Paso 2: coloque el archivo tar descargado en la ubicación deseada (en nuestro caso, lo colocaremos en el directorio /home).

Paso 3: ahora extraiga el archivo tar con la ayuda del comando que se muestra a continuación.

tar -xvzf apache-hive-3.1.2-bin.tar.gz

Paso 4: ahora tenemos que colocar la ruta de la colmena en el archivo .bashrc. Para eso, use el siguiente comando.

sudo gedit ~/.bashrc

Ruta de HIVE (agregue la ruta correcta y el nombre de la versión de Hive)

export HIVE_HOME="/home/dikshant/apache-hive-3.1.2-bin"

export PATH=$PATH:$HIVE_HOME/bin

Coloque la ruta de HIVE dentro de este archivo .bashrc (no olvide guardar, presione CTRL + S). Verifique las líneas 122 y 123 en la imagen a continuación como referencia.

Paso 5: ahora agregue la siguiente propiedad al archivo core-site.xml . Podemos encontrar el archivo en el directorio /home/{user-name}/hadoop/etc/hadoop . Para simplificar, hemos cambiado el nombre de mi carpeta hadoop-3.1.2 a solo Hadoop.

# to change the directory
cd /home/dikshant/hadoop/etc/hadoop/

# to list the directory content
ls

# to open and edit core-site.xml
sudo gedit core-site.xml

Propiedad (no elimine las propiedades de Hadoop agregadas anteriormente)

<property>
<name>hadoop.proxyuser.dikshant.groups</name>
<value>*</value>
</property>
<property>
<name>hadoop.proxyuser.dikshant.hosts</name>
<value>*</value>
</property>
<property>
<name>hadoop.proxyuser.server.hosts</name>
<value>*</value>
</property>
<property>
<name>hadoop.proxyuser.server.groups</name>
<value>*</value>
</property>

Paso 6: Ahora cree un directorio con el nombre /tmp en HDFS con la ayuda del siguiente comando.

hdfs dfs -mkdir /tmp

Paso 7: use el comando que se proporciona a continuación para crear un almacén, una colmena y un directorio de usuarios que usaremos para almacenar nuestras tablas y otros datos.

hdfs dfs -mkdir /user
hdfs dfs -mkdir /user/hive
hdfs dfs -mkdir /user/hive/warehouse

Ahora, verifique si los directorios se crearon correctamente o no con la ayuda del siguiente comando. 

hdfs dfs -ls -R /     #switch -R will help -ls to recursively show /(root) hdfs data 

Paso 8: Ahora otorgue permiso de lectura, escritura y ejecución a todos los usuarios de estos directorios creados con la ayuda de los siguientes comandos.

hdfs dfs -chmod ugo+rwx /tmp 

hdfs dfs -chmod ugo+rwx /user/hive/warehouse

Paso 9: vaya al directorio /apache-hive-3.1.2-bin/conf y cambie el nombre de archivo de hive-default.xml.template a hive-site.xml . Ahora en este archivo vaya a la línea no. 3215 y quite porque esto le dará un error al inicializar la base de datos derby y dado que está en la descripción, no es muy importante para nosotros. 

Después,

Ahora,

Paso 10: ahora inicialice la base de datos derby, ya que HIVE utiliza de forma predeterminada la base de datos derby para el almacenamiento y otras perspectivas. Use el comando dado a continuación (asegúrese de estar en el directorio apache-hive-3.1.2-bin).

bin/schematool -dbType derby -initSchema

Paso 11: Ahora inicie HiveServer2 usando el siguiente comando.

hiveserver2

Paso 12: Escriba los siguientes comandos en la pestaña diferente, para iniciar el shell de comandos de beeline.

cd /home/dikshant/apache-hive-3.1.2-bin/bin/

beeline -n dikshant -u jdbc:hive2://localhost:10000   (If you face any problem try to use hadoop instead of your user name)

Ahora hemos configurado e instalado con éxito apache hive con la base de datos derby.

Paso 13:   Usemos el comando show databases para verificar si funciona bien o no. 

show databases;

Publicación traducida automáticamente

Artículo escrito por dikshantmalidev y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *