¿Cómo instalar Hadoop en Linux?

Hadoop es un marco escrito en Java para ejecutar aplicaciones en un gran grupo de hardware comunitario. Es similar al sistema de archivos de Google. Para instalar Hadoop, primero necesitamos Java, así que primero instalamos Java en nuestro Ubuntu.

Paso 1: abra su terminal y primero verifique si su sistema está equipado con Java o no con comando

java -version

Paso 2: Ahora es el momento de actualizar su sistema. A continuación se muestran los 2 comandos para actualizar su sistema.

sudo apt-get update
sudo apt-get install update

updating Linux system

Paso 3: Ahora instalaremos el JDK predeterminado para Java usando el siguiente comando:

sudo apt-get install default-jdk

Te pedirá S/N, presiona Y.

installing jdk for Hadoop

Paso 4: ahora verifique si Java está instalado o no usando el comando

java -version

checking for java installation

Paso 5: Una vez que se instala, requerimos un usuario dedicado para el mismo. No es necesario, pero es bueno crear un usuario dedicado para la instalación de Hadoop . Puedes usar el siguiente comando:

sudo addgroup hadoop

adding a user for Hadoop - 1

sudo adduser --ingroup hadoop hadoopusr

adding a user for Hadoop - 2

Paso 6: ahora, después de ejecutar los 2 comandos anteriores, ha creado con éxito un usuario dedicado con el nombre hadoopusr . Ahora le pedirá una nueva contraseña de UNIX, así que elija la contraseña de acuerdo con su conveniencia (asegúrese de que a veces no muestre el carácter o el número que escribe, así que recuerde lo que escriba). Luego, le pedirá información como Nombre completo, etc. Siga presionando Intro por defecto y luego presione Y para obtener la información correcta.

adding user information for Hadoop Installation User

Paso 7: Ahora usa el siguiente comando:

sudo adduser hadoopusr sudo

Con este comando, agrega su ‘hadoopusr’ al grupo ‘sudo’ para que también podamos convertirlo en un superusuario.

making Hadoop user to superuser in Linux

Paso 8: Ahora también necesitamos instalar la clave ssh que es un shell seguro.

sudo apt-get install openssh-server

installing ssh key

Paso 9: ahora es el momento de que cambiemos a un nuevo usuario que es hadoopusr y también ingresemos la contraseña que usa el comando anterior para cambiar de usuario:

su - hadoopusr

switching to Hadoop user

Paso 10: ahora es el momento de generar la clave ssh porque Hadoop requiere acceso ssh para administrar su Node, máquina remota o local, por lo que para nuestro Node único de la configuración de Hadoop configuramos de manera que tengamos acceso al host local.

ssh-keygen -t rsa -P ""

Después de este comando, simplemente presione enter .

generating ssh key for Hadoop user

Paso 11: ahora usamos el siguiente comando porque necesitamos agregar la clave pública de la computadora al archivo de clave autorizado de la computadora a la que desea acceder con las claves ssh, por lo que activamos este comando.

cat $HOME/ .ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys

add the public key of the computer to the authorized key file in Hadoop installation

Paso 12: Ahora verifique el host local, es decir, ssh localhost con el siguiente comando y presione para continuar e ingrese su contraseña si se le solicita, luego escriba exit.

ssh localhost

testing ssh localhost - 1

testing ssh localhost - 2

Ahora ha completado el requisito básico para la instalación de Hadoop .

Paso 13: Ahora descarga el paquete que vas a instalar. descárguelo de Hadoop-2.9.0 haciendo clic en el archivo que se muestra en la imagen de abajo.

downloading hadoop

Paso 14: Una vez que haya descargado hadoop-2.9.0.tar.gz , coloque este archivo tar en su ubicación preferida y luego extráigalo con los siguientes comandos. En mi caso lo moví a la carpeta /Documentos .

extracting downloaded Hadoop File - 1

Ahora extraemos este archivo con el siguiente comando e ingresamos su contraseña hadoopusr . Si no conoce la contraseña, no se preocupe, simplemente puede cambiar su usuario y cambiar la contraseña de acuerdo con usted mismo.

command : sudo tar xvzf hadoop-2.9.0.tar.gz

extracting downloaded Hadoop File - 2

Paso 15: Ahora necesitamos mover esta carpeta extraída al usuario hadoopusr , así que para ese tipo de comando a continuación (asegúrese de que el nombre de su carpeta extraída sea hadoop ):

sudo mv hadoop /usr/local/hadoop

Paso 16: Ahora tenemos que cambiar la propiedad para que ese comando sea:

sudo chown -R hadoopusr /usr/local

changing ownership in Hadoop Installation

Paso 17: Este es el paso más importante, es decir, ahora vamos a configurar algunos archivos, esto es realmente muy importante.

Primero configuramos nuestro archivo ./bashrc para que para abrir ese archivo escriba el siguiente comando:

sudo gedit ~/.bashrc

configuring ./bashrc in Hadoop Installation

Luego, se abre un archivo ./bashrc y luego copia el siguiente comando dentro de este archivo (cambie la versión de Java de acuerdo con la versión de Java de su PC, como si fuera java-8-openjdk-amd64).

          
export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64
export HADOOP_HOME=/usr/local/hadoop
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin
export HADOOP_MAPRED_HOME=$HADOOP_HOME
export HADOOP_COMMON_HOME=$HADOOP_HOME
export HADOOP_HDFS_HOME=$HADOOP_HOME
export YARN_HOME=$HADOOP_HOME
export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native
export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"

configuring ./bashrc in Hadoop Installation

Luego verifica si lo has configurado correctamente o no.

source ~/.bashrc

checking the configuring of ./bashrc in Hadoop Installation

Paso 18: antes de configurar más archivos, primero nos aseguramos de qué versión de Java hemos instalado para eso, vaya a la ubicación /usr/lib/jvm y, después de ir a esta ubicación, escriba el comando ls para enumerar el archivo que contiene y ahora vea la versión de Java. , en mi caso es java-11-openjdk-amd64 .

checking java version

Paso 19: Ahora configuraremos hadoop-env.sh . Para eso, abra el archivo usando el siguiente comando.

sudo gedit /usr/local/hadoop/etc/hadoop/hadoop-env.sh

configuring hadoop-env.sh file

Una vez abierto el archivo, copie el siguiente comando de exportación dentro de él y asegúrese de comentar el comando de exportación ya existente con JAVA_HOME :

export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64

configuring hadoop-env.sh file

No olvides guardar .

Paso 20: Ahora configuraremos el core-site.xml. Para eso, abra ese archivo usando el siguiente comando:

sudo gedit /usr/local/hadoop/etc/hadoop/core-site.xml

configure the core-site.xml

una vez que se abra el archivo, copie el siguiente texto dentro de la etiqueta de configuración

<!-- 
<property>
<name>fs.default.name</name>
<value>hdfs://localhost:9000</value>
</property>
 -->

Vea la siguiente imagen para una mejor comprensión:

configure the core-site.xml

Paso 21: ahora configuraremos hdfs-site.xml para que abra ese archivo usando el siguiente comando.

sudo gedit /usr/local/hadoop/etc/hadoop/hdfs-site.xml

configuring the hdfs-site.xml file

Una vez que se abra el archivo, copie el siguiente texto dentro de la etiqueta de configuración

<!-- 
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/usr/local/hadoop_tmp/hdfs/namenode</value>
</property>
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/usr/local/hadoop_tmp/hdfs/datanode</value>
</property>
 -->

Vea la siguiente imagen para una mejor comprensión:

 configuring the hdfs-site.xml file

Paso 22: Ahora configuraremos el yarn-site.xml que es responsable de la ejecución del archivo en el entorno Hadoop. Para eso, abra ese archivo usando el siguiente comando:

sudo gedit /usr/local/hadoop/etc/hadoop/yarn-site.xml

yarn-site.xml file configuration

una vez que se abra el archivo, copie el siguiente texto dentro de la etiqueta de configuración

<!-- 
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
 -->

Vea la siguiente imagen para una mejor comprensión:

yarn-site.xml file configuration

Paso 23: Ahora el último archivo a configurar es mapred-site.xml. Para eso, tenemos mapred-site.xml.template , por lo que debemos ubicar ese archivo, luego copiar este archivo en esa ubicación y luego cambiarle el nombre .

Entonces, para ubicar el archivo, debemos ir a la ubicación /usr/local/hadoop/etc/hadoop/ para copiar este archivo y también cambiar el nombre del archivo a single, use el siguiente comando

sudo cp /usr/local/hadoop/etc/hadoop/mapred-site.xml.template /usr/local/hadoop/etc/hadoop/mapred-site.xml

mapred-site.xml file configuration

una vez que el archivo se copia o cambia de nombre, abra ese archivo usando el siguiente comando:

sudo gedit /usr/local/hadoop/etc/hadoop/mapred-site.xml

mapred-site.xml file configuration

Y luego coloque el contenido a continuación dentro de su etiqueta de configuración .

<!-- 
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
 -->

Vea la siguiente imagen para una mejor comprensión:

mapred-site.xml file configuration

Paso 24: Ahora hemos configurado correctamente todos los archivos. Así que ahora es el momento de comprobar nuestra instalación. Como sabemos que en la arquitectura de Hadoop tenemos un Node de nombre y otros bloques, necesitamos crear un directorio, es decir, hadoop_space. Dentro de este directorio creamos otro directorio, es decir, hdfs y namenode y datanode. El comando para hacer el directorio se da a continuación:

 
sudo mkdir -p /usr/local/hadoop_space
sudo mkdir -p /usr/local/hadoop_space/hdfs/namenode
sudo mkdir -p /usr/local/hadoop_space/hdfs/datanode

Ahora necesitamos dar permiso para que los comandos se encuentren a continuación:

sudo chown -R hadoopusr /usr/local/hadoop_space

Ejecutando Hadoop

1. Primero, debemos formatear el Node de nombre, luego debe ejecutar el siguiente comando por primera vez cuando inicie el clúster si lo usa nuevamente, entonces todos sus metadatos se borrarán.

hdfs namenode -format

formatting namenode in Hadoop

2. Ahora necesitamos iniciar el DFS, es decir, el sistema de archivos distribuidos.

start-dfs.sh

starting DFS in Hadoop

3. ahora lo último que necesitas para empezar es hilo

start-yarn.sh

starting yarn in Hadoop

4. Ahora usa el siguiente comando:

jps

Ahora podrá ver SecondaryNameNode, NodeManager, ResourceManager, NameNode, jpd y DataNode, lo que significa que habrá instalado correctamente Hadoop.

using jps command

5. Ha instalado correctamente Hadoop en su sistema. Ahora, para verificar toda la información de su clúster, puede usar localhost: 50070 en su navegador. La interfaz se verá como:

Hadoop Interface in Browser

Publicación traducida automáticamente

Artículo escrito por dikshantmalidev y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *