Hadoop es un marco escrito en Java para ejecutar aplicaciones en un gran grupo de hardware comunitario. Es similar al sistema de archivos de Google. Para instalar Hadoop, primero necesitamos Java, así que primero instalamos Java en nuestro Ubuntu.
Paso 1: abra su terminal y primero verifique si su sistema está equipado con Java o no con comando
java -version
Paso 2: Ahora es el momento de actualizar su sistema. A continuación se muestran los 2 comandos para actualizar su sistema.
sudo apt-get update
sudo apt-get install update
Paso 3: Ahora instalaremos el JDK predeterminado para Java usando el siguiente comando:
sudo apt-get install default-jdk
Te pedirá S/N, presiona Y.
Paso 4: ahora verifique si Java está instalado o no usando el comando
java -version
Paso 5: Una vez que se instala, requerimos un usuario dedicado para el mismo. No es necesario, pero es bueno crear un usuario dedicado para la instalación de Hadoop . Puedes usar el siguiente comando:
sudo addgroup hadoop
sudo adduser --ingroup hadoop hadoopusr
Paso 6: ahora, después de ejecutar los 2 comandos anteriores, ha creado con éxito un usuario dedicado con el nombre hadoopusr . Ahora le pedirá una nueva contraseña de UNIX, así que elija la contraseña de acuerdo con su conveniencia (asegúrese de que a veces no muestre el carácter o el número que escribe, así que recuerde lo que escriba). Luego, le pedirá información como Nombre completo, etc. Siga presionando Intro por defecto y luego presione Y para obtener la información correcta.
Paso 7: Ahora usa el siguiente comando:
sudo adduser hadoopusr sudo
Con este comando, agrega su ‘hadoopusr’ al grupo ‘sudo’ para que también podamos convertirlo en un superusuario.
Paso 8: Ahora también necesitamos instalar la clave ssh que es un shell seguro.
sudo apt-get install openssh-server
Paso 9: ahora es el momento de que cambiemos a un nuevo usuario que es hadoopusr y también ingresemos la contraseña que usa el comando anterior para cambiar de usuario:
su - hadoopusr
Paso 10: ahora es el momento de generar la clave ssh porque Hadoop requiere acceso ssh para administrar su Node, máquina remota o local, por lo que para nuestro Node único de la configuración de Hadoop configuramos de manera que tengamos acceso al host local.
ssh-keygen -t rsa -P ""
Después de este comando, simplemente presione enter .
Paso 11: ahora usamos el siguiente comando porque necesitamos agregar la clave pública de la computadora al archivo de clave autorizado de la computadora a la que desea acceder con las claves ssh, por lo que activamos este comando.
cat $HOME/ .ssh/id_rsa.pub >> $HOME/.ssh/authorized_keys
Paso 12: Ahora verifique el host local, es decir, ssh localhost con el siguiente comando y presione sí para continuar e ingrese su contraseña si se le solicita, luego escriba exit.
ssh localhost
Ahora ha completado el requisito básico para la instalación de Hadoop .
Paso 13: Ahora descarga el paquete que vas a instalar. descárguelo de Hadoop-2.9.0 haciendo clic en el archivo que se muestra en la imagen de abajo.
Paso 14: Una vez que haya descargado hadoop-2.9.0.tar.gz , coloque este archivo tar en su ubicación preferida y luego extráigalo con los siguientes comandos. En mi caso lo moví a la carpeta /Documentos .
Ahora extraemos este archivo con el siguiente comando e ingresamos su contraseña hadoopusr . Si no conoce la contraseña, no se preocupe, simplemente puede cambiar su usuario y cambiar la contraseña de acuerdo con usted mismo.
command : sudo tar xvzf hadoop-2.9.0.tar.gz
Paso 15: Ahora necesitamos mover esta carpeta extraída al usuario hadoopusr , así que para ese tipo de comando a continuación (asegúrese de que el nombre de su carpeta extraída sea hadoop ):
sudo mv hadoop /usr/local/hadoop
Paso 16: Ahora tenemos que cambiar la propiedad para que ese comando sea:
sudo chown -R hadoopusr /usr/local
Paso 17: Este es el paso más importante, es decir, ahora vamos a configurar algunos archivos, esto es realmente muy importante.
Primero configuramos nuestro archivo ./bashrc para que para abrir ese archivo escriba el siguiente comando:
sudo gedit ~/.bashrc
Luego, se abre un archivo ./bashrc y luego copia el siguiente comando dentro de este archivo (cambie la versión de Java de acuerdo con la versión de Java de su PC, como si fuera java-8-openjdk-amd64).
export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64 export HADOOP_HOME=/usr/local/hadoop export PATH=$PATH:$HADOOP_HOME/bin export PATH=$PATH:$HADOOP_HOME/sbin export HADOOP_MAPRED_HOME=$HADOOP_HOME export HADOOP_COMMON_HOME=$HADOOP_HOME export HADOOP_HDFS_HOME=$HADOOP_HOME export YARN_HOME=$HADOOP_HOME export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"
Luego verifica si lo has configurado correctamente o no.
source ~/.bashrc
Paso 18: antes de configurar más archivos, primero nos aseguramos de qué versión de Java hemos instalado para eso, vaya a la ubicación /usr/lib/jvm y, después de ir a esta ubicación, escriba el comando ls para enumerar el archivo que contiene y ahora vea la versión de Java. , en mi caso es java-11-openjdk-amd64 .
Paso 19: Ahora configuraremos hadoop-env.sh . Para eso, abra el archivo usando el siguiente comando.
sudo gedit /usr/local/hadoop/etc/hadoop/hadoop-env.sh
Una vez abierto el archivo, copie el siguiente comando de exportación dentro de él y asegúrese de comentar el comando de exportación ya existente con JAVA_HOME :
export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64
No olvides guardar .
Paso 20: Ahora configuraremos el core-site.xml. Para eso, abra ese archivo usando el siguiente comando:
sudo gedit /usr/local/hadoop/etc/hadoop/core-site.xml
una vez que se abra el archivo, copie el siguiente texto dentro de la etiqueta de configuración
<!-- <property> <name>fs.default.name</name> <value>hdfs://localhost:9000</value> </property> -->
Vea la siguiente imagen para una mejor comprensión:
Paso 21: ahora configuraremos hdfs-site.xml para que abra ese archivo usando el siguiente comando.
sudo gedit /usr/local/hadoop/etc/hadoop/hdfs-site.xml
Una vez que se abra el archivo, copie el siguiente texto dentro de la etiqueta de configuración
<!-- <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>file:/usr/local/hadoop_tmp/hdfs/namenode</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>file:/usr/local/hadoop_tmp/hdfs/datanode</value> </property> -->
Vea la siguiente imagen para una mejor comprensión:
Paso 22: Ahora configuraremos el yarn-site.xml que es responsable de la ejecución del archivo en el entorno Hadoop. Para eso, abra ese archivo usando el siguiente comando:
sudo gedit /usr/local/hadoop/etc/hadoop/yarn-site.xml
una vez que se abra el archivo, copie el siguiente texto dentro de la etiqueta de configuración
<!-- <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name> <value>org.apache.hadoop.mapred.ShuffleHandler</value> </property> -->
Vea la siguiente imagen para una mejor comprensión:
Paso 23: Ahora el último archivo a configurar es mapred-site.xml. Para eso, tenemos mapred-site.xml.template , por lo que debemos ubicar ese archivo, luego copiar este archivo en esa ubicación y luego cambiarle el nombre .
Entonces, para ubicar el archivo, debemos ir a la ubicación /usr/local/hadoop/etc/hadoop/ para copiar este archivo y también cambiar el nombre del archivo a single, use el siguiente comando
sudo cp /usr/local/hadoop/etc/hadoop/mapred-site.xml.template /usr/local/hadoop/etc/hadoop/mapred-site.xml
una vez que el archivo se copia o cambia de nombre, abra ese archivo usando el siguiente comando:
sudo gedit /usr/local/hadoop/etc/hadoop/mapred-site.xml
Y luego coloque el contenido a continuación dentro de su etiqueta de configuración .
<!-- <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> -->
Vea la siguiente imagen para una mejor comprensión:
Paso 24: Ahora hemos configurado correctamente todos los archivos. Así que ahora es el momento de comprobar nuestra instalación. Como sabemos que en la arquitectura de Hadoop tenemos un Node de nombre y otros bloques, necesitamos crear un directorio, es decir, hadoop_space. Dentro de este directorio creamos otro directorio, es decir, hdfs y namenode y datanode. El comando para hacer el directorio se da a continuación:
sudo mkdir -p /usr/local/hadoop_space sudo mkdir -p /usr/local/hadoop_space/hdfs/namenode sudo mkdir -p /usr/local/hadoop_space/hdfs/datanode
Ahora necesitamos dar permiso para que los comandos se encuentren a continuación:
sudo chown -R hadoopusr /usr/local/hadoop_space
Ejecutando Hadoop
1. Primero, debemos formatear el Node de nombre, luego debe ejecutar el siguiente comando por primera vez cuando inicie el clúster si lo usa nuevamente, entonces todos sus metadatos se borrarán.
hdfs namenode -format
2. Ahora necesitamos iniciar el DFS, es decir, el sistema de archivos distribuidos.
start-dfs.sh
3. ahora lo último que necesitas para empezar es hilo
start-yarn.sh
4. Ahora usa el siguiente comando:
jps
Ahora podrá ver SecondaryNameNode, NodeManager, ResourceManager, NameNode, jpd y DataNode, lo que significa que habrá instalado correctamente Hadoop.
5. Ha instalado correctamente Hadoop en su sistema. Ahora, para verificar toda la información de su clúster, puede usar localhost: 50070 en su navegador. La interfaz se verá como:
Publicación traducida automáticamente
Artículo escrito por dikshantmalidev y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA