El comando Hadoop -getmerge se utiliza para fusionar varios archivos en un HDFS (Sistema de archivos distribuido de Hadoop) y luego colocarlo en un solo archivo de salida en nuestro sistema de archivos local.
Queremos fusionar los 2 archivos presentes en el interior que son HDFS, es decir , file1.txt y file2.txt , en un solo archivo output.txt en nuestro sistema de archivos local.
Pasos para usar el comando -getmerge
Paso 1: Veamos el contenido de file1.txt y file2.txt que están disponibles en nuestro HDFS. Puede ver el contenido de File1.txt en la siguiente imagen:
Contenido de File2.txt
En este caso, hemos copiado ambos archivos dentro de mi HDFS en la carpeta Hadoop_File . Si no sabe cómo crear el directorio y copiar archivos a HDFS, siga el siguiente comando para hacerlo.
- Creando el directorio Hadoop_Files en nuestro HDFS
hdfs dfs -mkdir /Hadoop_File
- Copiar archivos a HDFS
hdfs dfs -copyFromLocal /home/dikshant/Documents/hadoop_file/file1.txt /home/dikshant/Documents/hadoop_file/file2.txt /Hadoop_File
A continuación se muestra la imagen que muestra este archivo dentro de mi directorio /Hadoop_File en HDFS.
Paso 2: ahora es el momento de usar el comando -getmerge para fusionar estos archivos en un solo archivo de salida en nuestro sistema de archivos local para eso, siga el procedimiento a continuación.
Sintaxis:
hdfs dfs -getmerge -nl /path1 /path2 ..../path n /destination
-nl se usa para agregar una nueva línea. esto agregará una nueva línea entre el contenido de estos n archivos. En este caso, lo fusionamos con la carpeta /hadoop_file dentro de mi carpeta /Documentos .
hdfs dfs -getmerge -nl /Hadoop_File/file1.txt /Hadoop_File/file2.txt /home/dikshant/Documents/hadoop_file/output.txt
Ahora veamos si el archivo se fusiona en el archivo output.txt o no.
En la imagen de arriba, puede ver fácilmente que el archivo se fusionó con éxito en nuestro archivo output.txt .
Publicación traducida automáticamente
Artículo escrito por dikshantmalidev y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA