Hadoop: cliente CLI Python Snakebite, su uso y referencias de comandos

Python Snakebite viene con un cliente CLI (Command Line Interface) que es una biblioteca de cliente basada en HDFS. El nombre de host o la dirección IP del NameNode y el puerto RPC del NameNode deben conocerse para usar la CLI de Python Snakebite. Podemos enumerar todos estos valores de puerto y nombre de host … Continue reading «Hadoop: cliente CLI Python Snakebite, su uso y referencias de comandos»

¿Cómo convertirse en un desarrollador de Hadoop?

Si alguna vez se ha encontrado con el término ‘ Big Data ‘ (que es bastante común en el escenario actual), entonces también debe haber oído hablar de ‘ Hadoop ‘. Una fracción importante de las grandes empresas tecnológicas está utilizando la tecnología Hadoop para administrar sus enormes conjuntos de datos distribuidos. Estadísticamente, se espera … Continue reading «¿Cómo convertirse en un desarrollador de Hadoop?»

Las 7 razones principales para aprender Hadoop

Hadoop es una herramienta de procesamiento de datos que se utiliza para procesar datos de gran tamaño en hardware comercial distribuido. La tendencia del mercado de Big Data Hadoop está en auge y no muestra ningún tipo de desaceleración en su crecimiento. Hoy en día, las industrias son capaces de almacenar todos los datos generados … Continue reading «Las 7 razones principales para aprender Hadoop»

Descripción general de Apache Presto

Descripción general: en el mundo actual, los datos se han convertido en la parte más importante de la vida y el almacenamiento y uso de los datos para diferentes propósitos se ha convertido en un objetivo comercial esencial. Por lo tanto, debido a la aparición de muchas tecnologías, una de ellas es el análisis de … Continue reading «Descripción general de Apache Presto»

¿Qué es Apache Flink?

En la generación actual, Apache Flink es la gran herramienta gigante que no es más que 4G de Big Data. Es el verdadero marco de procesamiento de flujo. El núcleo de Flink (núcleo) es un tiempo de ejecución de transmisión que proporciona procesamiento distribuido, tolerancia a fallas. Flink procesa eventos a una alta velocidad constante … Continue reading «¿Qué es Apache Flink?»

Programa MapReduce: encontrar la edad promedio de hombres y mujeres que murieron en el desastre del Titanic

Todos estamos familiarizados con el desastre que ocurrió el 14 de abril de 1912. El gran barco gigante de 46000 toneladas de peso se hundió a una profundidad de 13,000 pies en el Océano Atlántico Norte. Nuestro objetivo es analizar los datos obtenidos tras este desastre. Hadoop MapReduce se puede utilizar para manejar estos grandes … Continue reading «Programa MapReduce: encontrar la edad promedio de hombres y mujeres que murieron en el desastre del Titanic»

Arquitectura de HILO de Hadoop

YARN significa » Otro negociador de recursos más «. Se introdujo en Hadoop 2.0 para eliminar el cuello de botella en Job Tracker que estaba presente en Hadoop 1.0. YARN se describió como un » Administrador de recursos rediseñado » en el momento de su lanzamiento, pero ahora ha evolucionado para ser conocido como un … Continue reading «Arquitectura de HILO de Hadoop»

Hadoop: demonios y sus características

Los demonios significan Proceso . Hadoop Daemons son un conjunto de procesos que se ejecutan en Hadoop. Hadoop es un marco escrito en Java , por lo que todos estos procesos son procesos Java.  Apache Hadoop 2 consta de los siguientes demonios:  NodeNombre Node de datos Node de nombre secundario Administrador de recursos Administrador de … Continue reading «Hadoop: demonios y sus características»

Diferencia entre Hadoop y Teradata

Hadoop es un marco de programación de software donde se almacena y utiliza una gran cantidad de datos para realizar el cálculo. Su marco se basa en la programación de Java, que es similar a C y scripts de shell. En otras palabras, podemos decir que es una plataforma que se utiliza para administrar datos, … Continue reading «Diferencia entre Hadoop y Teradata»

¿Qué son los datos no estructurados?

Los datos no estructurados son los datos que no se ajustan a un modelo de datos y no tienen una estructura fácilmente identificable, por lo que no pueden ser utilizados fácilmente por un programa de computadora. Los datos no estructurados no están organizados de una manera predefinida o no tienen un modelo de datos predefinido, … Continue reading «¿Qué son los datos no estructurados?»