Desperdiciar la información útil oculta detrás de los datos puede ser un obstáculo peligroso para las industrias, e ignorar esta información finalmente hace retroceder el crecimiento de su industria. ¿Datos? ¿Grandes datos? Qué tan grande crees que es, sí, es realmente enorme en volumen con gran velocidad, variedad, veracidad y valor. Entonces, ¿cómo crees que los humanos encuentran la solución para lidiar con este gran volumen de datos? Analicemos estos diversos enfoques uno por uno.
Enfoque tradicional
En el enfoque tradicional, anteriormente, la empresa de tecnología Big Giant maneja los datos en un solo sistema almacenando y procesando los datos con la ayuda de varios proveedores de bases de datos disponibles en el mercado como IBM, Oracle, etc. Las bases de datos utilizadas en ese momento utilizan RDBMS (Relational Sistema de gestión de base de datos) que se utiliza para almacenar los datos estructurados. El desarrollador utiliza una aplicación breve que lo ayuda a comunicarse con las bases de datos y lo ayuda a mantener, analizar, modificar y visualizar los datos almacenados.
Pero hay un problema con el uso de este enfoque tradicional, el problema es que el servidor de la base de datos en ese momento, que en realidad es el hardware básico, solo es capaz de almacenar y mantener un tamaño de datos muy inferior. Los datos solo se pueden procesar hasta un límite, es decir, sobre la velocidad de procesamiento de los procesadores disponibles en ese momento. Además, los servidores no son muy eficientes o no son capaces de manejar la velocidad y la variedad de datos porque no estamos usando un grupo de sistemas informáticos. Un solo servidor de base de datos está dedicado a manejar todos estos datos.
¿Cómo encuentra Google su solución para Big Data?
Google en ese momento introdujo el nombre de algoritmo MapReduce . MapReduce funciona en una arquitectura maestro-esclavo, lo que significa que, en lugar de dedicar un solo servidor de base de datos para manejar los datos, Google introdujo una nueva terminología en la que el Maestro guiará a los otros Nodes esclavos para manejar estos grandes datos. La tarea debe dividirse en varios bloques y luego distribuirse entre estos esclavos. Luego, una vez que los esclavos procesen los datos, el maestro recopilará el resultado obtenido de los distintos Nodes de los esclavos y creará el conjunto de datos de resultado final.
Más tarde, Doug Cutting y su compañero de trabajo Mike Cafarella en 2005 decidieron crear un software de código abierto que pudiera funcionar con este algoritmo MapReduce. Aquí es donde se presenta por primera vez la imagen de Hadoop para tratar con un conjunto de datos muy grande.
Hadoop es un marco escrito en Java que funciona sobre la colección de varios hardware de productos básicos simples para manejar el gran conjunto de datos utilizando un modelo de programación de nivel muy básico.
Publicación traducida automáticamente
Artículo escrito por dikshantmalidev y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA