Datos con Hadoop – Barcelona Geeks

Problema básico con los datos
A pesar de que los límites de capacidad de los discos duros se han expandido enormemente a lo largo de los años, las velocidades de acceso (la velocidad a la que se pueden leer los datos de los discos) no se han mantenido. Una unidad estándar de 1990 podía almacenar 1370 MB de datos y tenía una velocidad de movimiento de 4,4 MB/s, por lo que uno podía leer todos los datos de una unidad completa en unos cinco minutos. Más de 20 años después, las unidades de 1 terabyte son el estándar, sin embargo, la velocidad de transferencia es de alrededor de 100 MB/s, por lo que lleva más de dos horas leer detenidamente todos los datos de la placa.
Es bastante tiempo para leer detenidamente todos los datos en un solo disco, y la redacción es significativamente más lenta. La forma clara de reducir el tiempo es leer de numerosos círculos sin demora. Supongamos que tuviéramos 100 unidades, cada una con una centésima parte de la información. Trabajando en paralelo, pudimos examinar la información en menos de dos minutos.
Utilizar solo una centésima parte de una placa puede parecer ineficiente. Sea como fuere, podemos almacenar 100 conjuntos de datos, cada uno de los cuales es de 1 terabyte, y darles acceso compartido. Podemos imaginar que los clientes de dicho marco estarían encantados de compartir el acceso como resultado final de tiempos de examen más cortos, además, de hecho, sus ocupaciones de examen probablemente se distribuirían después de un tiempo, por lo que no se entrometerían con unos a otros hasta el extremo. Sin embargo, hay algo completamente diferente en tener la opción de examinar y redactar datos en paralelo hacia o desde diferentes placas.
Problemas :

El principal problema a resolver es la decepción del equipo: cuando uno comienza a utilizar numerosas piezas de equipo, la posibilidad de que uno se quede corto es realmente alta. Un método típico para evitar la desgracia de los datos es a través de la replicación: el sistema guarda duplicados repetitivos de los datos para que, en caso de desilusión, haya otro duplicado disponible. Esta es la forma en que funciona RAID , por ejemplo, a pesar de que el sistema de archivos de Hadoop, el sistema de archivos distribuido de Hadoop (HDFS) , adopta una metodología un tanto única, como verá más adelante.
El segundo problema es que la mayoría de los errores de investigación probablemente deberían consolidar la información de alguna manera, y la información leída de un círculo puede unirse con la información de cualquiera de las otras 99 placas.

Diferentes marcos dispersos permiten que la información se consolide de numerosas fuentes, pero hacer esto de manera efectiva es una prueba famosa. MapReduce da un modelo de programación

que editó composiciones el tema de la placa examina y compone
transformándolo en un cálculo sobre arreglos de claves y calidades.

Al igual que HDFS, MapReduce ha trabajado en confiabilidad. Más o menos, esto es lo que ofrece Hadoop: una plataforma confiable y versátil para la capacidad y el análisis. Además, ya que sigue ejecutándose en equipos de artículos y es de código abierto. Hadoop es razonable.

Publicación traducida automáticamente

Artículo escrito por mayank5326 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta Cancelar la respuesta