Voluntariado y Grid Computing | Hadoop

¿Qué es la Informática Voluntaria?
Cuando las personas se enteran por primera vez de Hadoop y MapReduce, a menudo preguntan: «¿En qué se diferencia
de SETI@home?» SETI , la Búsqueda de Inteligencia Extraterrestre, ejecuta una empresa llamada SETI@home en la que los voluntarios dan tiempo de CPU desde sus PC generalmente inactivas para examinar la información del radiotelescopio en busca de indicaciones de vida astuta fuera de la Tierra.
SETI@home es la más destacada de muchas empresas de figuras voluntarias; otros incorporan Great Internet Mersenne Prime Search (para buscar grandes números primos) y Folding@home (para comprender el colapso de proteínas y cómo se identifica con la enfermedad).
Las empresas de procesamiento voluntario funcionan dividiendo los problemas que intentan resolver en partes llamadas unidades de trabajo, que se envían a las PC de todo el mundo para ser diseccionadas. Por ejemplo, una unidad de trabajo SETI@home tiene aproximadamente 0,35 MB de datos de radiotelescopio y lleva horas o días examinarla en una PC doméstica normal. Una vez que finaliza la investigación, los resultados se envían de vuelta al servidor y el cliente obtiene otra unidad de trabajo. Como medida de precaución para luchar contra el engaño, cada unidad de trabajo se envía a tres máquinas únicas y necesita, en cualquier caso, dos resultados para aceptar ser reconocido.
A pesar del hecho de que SETI@home puede ser externamente como MapReduce (descomponer un problema en partes libres para tratarlas en paralelo), hay algunos contrastes dignos de mención. El problema de SETI@home está muy relacionado con la CPU, lo que lo hace razonable para ejecutarse en una gran cantidad de PC en todo el mundo debido a que la oportunidad de mover la unidad de trabajo predomina cuando se ejecuta el cálculo en ella. Los voluntarios están dando ciclos de CPU, no transmisión de datos.
MapReduce está diseñado para ejecutar ocupaciones que duran minutos u horas en equipos confiables y dedicados que se ejecutan en una sola granja de servidores con interconexiones de alta velocidad de transferencia total. Por otro lado, SETI@home ejecuta un cálculo continuo en máquinas no confiables en Internet con velocidades de asociación de factores profundos y sin área de información.

¿Qué es la Computación Grid?
La computación de alto rendimiento (HPC) y las redes de procesamiento de marcos han estado manejando información a gran escala durante mucho tiempo, utilizando interfaces de programas de aplicación (API) como la interfaz de paso de mensajes (MPI) . De manera integral, la metodología en HPC es difundir el trabajo en un grupo de máquinas, que acceden a un sistema de archivos mutuo, facilitado por una red de área de almacenamiento (SAN) . Esto funciona muy bien para ocupaciones escaladas de procesos, sin embargo, se convierte en un problema cuando los concentradores necesitan llegar a volúmenes de datos más grandes (cientos de gigabytes, el momento en que Hadoop realmente comienza a brillar) ya que la transmisión de datos del sistema es el cuello de botella y los concentradores de procesos se vuelven inerte.
Hadoop intenta co-encontrar la información con los concentradores de procesos, por lo que el acceso a la información es rápido ya que es local. Este componente, conocido como área de información, está en el centro de la preparación de información en Hadoop y es el propósito detrás de su excelente ejecución. Al darse cuenta de que la velocidad de transferencia del sistema es el activo más valioso en una condición de granja de servidores (es todo menos difícil sumergirse en conexiones de organización duplicando información), Hadoop se esfuerza mucho por moderarla demostrando expresamente la topología del sistema. Tenga en cuenta que este curso de acción no bloquea los exámenes de CPU alta en Hadoop. MPI brinda un control increíble a los ingenieros de software, pero requiere que manejen de manera inequívoca la mecánica del flujo de información, descubierta por medio de programaciones y compilaciones C de bajo nivel, por ejemplo, archivos adjuntos, así como los cálculos de montos más elevados para las investigaciones. La preparación en Hadoop funciona solo en la cantidad más alta: el desarrollador considera el modelo de datos (como conjuntos de valores clave para MapReduce), mientras que el flujo de datos sigue siendo verificable.

Publicación traducida automáticamente

Artículo escrito por mayank5326 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *