¿Cómo maneja MapReduce la consulta de datos?

La metodología adoptada por MapReduce puede parecer un enfoque de potencia bestial. La razón es que todo el conjunto de datos, o al menos una parte decente, se puede preparar para cada consulta. Sea como fuere, esta es su capacidad. MapReduce es un procesador de consultas por lotes , y la capacidad de ejecutar una consulta especialmente designada en todo el conjunto de datos y obtener los resultados en un tiempo razonable es transformadora. Cambia la forma en que considera la información y abre información que se archivó recientemente en una cinta o en un círculo. Ofrece a las personas la oportunidad de avanzar con la información.

Las consultas que antes tomaban demasiado tiempo para siquiera considerar responderlas ahora podrían responderse, lo que genera nuevas consultas y nuevos conocimientos. Por ejemplo, Mailtrust, la división de correo de Rackspace, utilizó Hadoop para preparar registros de correo electrónico. Una investigación especialmente designada que redactaron fue para ubicar la dispersión geográfica de sus clientes.

Según el lote

Por cada una de sus cualidades, MapReduce es generalmente un sistema de procesamiento por lotes y no es apropiado para la investigación inteligente. Uno no puede ejecutar una consulta y obtener resultados en un par de segundos o menos. Las consultas suelen tardar unos minutos o más, por lo que es mejor para un uso desconectado, donde ciertamente no hay un ser humano sentado en el círculo de preparación pendiente de los resultados. Sin embargo, desde su manifestación original, Hadoop ha avanzado más allá de la preparación de grupos.
Sin duda, la expresión «Hadoop» se usa una y otra vez para aludir a un sistema biológico más grande de tareas, no solo HDFS y MapReduce, que se encuentran bajo el paraguas de la Fundación para el registro distribuido y la preparación de datos a gran escala. Un gran número de estos son facilitados por Apache Software Foundation,que ofrece ayuda para una red de empresas de programación de código abierto, incluido el primer servidor HTTP del que recibe su nombre.
La primera parte para brindar acceso en línea fue HBase , una tienda de valor clave que emplea HDFS para su almacenamiento básico. HBase brinda acceso de lectura/redacción en línea de columnas individuales y actividades grupales para leer y redactar información en masa, lo que lo convierte en una excelente respuesta para aplicaciones de estructura. El verdadero agente de empoderamiento para los nuevos modelos de preparación en Hadoop fue la presentación de YARN (que representa Otro Negociador de Recursos ) en Hadoop 2. YARN es una gran ventaja en el marco de la placa, que permite que cualquier programa distribuido (no solo MapReduce) siga ejecutándose. la información en un grupo de Hadoop.

Diferentes patrones de procesamiento trabajando con Hadoop

  • SQL interactivo
    Al abstenerse de MapReduce y utilizar un motor de preguntas disperso que emplea demonios comprometidos «confiablemente» (como Impala) o reutilización de titulares (como Hive en Tez), es posible lograr reacciones de baja inactividad para preguntas SQL en Hadoop mientras todavía escalando hasta enormes tamaños de conjuntos de datos.
  • Procesamiento de flujo
    Los marcos de transmisión como Storm, Spark Streaming o Samza hacen que sea posible ejecutar cálculos circulados en tiempo real sobre oleadas ilimitadas de datos y descargar resultados al almacenamiento de Hadoop o marcos externos.
  • Procesamiento iterativo
    Numerosos cálculos, como los de IA, son de naturaleza iterativa, por lo que es significativamente más efectivo mantener cada conjunto de trabajo intermedio en la memoria, en contraste con el apilamiento de una placa en cada énfasis. El diseño de MapReduce no permite esto, sin embargo, es directo con Spark, por ejemplo, y permite un estilo profundamente exploratorio de trabajar con conjuntos de datos.
  • Búsqueda
    La etapa de búsqueda de Solr puede seguir ejecutándose en un grupo de Hadoop, ordenando registros a medida que se agregan a HDFS y respondiendo preguntas de búsqueda de registros guardados en HDFS.

A pesar del surgimiento de varios sistemas de preparación en Hadoop, MapReduce todavía es útil para ver cómo funciona, ya que presenta algunas ideas que se aplican aún más en general (como posiciones de información, o cómo un conjunto de datos se divide en partes) .

Publicación traducida automáticamente

Artículo escrito por mayank5326 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *