El Algoritmo y Mapa SON – Reducir

En este artículo, vamos a discutir la introducción del algoritmo SON y map-reduce. Además, cubriremos el primer mapa y la primera reducción y el segundo mapa y la segunda reducción. Así que discutámoslo.

El algoritmo SON:
El algoritmo SON se adapta bien a un entorno de computación paralela. Cada uno de los fragmentos se puede tratar en paralelo, y los conjuntos de elementos frecuentes de cada fragmento se unen para formar los candidatos.
Puede dispensar los candidatos a muchos procesadores, hacer que cada procesador cuente el apoyo para cada candidato en un subconjunto de las cestas y, al final, sumar esos apoyos para obtener el apoyo para cada conjunto de elementos de candidatos en el conjunto de datos completo.

Este procedimiento no se tiene que realizar en map-reduce, pero hay una forma natural de indicar cada una de las dos pasadas como una operación de map-reduce. Resumiremos esta secuencia de reducción de mapas a continuación.

  • Primera función de mapa:
    se toma el subconjunto asignado de las canastas y se identifican los conjuntos de elementos frecuentes en el subconjunto utilizando un algoritmo aleatorio simple. Teniendo en cuenta ese algoritmo, baje el umbral de soporte de s a ps si cada tarea de mapa a obtener obtiene una fracción p del archivo de alimentación completo. El resultado es un conjunto de pares clave-valor (F, 1), donde F es un conjunto de elementos frecuente de la muestra. El mérito es siempre 1 y es inmaterial.
  • Primera función de reducción:
    a cada tarea de reducción se le asigna un conjunto de teclas, que son conjuntos de elementos. El valor no se tiene en cuenta y el trabajo de reducción simplemente produce los conjuntos de elementos que aparecen una o más veces. Por lo tanto, el resultado de la primera función de reducción son los Itemsets candidatos.
  • Segunda función de mapa:
    las tareas de mapa para la segunda función de mapa toman toda la salida de la primera función de reducción (los conjuntos de elementos candidatos) y una sección del archivo de datos de entrada. Cada tarea de mapa cuenta el número de ocurrencias de cada uno de los conjuntos de elementos candidatos entre las canastas en la sección del conjunto de datos que se asignó. En esta segunda función de mapa (C, v), el valor del par de claves establecido será la salida, y donde puede ver los siguientes parámetros de la siguiente manera.
    C – Es uno de los conjuntos candidatos.
    v – Es el soporte para el itemset incluido en las canastas que fueron ingresadas a la tarea de mapa.
  • Segunda función de reducción:
    las tareas de reducción toman los conjuntos de elementos que se proporcionan como claves y agregan los valores análogos. El resultado es el soporte completo para cada uno de los conjuntos de elementos para los que se proporcionó la tarea de reducción. Aquellos Itemsets cuya suma de valores es al menos s son frecuentes en todo el conjunto de datos. Entonces, la tarea de reducción genera estos conjuntos de elementos con su resumen. Los conjuntos de elementos que no tienen soporte total al menos s no se transmiten a la salida de la tarea de reducción.

Publicación traducida automáticamente

Artículo escrito por goelaparna1520 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *