Enfoque Data Cube u OLAP en Data Mining

La agrupación de datos en una array multidimensional se denomina cubos de datos. En el alojamiento de Dataware, generalmente tratamos con varios modelos de datos multidimensionales, ya que los datos estarán representados por múltiples dimensiones y múltiples atributos. Estos datos multidimensionales se representan en el cubo de datos como el cubo representa un espacio de alta dimensión. El cubo de datos muestra gráficamente cómo se organizan los diferentes atributos de los datos en el modelo de datos. A continuación se muestra el diagrama de un cubo de datos general.  

El ejemplo anterior es un cubo 3D que tiene atributos como branch(A,B,C,D),item type(home,entertainment,computer,phone,security), year(1997,1998,1999) .
 

Clasificación del cubo de datos:

El cubo de datos se puede clasificar en dos categorías:

  • Cubo de datos multidimensional: básicamente ayuda a almacenar grandes cantidades de datos mediante el uso de una array multidimensional. Aumenta su eficiencia manteniendo un índice de cada dimensión. Por lo tanto, dimensional puede recuperar datos rápidamente.
  • Cubo de datos relacionales: básicamente ayuda a almacenar grandes cantidades de datos haciendo uso de tablas relacionales. Cada tabla relacional muestra las dimensiones del cubo de datos. Es más lento en comparación con un cubo de datos multidimensional.
     

Operaciones de cubo de datos:

Las operaciones de cubo de datos se utilizan para manipular datos para satisfacer las necesidades de los usuarios. Estas operaciones ayudan a seleccionar datos particulares para el análisis. Hay principalmente 5 operaciones enumeradas a continuación:

  • Roll-up : operación y agregado de ciertos atributos de datos similares que tienen la misma dimensión juntos. Por ejemplo, si el cubo de datos muestra los ingresos diarios de un cliente, podemos usar una operación acumulada para encontrar los ingresos mensuales de su salario.
     
  • Drill-down : esta operación es la inversa de la operación de roll-up. Nos permite tomar información particular y luego subdividirla aún más para un análisis de granularidad más grueso. Se amplía con más detalle. Por ejemplo, si India es un atributo de una columna de país y deseamos ver pueblos en India, entonces la operación de desglose divide India en estados, distritos, pueblos, ciudades, pueblos y luego muestra la información requerida.
     
  • Rebanado : esta operación filtra las porciones innecesarias. Supongamos que en una dimensión en particular, el usuario no necesita todo para el análisis, sino un atributo en particular. Por ejemplo, country=”jamaica”, esto mostrará solo acerca de jamaica y solo mostrará otros países presentes en la lista de países.
     
  • Cortar en dados : esta operación hace un corte multidimensional, que no solo corta una sola dimensión sino que también puede ir a otra dimensión y cortar un cierto rango de ella. Como resultado, se parece más a un subcubo del cubo completo (como se muestra en la figura). Por ejemplo, el usuario quiere ver el salario anual de los empleados del estado de Jharkhand.
     
  • Pivote : esta operación es muy importante desde el punto de vista visual. Básicamente transforma el cubo de datos en términos de vista. No cambia los datos presentes en el cubo de datos. Por ejemplo, si el usuario está comparando el año con la sucursal, mediante la operación pivote, el usuario puede cambiar el punto de vista y ahora comparar la sucursal con el tipo de artículo.

Ventajas de los cubos de datos:

  • Ayuda a dar una vista resumida de los datos.
  • Los cubos de datos almacenan datos de gran tamaño de forma sencilla.
  • La operación del cubo de datos proporciona un análisis rápido y mejor,
  • Mejorar el rendimiento de los datos.

Publicación traducida automáticamente

Artículo escrito por pradiptamukherjee y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *