La generalización de datos es el proceso de resumir datos reemplazando valores de nivel relativamente bajo con conceptos de nivel superior. Es una forma de minería de datos descriptiva .
Hay dos enfoques básicos de generalización de datos:
1. Enfoque de cubo de datos:
- También se conoce como enfoque OLAP.
- Es un enfoque eficiente ya que es útil para hacer el gráfico de ventas pasadas.
- En este enfoque, el cálculo y los resultados se almacenan en el cubo de datos.
- Utiliza operaciones de resumen y desglose en un cubo de datos.
- Estas operaciones generalmente involucran funciones agregadas, como contar(), sum(), promedio() y máximo().
- Estas vistas materializadas se pueden usar para apoyar decisiones, descubrir conocimientos y muchas otras aplicaciones.
2. Inducción orientada a atributos:
- Es un enfoque de análisis de datos en línea, orientado a consultas y basado en la generalización.
- En este enfoque, realizamos la generalización sobre la base de diferentes valores de cada atributo dentro del conjunto de datos relevante. después de esa misma tupla se fusionan y sus respectivos recuentos se acumulan para realizar la agregación.
- Realiza la agregación fuera de línea antes de que se envíe una consulta de minería de datos o OLAP para su procesamiento.
- Por otro lado, la inducción orientada a atributos se acerca, al menos en su propuesta inicial, a una base de datos relacional orientada a consultas, de base generalizada (técnica de análisis de datos en línea).
- No se limita a medidas particulares ni datos categóricos.
- El enfoque de inducción orientado a atributos utiliza dos métodos:
(i). Eliminación de atributos.
(ii). Generalización de atributos.