Requisito previo: Preprocesamiento de datos
¿Por qué reducción de datos?
El proceso de reducción de datos reduce el tamaño de los datos y los hace adecuados y viables para el análisis. En el proceso de reducción, se debe preservar la integridad de los datos y se reduce el volumen de datos. Hay muchas técnicas que se pueden utilizar para la reducción de datos. La reducción de numerosidad es una de ellas.
Reducción de Numerosidad:
La Reducción de Numerosidad es una técnica de reducción de datos que reemplaza los datos originales por una forma más pequeña de representación de datos. Hay dos técnicas para la reducción de la numerosidad Parametric
y métodos. Non-Parametric
Métodos paramétricos –
Para los métodos paramétricos , los datos se representan usando algún modelo. El modelo se utiliza para estimar los datos, por lo que solo se requiere almacenar los parámetros de los datos, en lugar de los datos reales. Regression
y Log-Linear
los métodos se utilizan para crear tales modelos.
Regresión:
La regresión puede ser una regresión lineal simple o una regresión lineal múltiple. Cuando hay un solo atributo independiente, dicho modelo de regresión se denomina regresión lineal simple y si hay múltiples atributos independientes, dichos modelos de regresión se denominan regresión lineal múltiple.
En la regresión lineal, los datos se modelan en una línea recta de ajuste. Por ejemplo, una variable aleatoria y se puede modelar como una función lineal de otra variable aleatoria x con la ecuación y = ax+b
donde a
y b
(coeficientes de regresión) especifican la pendiente y la intersección en y de la línea, respectivamente.
En la regresión lineal múltiple, y
se modelará como una función lineal de dos o más variables predictoras (independientes).
Modelo logarítmico lineal:
el modelo logarítmico lineal se puede utilizar para estimar la probabilidad de cada punto de datos en un espacio multidimensional para un conjunto de atributos discretos, en función de un subconjunto más pequeño de combinaciones dimensionales. Esto permite construir un espacio de datos de mayor dimensión a partir de atributos de menor dimensión.
Tanto la regresión como el modelo logarítmico lineal se pueden utilizar con datos escasos, aunque su aplicación puede ser limitada.
Métodos no paramétricos –
Estos métodos se utilizan para almacenar representaciones reducidas de los datos e incluyen histogramas , agrupación , muestreo y agregación de cubos de datos .
Histogramas:
Histograma es la representación de datos en términos de frecuencia. Utiliza binning para aproximar la distribución de datos y es una forma popular de reducción de datos.
Agrupamiento:
el agrupamiento divide los datos en grupos/clústeres. Esta técnica divide los datos completos en diferentes grupos. En la reducción de datos, la representación de clúster de los datos se utiliza para reemplazar los datos reales. También ayuda a detectar valores atípicos en los datos.
Muestreo:
el muestreo se puede utilizar para la reducción de datos porque permite representar un gran conjunto de datos mediante una muestra (o subconjunto) de datos aleatorios mucho más pequeña.
Agregación de cubos de datos:
la agregación de cubos de datos implica mover los datos del nivel detallado a un número menor de dimensiones. El conjunto de datos resultante es más pequeño en volumen, sin pérdida de información necesaria para la tarea de análisis.
Publicación traducida automáticamente
Artículo escrito por deepak_jain y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA