Requisito previo: minería de datos
El método de reducción de datos puede lograr una descripción condensada de los datos originales que es mucho menor en cantidad pero mantiene la calidad de los datos originales.
Métodos de reducción de datos:
Estos se explican a continuación.
1. Agregación de cubos de datos:
esta técnica se utiliza para agregar datos en una forma más simple. Por ejemplo, imagine que la información que recopiló para su análisis de los años 2012 a 2014 incluye los ingresos de su empresa cada tres meses. Lo involucran en las ventas anuales, en lugar del promedio trimestral. Por lo tanto, podemos resumir los datos de tal manera que los datos resultantes resuman las ventas totales por año en lugar de por trimestre. Resume los datos.
2. Reducción de la dimensión:
cada vez que nos encontramos con algún dato que es débilmente importante, usamos el atributo requerido para nuestro análisis. Reduce el tamaño de los datos ya que elimina características obsoletas o redundantes.
- Selección progresiva paso a paso:
la selección comienza con un conjunto vacío de atributos y luego decidimos cuál es el mejor de los atributos originales en el conjunto en función de su relevancia para otros atributos. Lo conocemos como un valor p en estadística.Suponga que hay los siguientes atributos en el conjunto de datos en los que pocos atributos son redundantes.
Initial attribute Set: {X1, X2, X3, X4, X5, X6} Initial reduced attribute set: { } Step-1: {X1} Step-2: {X1, X2} Step-3: {X1, X2, X5} Final reduced attribute set: {X1, X2, X5}
- Selección hacia atrás paso a paso:
esta selección comienza con un conjunto de atributos completos en los datos originales y, en cada punto, elimina el peor atributo restante en el conjunto.Suponga que hay los siguientes atributos en el conjunto de datos en los que pocos atributos son redundantes.
Initial attribute Set: {X1, X2, X3, X4, X5, X6} Initial reduced attribute set: {X1, X2, X3, X4, X5, X6 } Step-1: {X1, X2, X3, X4, X5} Step-2: {X1, X2, X3, X5} Step-3: {X1, X2, X5} Final reduced attribute set: {X1, X2, X5}
- Combinación de reenvío y selección hacia atrás:
nos permite eliminar los peores y seleccionar los mejores atributos, ahorrando tiempo y acelerando el proceso.
3. Compresión de datos :
la técnica de compresión de datos reduce el tamaño de los archivos utilizando diferentes mecanismos de codificación (codificación Huffman y codificación de longitud de ejecución). Podemos dividirlo en dos tipos en función de sus técnicas de compresión.
- Compresión sin pérdida:
las técnicas de codificación (codificación de longitud de ejecución) permiten una reducción simple y mínima del tamaño de los datos. La compresión de datos sin pérdidas utiliza algoritmos para restaurar los datos originales precisos a partir de los datos comprimidos. - Compresión con pérdida:
métodos como la técnica de transformada discreta Wavelet, PCA (análisis de componentes principales) son ejemplos de esta compresión. Por ejemplo, el formato de imagen JPEG es una compresión con pérdida, pero podemos encontrar el significado equivalente al original de la imagen. En la compresión de datos con pérdida, los datos descomprimidos pueden diferir de los datos originales, pero son lo suficientemente útiles para recuperar información de ellos.
4. Reducción de la numerosidad :
en esta técnica de reducción, los datos reales se reemplazan con modelos matemáticos o una representación más pequeña de los datos en lugar de los datos reales, es importante almacenar solo el parámetro del modelo. O método no paramétrico como agrupamiento, histograma, muestreo. Para obtener más información sobre la reducción de la numerosidad, visite el siguiente enlace:
5. Operación de Discretización y Jerarquía de Conceptos:
Las técnicas de discretización de datos se utilizan para dividir los atributos de la naturaleza continua en datos con intervalos. Reemplazamos muchos valores constantes de los atributos por etiquetas de pequeños intervalos. Esto significa que los resultados de la minería se muestran de forma concisa y fácilmente comprensible.
- Discretización de arriba hacia abajo:
si primero considera uno o un par de puntos (los llamados puntos de ruptura o puntos de división) para dividir todo el conjunto de atributos y repite este método hasta el final, entonces el proceso se conoce como de arriba hacia abajo. discretización también conocida como división. - Discretización de abajo hacia arriba:
si primero considera todos los valores constantes como puntos de división, algunos se descartan a través de una combinación de los valores de vecindad en el intervalo, ese proceso se llama discretización de abajo hacia arriba.
Jerarquías de conceptos:
reduce el tamaño de los datos recopilando y luego reemplazando los conceptos de bajo nivel (como 43 para la edad) por conceptos de alto nivel (variables categóricas como mediana edad o senior).
Para datos numéricos se pueden seguir las siguientes técnicas:
- Agrupamiento :
el agrupamiento es el proceso de cambiar variables numéricas en contrapartes categóricas. El número de contrapartes categóricas depende del número de contenedores especificados por el usuario. - Análisis de histograma:
al igual que el proceso de binning, el histograma se usa para dividir el valor del atributo X en rangos separados llamados corchetes. Hay varias reglas de partición:- Particionamiento de igual frecuencia: Particionamiento de los valores en función de su número de ocurrencias en el conjunto de datos.
- Particionamiento de igual ancho: Particionamiento de los valores en un espacio fijo basado en el número de contenedores, es decir, un conjunto de valores que van de 0 a 20.
- Agrupamiento: Agrupación de datos similares.