Transformaciones wavelet en minería de datos

La transformada wavelet discreta (DWT) es una técnica de procesamiento de señales que transforma señales lineales. El vector de datos X se transforma en un vector numéricamente diferente, Xo, de coeficientes de wavelet cuando se aplica el DWT. Los dos vectores X y Xo deben tener la misma longitud. Al aplicar esta técnica a la reducción de datos, consideramos la tupla de datos n-dimensional, es decir, X = (x1,x2,…,xn), donde n es el número de atributos presentes en la relación del conjunto de datos.

La wavelet transforma los datos que se pueden truncar y esto es útil en la reducción de datos. Si almacenamos una pequeña fracción de los coeficientes de wavelet más fuertes, se puede obtener la aproximación comprimida de los datos originales. Por ejemplo, se pueden retener los coeficientes de ondícula mayores que algún umbral determinado. Los coeficientes de la wavelet que no sean los datos determinados por el usuario se establecen en 0. La representación resultante de los datos es muy escasa. El cálculo de las operaciones es muy rápido si se realizan en el espacio wavelet. Esta técnica también se puede utilizar para eliminar el ruido en los datos. Esto reduce la tarea de suavizar las características principales de los datos y las transformaciones wavelet también hacen que la limpieza de datos sea muy efectiva.

La transformada discreta de Fourier (DFT) es una técnica de procesamiento de señales que involucra senos y cosenos. El DWT está relacionado con el DFT y se basa en los resultados del DFT. El DWT gana bien en la compresión con pérdida en comparación con el DFT. Si DWT y DFT de un vector de datos dado tienen el mismo número de coeficientes, entonces el DWT proporciona coeficientes de wavelet y apropiación de los datos más precisos. El DWT ocupa menos espacio en comparación con el DFT. Solo hay un grupo de DFT, pero DWT tiene muchos grupos. Las transformadas wavelet más populares son Haar-2 y Daubechies-4 . La transformada wavelet discreta utiliza un algoritmo piramidal jerárquico que reduce a la mitad los datos en cada iteración, los datos se reducen a la mitad y, por lo tanto, aumenta la velocidad de cálculo de los datos.

El método de la pirámide jerárquica es el siguiente:

El vector de datos de entrada tiene una longitud L y L es un número entero y es la potencia de 2. Si la longitud L no es la potencia de 2, podemos agregar los ceros al final del vector de datos de entrada para convertirlo en una potencia de 2.
Aplicamos dos funciones para cada transformación del vector de datos. La primera función es realizar el suavizado de datos, como encontrar el promedio ponderado de los vectores de datos. La segunda función es encontrar la diferencia ponderada y esto recupera las características importantes del vector de entrada.
Aplicamos las dos funciones a los pares del eje X de los puntos de datos (x2i,x2i+1). Se obtienen dos conjuntos de datos diferentes de longitud L/2 después de aplicar las dos funciones. El primer conjunto de datos es la versión de baja frecuencia de los datos originales y el segundo es el conjunto de datos de alta frecuencia.
Estas dos funciones se aplican a los vectores de datos recursivamente hasta que los vectores de datos resultantes obtenidos tengan una longitud de 2.
Los coeficientes wavelet se asignan finalmente a los vectores de datos transformados.

Publicación traducida automáticamente

Artículo escrito por hasani y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta Cancelar la respuesta