Análisis de Componentes Principales en Minería de Datos

La reducción de dimensiones es un paso necesario en el análisis efectivo de conjuntos de datos masivos de alta dimensión. Puede ser el objetivo principal en Data Mining para el análisis y visualización de datos de alta dimensión o puede ser un paso intermedio que permite algún otro análisis como el agrupamiento.

El análisis de componentes principales es una técnica de reducción de datos que transforma un gran número de variables correlacionadas en un conjunto más pequeño de variables correlacionadas llamadas componentes principales. En términos simples, el análisis de componentes principales es un método para extraer variables importantes de una gran cantidad de variables disponibles en un conjunto de datos, extrae un conjunto de características de baja dimensión de un conjunto de datos de alta dimensión con el objetivo de capturar la mayor cantidad de información posible. (varianza) en los datos.

El análisis de componentes principales se utiliza principalmente como técnica de reducción de dimensionalidad en diversas aplicaciones de inteligencia artificial, como la visión artificial y la compresión de imágenes. También se puede usar para encontrar patrones ocultos cuando los datos tienen grandes dimensiones. Algunos de los campos que utilizan el Análisis de Componentes Principales son las finanzas, la minería de datos, la psicología, etc.

Principal Components Analysis in Data Mining

 

Pasos involucrados en el análisis de componentes principales:

El paso principal involucrado en el análisis de componentes principales se da a continuación:

  •  Estandarizar el conjunto de datos.
  •  Calcule la array de covarianza para las características en el conjunto de datos.
  • Calcule los valores propios y los vectores propios para la array de covarianza.
  • Ordenar los valores propios y sus vectores propios correspondientes. 
  • elegir k valores propios para formar una array de vectores propios.
  • Transforma la array original.

Usos:

Hay muchos usos del análisis de componentes principales en la minería de datos, algunos de ellos se enumeran a continuación:

  • Se utiliza para encontrar la interrelación entre las variables en los datos.
  • Se utiliza para interpretar y visualizar datos.
  • Se reduce el número de variables, lo que simplifica el análisis posterior.
  • a menudo se usa para visualizar la distancia genética y la relación entre poblaciones.

ventajas:

  • Ayuda en la compresión de datos y elimina características correlacionadas.
  • Ayuda a acelerar otros algoritmos de minería de datos.
  • Convierte datos de alta dimensión en datos de baja dimensión que mejoran y facilitan la visualización.

Desventajas:

  • Puede conducir a una cierta cantidad de pérdida de datos.
  • Tiende a encontrar correlaciones lineales entre variables, lo que a veces no es deseable.
  • Falla en los casos en que la media y la covarianza no son suficientes para definir conjuntos de datos.

Publicación traducida automáticamente

Artículo escrito por ishukatiyar16 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *