Agrupación de datos de alta dimensión en minería de datos

El agrupamiento es básicamente un tipo de método de aprendizaje no supervisado. Un método de aprendizaje no supervisado es un método en el que extraemos referencias de conjuntos de datos que consisten en datos de entrada sin respuestas etiquetadas. 

El agrupamiento es la tarea de dividir la población o los puntos de datos en varios grupos, de modo que los puntos de datos en los mismos grupos sean más similares a otros puntos de datos en el mismo grupo y diferentes a los puntos de datos en otros grupos.

Clustering in Data Mining

Desafíos de agrupar datos de alta dimensión:

La agrupación de los datos de alta dimensión devuelve el grupo de objetos que son agrupaciones. Es necesario agrupar tipos similares de objetos para realizar el análisis de conglomerados de datos de alta dimensión, pero el espacio de datos de alta dimensión es enorme y tiene atributos y tipos de datos complejos. Un gran desafío es que necesitamos encontrar el conjunto de atributos que están presentes en cada grupo. Un clúster se define y caracteriza en función de los atributos presentes en el clúster. Agrupación de datos de alta dimensión, necesitamos buscar clústeres y encontrar el espacio para los clústeres existentes. 

Los datos de alta dimensión se reducen a datos de baja dimensión para simplificar la agrupación y la búsqueda de grupos. algunas aplicaciones necesitan los modelos apropiados de clústeres, especialmente los datos de alta dimensión. los grupos en los datos de alta dimensión son significativamente pequeños. las medidas de distancia convencionales pueden ser ineficaces. En cambio, para encontrar los grupos ocultos en datos de alta dimensión, necesitamos aplicar técnicas sofisticadas que puedan modelar correlaciones entre los objetos en subespacios.

Métodos de agrupamiento subespacial: 

Hay 3 métodos de agrupamiento subespacial: 

  • Métodos de búsqueda subespacial
  • Métodos de agrupamiento basados ​​en correlación
  • Métodos de biagrupamiento

Enfoques de agrupación de subespacios para buscar agrupaciones existentes en subespacios del espacio de datos de alta dimensión dado, donde un subespacio se define utilizando un subconjunto de atributos en el espacio completo.

 Overview of the different high-dimensional data clustering

1. Métodos de búsqueda subespacial:Un método de búsqueda de subespacios busca grupos en los subespacios. Aquí, el grupo es un grupo de tipos similares de objetos en un subespacio. La similitud entre los grupos se mide utilizando características de distancia o densidad. El algoritmo CLIQUE es un método de agrupamiento subespacial. Los métodos de búsqueda de subespacios buscan una serie de subespacios. Hay dos enfoques en los métodos de búsqueda de subespacios: el enfoque de abajo hacia arriba comienza a buscar desde los subespacios de baja dimensión. Si los grupos ocultos no se encuentran en subespacios de baja dimensión, busca en subespacios de mayor dimensión. El enfoque de arriba hacia abajo comienza a buscar desde los subespacios de alta dimensión y luego busca en subconjuntos de subespacios de baja dimensión. Los enfoques de arriba hacia abajo son efectivos si el subespacio de un grupo puede ser definido por los grupos del subespacio de vecindario local.

2. Clustering basado en correlación: los enfoques basados ​​en correlación descubren los clusters ocultos mediante el desarrollo de modelos de correlación avanzados. Se prefieren los modelos basados ​​en correlación si no es posible agrupar los objetos mediante los métodos de búsqueda de subespacio. El agrupamiento basado en correlación incluye las técnicas avanzadas de minería para el análisis de conglomerados de correlación. Los métodos de biagrupación son los métodos de agrupación en clústeres basados ​​en la correlación en los que se agrupan tanto los objetos como los atributos.

3. Métodos de biagrupamiento:

Biclustering significa agrupar los datos en función de los dos factores. podemos agrupar objetos y atributos a la vez en algunas aplicaciones. Los grupos resultantes son biclusters. Para realizar el biclustering hay cuatro requisitos: 

  • Solo un pequeño conjunto de objetos participa en un clúster.
  • Un clúster solo involucra una pequeña cantidad de atributos.
  • Los objetos de datos pueden formar parte de varios clústeres o los objetos también pueden incluirse en cualquier clúster.
  • Un atributo puede estar involucrado en varios clústeres.  

Los objetos y los atributos no se tratan de la misma manera. Los objetos se agrupan según los valores de sus atributos. Tratamos los objetos y los atributos como diferentes en el análisis biclustering.  

Publicación traducida automáticamente

Artículo escrito por hasani y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *