El proceso de convertir un grupo de objetos abstractos en clases de objetos similares se conoce como agrupación.
Puntos para recordar:
Un grupo se trata como un grupo de objetos de datos
- En el proceso de análisis de conglomerados, el primer paso es dividir el conjunto de datos en grupos con la ayuda de la similitud de datos, y luego los grupos se asignan a sus respectivas etiquetas.
- La mayor ventaja de la sobreclasificación en clústeres es que puede adaptarse a los cambios realizados y ayuda a identificar características útiles que diferencian a los diferentes grupos.
Aplicaciones del análisis de conglomerados:
- Es ampliamente utilizado en muchas aplicaciones, como procesamiento de imágenes, análisis de datos y reconocimiento de patrones.
- Ayuda a los especialistas en marketing a encontrar los distintos grupos en su base de clientes y pueden caracterizar sus grupos de clientes mediante el uso de patrones de compra.
- Se puede utilizar en el campo de la biología, derivando taxonomías animales y vegetales e identificando genes con las mismas capacidades.
- También ayuda en el descubrimiento de información mediante la clasificación de documentos en la web.
Métodos de agrupamiento:
Se puede clasificar en base a las siguientes categorías.
- Método basado en modelos
- Método jerárquico
- Método basado en restricciones
- Método basado en cuadrícula
- Método de partición
- Método basado en la densidad
Requisitos de la agrupación en minería de datos:
Los siguientes son algunos puntos por los que la agrupación en clústeres es importante en la minería de datos.
- Escalabilidad: requerimos algoritmos de agrupamiento altamente escalables para trabajar con grandes bases de datos.
- Capacidad para manejar diferentes tipos de atributos: los algoritmos deben poder trabajar con el tipo de datos, como datos categóricos, numéricos y binarios.
- Descubrimiento de clústeres con forma de atributo: el algoritmo debe poder detectar clústeres en formas arbitrarias y no debe limitarse a medidas de distancia.
- Interpretabilidad: los resultados deben ser completos, utilizables e interpretables.
- Alta dimensionalidad: el algoritmo debe poder manejar un espacio dimensional alto en lugar de solo manejar datos dimensionales bajos.
Publicación traducida automáticamente
Artículo escrito por pranithpashikanti786 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA