Introducción a la agrupación en clústeres
Es básicamente un tipo de método de aprendizaje no supervisado . Un método de aprendizaje no supervisado es un método en el que extraemos referencias de conjuntos de datos que consisten en datos de entrada sin respuestas etiquetadas. Generalmente, se utiliza como un proceso para encontrar una estructura significativa, procesos subyacentes explicativos, características generativas y agrupaciones inherentes a un conjunto de ejemplos.
El agrupamiento es la tarea de dividir la población o los puntos de datos en varios grupos, de modo que los puntos de datos en los mismos grupos sean más similares a otros puntos de datos en el mismo grupo y diferentes a los puntos de datos en otros grupos. Es básicamente una colección de objetos sobre la base de la similitud y la diferencia entre ellos.
Por ejemplo , los puntos de datos en el siguiente gráfico agrupados juntos se pueden clasificar en un solo grupo. Podemos distinguir los grupos y podemos identificar que hay 3 grupos en la imagen de abajo.
No es necesario que los clusters sean esféricos. Como :
DBSCAN: agrupación espacial de aplicaciones con ruido basada en la densidad
Estos puntos de datos se agrupan utilizando el concepto básico de que el punto de datos se encuentra dentro de la restricción dada desde el centro del grupo. Se utilizan varios métodos y técnicas de distancia para el cálculo de los valores atípicos.
¿Por qué agrupar?
El agrupamiento es muy importante ya que determina el agrupamiento intrínseco entre los datos no etiquetados presentes. No hay criterios para una buena agrupación. Depende del usuario, cuál es el criterio que puede utilizar que satisfaga su necesidad. Por ejemplo, podríamos estar interesados en encontrar representantes para grupos homogéneos (reducción de datos), en encontrar “agrupaciones naturales” y describir sus propiedades desconocidas (tipos de datos “naturales”), en encontrar agrupaciones útiles y adecuadas (clases de datos “útiles”). o en la búsqueda de objetos de datos inusuales (detección de valores atípicos). Este algoritmo debe hacer algunas suposiciones que constituyen la similitud de los puntos y cada suposición hace clústeres diferentes e igualmente válidos.
Métodos de agrupamiento:
- Métodos basados en la densidad: estos métodos consideran los grupos como la región densa que tiene algunas similitudes y diferencias con la región densa inferior del espacio. Estos métodos tienen buena precisión y la capacidad de fusionar dos grupos. Ejemplo DBSCAN (Conglomerado espacial de aplicaciones con ruido basado en la densidad) , OPTICS (Puntos de pedido para identificar la estructura de agrupamiento) , etc.
- Métodos basados en jerarquías: los grupos formados en este método forman una estructura de tipo árbol basada en la jerarquía. Los nuevos grupos se forman utilizando el previamente formado. Se divide en dos categorías.
- Aglomerativo ( enfoque de abajo hacia arriba )
- Divisivo ( enfoque de arriba hacia abajo )
ejemplos CURE (Clustering Usando Representantes), BIRCH (Clustering Reductor Iterativo Equilibrado y usando Jerarquías) , etc.
- Métodos de partición: estos métodos dividen los objetos en k grupos y cada partición forma un grupo. Este método se utiliza para optimizar una función de similitud de criterio objetivo, como cuando la distancia es un parámetro importante, por ejemplo , K-means, CLARANS (Clustering Large Applications based on Randomized Search) , etc.
- Métodos basados en cuadrículas: en este método, el espacio de datos se formula en un número finito de celdas que forman una estructura similar a una cuadrícula. Todas las operaciones de agrupamiento realizadas en estas cuadrículas son rápidas e independientes de la cantidad de objetos de datos, por ejemplo, STING (cuadrícula de información estadística), agrupamiento de ondas, CLIQUE (agrupación en búsqueda) , etc.
Algoritmos de agrupamiento: algoritmo de agrupamiento
de K-means : es el algoritmo de aprendizaje no supervisado más simple que resuelve el problema de agrupamiento.
Aplicaciones del Clustering en diferentes campos
- Marketing: se puede utilizar para caracterizar y descubrir segmentos de clientes con fines de marketing.
- Biología: Se puede utilizar para la clasificación entre diferentes especies de plantas y animales.
- Bibliotecas: se utiliza para agrupar diferentes libros sobre la base de temas e información.
- Seguros: Se utiliza para reconocer a los clientes, sus pólizas e identificar los fraudes.
Urbanismo: Se utiliza para hacer agrupaciones de viviendas y estudiar sus valores en función de su ubicación geográfica y otros factores presentes.
Estudios sísmicos: Al conocer las áreas afectadas por terremotos podemos determinar las zonas peligrosas.
Referencias:
Wiki Agrupación
jerárquica
Ijarcs
matteucc
analyticsvidhya
knowm
Publicación traducida automáticamente
Artículo escrito por Surya Priy y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA