El análisis de conglomerados es el proceso de encontrar grupos similares de objetos para formar conglomerados. Es un algoritmo basado en aprendizaje automático no supervisado que actúa sobre datos no etiquetados. Un grupo de puntos de datos se integraría para formar un grupo en el que todos los objetos pertenecerían al mismo grupo.
Grupo:
Los datos proporcionados se dividen en diferentes grupos mediante la combinación de objetos similares en un grupo. Este grupo no es más que un racimo. Un clúster no es más que una colección de datos similares que se agrupan.
Por ejemplo, considere un conjunto de datos de vehículos dado que contiene información sobre diferentes vehículos como automóviles, autobuses, bicicletas, etc. Como es un aprendizaje no supervisado, no hay etiquetas de clase como Automóviles, Bicicletas, etc. para todos los vehículos, todos los datos se combina y no se estructura de manera estructurada.
Ahora nuestra tarea es convertir los datos no etiquetados en datos etiquetados y se puede hacer usando clústeres.
La idea principal del análisis de conglomerados es que organizaría todos los puntos de datos formando conglomerados como el de automóviles, que contiene todos los automóviles, el de bicicletas, que contiene todas las bicicletas, etc.
Simplemente es la partición de objetos similares que se aplican a datos no etiquetados.
Propiedades de la agrupación:
1. Escalabilidad de agrupamiento: hoy en día hay una gran cantidad de datos y debería tratarse con enormes bases de datos. Para manejar bases de datos extensas, el algoritmo de agrupamiento debe ser escalable. Los datos deben ser escalables; si no lo son, no podemos obtener el resultado adecuado, lo que conduciría a resultados erróneos.
2. Alta dimensionalidad: el algoritmo debe poder manejar un espacio dimensional alto junto con datos de tamaño pequeño.
3. Usabilidad del algoritmo con múltiples tipos de datos: Se pueden usar diferentes tipos de datos con algoritmos de agrupamiento. Debe ser capaz de manejar diferentes tipos de datos como datos discretos, categóricos y basados en intervalos, datos binarios, etc.
4. Tratar con datos no estructurados: habría algunas bases de datos que contienen valores faltantes y datos ruidosos o erróneos. Si los algoritmos son sensibles a dichos datos, puede dar lugar a clústeres de mala calidad. Por lo tanto, debería poder manejar datos no estructurados y dar cierta estructura a los datos organizándolos en grupos de objetos de datos similares. Esto facilita el trabajo del experto en datos para procesar los datos y descubrir nuevos patrones.
5. Interpretabilidad: los resultados del agrupamiento deben ser interpretables, comprensibles y utilizables. La interpretabilidad refleja la facilidad con la que se entienden los datos.
Métodos de agrupamiento:
Los métodos de agrupamiento se pueden clasificar en las siguientes categorías:
- Método de partición
- Método jerárquico
- Método basado en la densidad
- Método basado en cuadrícula
- Método basado en modelos
- Método basado en restricciones
Método de partición: se utiliza para hacer particiones en los datos para formar clústeres. Si se realizan «n» particiones en «p» objetos de la base de datos, cada partición se representa mediante un clúster y n < p. Las dos condiciones que deben cumplirse con este método de agrupación en particiones son:
- Un objetivo solo debe pertenecer a un solo grupo.
- No debe haber ningún grupo sin un solo propósito.
En el método de partición, existe una técnica llamada reubicación iterativa, lo que significa que el objeto se moverá de un grupo a otro para mejorar la partición.
Método jerárquico: en este método, se crea una descomposición jerárquica del conjunto dado de objetos de datos. Podemos clasificar los métodos jerárquicos y podremos conocer el propósito de la clasificación sobre la base de cómo se forma la descomposición jerárquica. Existen dos tipos de enfoques para la creación de descomposición jerárquica, estos son:
- Enfoque aglomerativo: El enfoque aglomerativo también se conoce como enfoque de abajo hacia arriba. Inicialmente, los datos proporcionados se dividen en qué objetos forman grupos separados. A partir de entonces, continúa fusionando los objetos o los grupos que están cerca unos de otros, lo que significa que exhiben propiedades similares. Este proceso de fusión continúa hasta que se cumple la condición de terminación.
- Enfoque divisivo: El enfoque divisivo también se conoce como enfoque de arriba hacia abajo. En este enfoque, comenzaríamos con los objetos de datos que están en el mismo grupo. El grupo de clústeres individuales se divide en pequeños clústeres mediante iteraciones continuas. La iteración continúa hasta que se cumple la condición de terminación o hasta que cada grupo contiene un objeto.
Una vez que el grupo se divide o fusiona, nunca se puede deshacer, ya que es un método rígido y no es tan flexible. Los dos enfoques que se pueden utilizar para mejorar la calidad del agrupamiento jerárquico en la minería de datos son: –
- Se deben analizar cuidadosamente los vínculos del objeto en cada partición del agrupamiento jerárquico.
- Se puede utilizar un algoritmo de aglomeración jerárquica para la integración de la aglomeración jerárquica. En este enfoque, primero, los objetos se agrupan en microclusters. Después de agrupar los objetos de datos en microclústeres, se realiza la macroagrupación en el microclúster.
Método basado en la densidad: el método basado en la densidad se centra principalmente en la densidad. En este método, el grupo dado seguirá creciendo continuamente mientras la densidad en la vecindad exceda algún umbral, es decir, para cada punto de datos dentro de un grupo dado. El radio de un grupo determinado debe contener al menos un número mínimo de puntos.
Método basado en cuadrículas: en el método basado en cuadrículas, se forma una cuadrícula usando el objeto en conjunto, es decir, el espacio del objeto se cuantifica en un número finito de celdas que forman una estructura de cuadrícula. Una de las principales ventajas del método basado en cuadrículas es el rápido tiempo de procesamiento y depende únicamente del número de celdas en cada dimensión en el espacio cuantificado. El tiempo de procesamiento de este método es mucho más rápido, por lo que puede ahorrar tiempo.
Método basado en modelos: en el método basado en modelos, se formulan hipótesis sobre todos los grupos para encontrar los datos que mejor se adaptan al modelo. La agrupación de la función de densidad se utiliza para ubicar las agrupaciones para un modelo dado. Refleja la distribución espacial de los puntos de datos y también proporciona una forma de determinar automáticamente la cantidad de clústeres en función de las estadísticas estándar, teniendo en cuenta los valores atípicos o el ruido. Por lo tanto, produce métodos de agrupamiento robustos.
Método basado en restricciones: el método de agrupación en clústeres basado en restricciones se realiza mediante la incorporación de restricciones orientadas a la aplicación o al usuario. Una restricción se refiere a la expectativa del usuario o las propiedades de los resultados de agrupación deseados. Las restricciones nos proporcionan una forma interactiva de comunicación con el proceso de agrupación. El usuario o el requisito de la aplicación pueden especificar restricciones.
Aplicaciones del análisis de conglomerados:
- Es ampliamente utilizado en el procesamiento de imágenes, análisis de datos y reconocimiento de patrones.
- Ayuda a los especialistas en marketing a encontrar los distintos grupos en su base de clientes y pueden caracterizar sus grupos de clientes mediante el uso de patrones de compra.
- Se puede utilizar en el campo de la biología, derivando taxonomías animales y vegetales e identificando genes con las mismas capacidades.
- También ayuda en el descubrimiento de información mediante la clasificación de documentos en la web.
Publicación traducida automáticamente
Artículo escrito por gkolluristudy y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA