En la ciencia de datos, una de las principales preocupaciones es la complejidad del tiempo, que depende en gran medida de la cantidad de características. Sin embargo, en los años iniciales, la cantidad de características no era una preocupación. Pero hoy en día la cantidad de datos y las características que les aportan información han aumentado exponencialmente. Por lo tanto, se hace necesario encontrar medidas convenientes para reducir el número de funciones. Las cosas que se pueden visualizar se pueden tomar cómodamente una decisión. El mapeo de características es uno de esos procesos de representación de características junto con la relevancia de estas características en un gráfico. Esto asegura que las características se visualicen y su información correspondiente esté disponible visualmente. De esta manera, se excluyen las características irrelevantes y solo se incluyen las relevantes.
Este artículo se centra principalmente en cómo se pueden representar gráficamente las características.
Un grafo G = {V, E, W} es una estructura formada por un conjunto de puntos o vértices V, un conjunto de pares de puntos o aristas E, estando representado cada par {u, v} por una recta y un peso W adjunto a cada borde E. Cada característica en un conjunto de datos se considera un Node de un gráfico no dirigido. Algunas de estas características son irrelevantes y deben procesarse para detectar su relevancia en el aprendizaje, ya sea supervisado o no supervisado. Varios métodos y valores de umbral determinan el conjunto de características óptimo. En el contexto de la selección de funciones, un vértice puede representar una función, un borde puede representar la relación entre dos funciones y un peso asociado a un borde puede representar la fuerza de la relación entre dos funciones. La relación entre dos características es un área abierta a diversos enfoques.
El coeficiente de correlación de Pearson determina la correlación entre dos características y, por lo tanto, qué tan relacionadas están. Si dos características aportan la misma información entonces una de ellas se considera potencialmente redundante, esto se debe a que la clasificación finalmente daría el mismo resultado se incluyan o no ambas o se incluya cualquiera de ellas.
La array de correlación de las características determina la asociación entre varias características. Si dos características tienen un valor absoluto de correlación superior a 0,67, los vértices que representan esas características se vuelven adyacentes agregando un borde y dándoles un peso igual al valor de correlación. Las características que tienen asociación son las que son potencialmente redundantes porque aportan la misma información. Para eliminar las características redundantes de estas características asociadas, usamos el algoritmo de cobertura de vérticespara obtener la cobertura mínima de vértices. La cobertura mínima de vértices nos brinda el conjunto mínimo de características óptimas que son suficientes para aportar la información completa que antes aportaban todas estas características asociadas. De esta forma, podemos reducir el número de funciones sin comprometer el contenido de información de las funciones.
Por lo tanto, el conjunto óptimo de características es relevante sin redundancia y puede aportar información al conjunto de datos original. Reducir el número de características no solo disminuye la complejidad del tiempo, sino que también mejora la precisión de la clasificación o agrupación. Esto se debe a que muchas veces algunas características en el conjunto de datos son completamente redundantes y desvían la predicción.
Publicación traducida automáticamente
Artículo escrito por sagarika3kundu y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA