Parámetros para la selección de características

Requisito previo: Introducción a la Reducción de Dimensionalidad

La reducción de dimensionalidad es el proceso de reducir el número de variables aleatorias bajo consideración, mediante la obtención de un conjunto de variables principales. Se puede dividir en selección de características y extracción de características .

La reducción de la dimensionalidad es un factor importante en el modelado predictivo. Varios métodos propuestos han introducido diferentes enfoques para hacerlo ya sea gráficamente o mediante varios otros métodos como filtrado, envoltura o incrustación. Sin embargo, la mayoría de estos enfoques se basan en algunos valores de umbral y algoritmos de referencia que determinan la optimización de las características en el conjunto de datos.

Una motivación para la reducción de la dimensionalidad es que los conjuntos de datos de mayor dimensión aumentan la complejidad del tiempo y también el espacio requerido será mayor. Además, es posible que todas las características del conjunto de datos no sean útiles. Algunas pueden no aportar información alguna, mientras que otras pueden aportar información similar a las otras funciones. Seleccionar el conjunto óptimo de características nos ayudará a reducir la complejidad del espacio y el tiempo, así como a aumentar la precisión o la pureza de la clasificación (o regresión) y la agrupación (o asociación) para el aprendizaje supervisado y no supervisado, respectivamente.

La selección de funciones tiene cuatro enfoques diferentes, como el enfoque de filtro, el enfoque envolvente, el enfoque integrado y el enfoque híbrido.

Enfoque de envoltura:

Este enfoque tiene una alta complejidad computacional. Utiliza un algoritmo de aprendizaje para evaluar la precisión producida por el uso de las características seleccionadas en la clasificación. Los métodos de envoltura pueden brindar una alta precisión de clasificación para clasificadores particulares.

Enfoque de filtro: este enfoque selecciona un subconjunto de características sin usar ningún algoritmo de aprendizaje. Los conjuntos de datos de mayor dimensión utilizan este método y es relativamente más rápido que los enfoques basados en contenedores.
Enfoque integrado: los algoritmos de aprendizaje aplicados determinan la especificidad de este enfoque y selecciona las características durante el proceso de entrenamiento del conjunto de datos.
Enfoque híbrido: en el enfoque híbrido se utilizan métodos basados en filtros y envoltorios. Este enfoque primero selecciona el posible conjunto de características óptimas que se prueba más a fondo mediante el enfoque de envoltura. Por lo tanto, utiliza las ventajas del enfoque basado en filtros y envoltorios.

Parámetros para la selección de funciones:

Los parámetros se clasifican en función de dos factores:

La similitud de la información aportada por las características :

1. CORRELACIÓN
Las características se clasifican como asociadas o similares en su mayoría en función de su factor de correlación. En el conjunto de datos, tenemos muchas características que están correlacionadas. Ahora, el problema de tener características correlacionadas es que, si f1 y f2 son dos características correlacionadas de un conjunto de datos, entonces el modelo de clasificación o regresión que incluye tanto f1 como f2 dará lo mismo que el modelo predictivo en comparación con el escenario donde f1 o f2 se incluyó en el conjunto de datos. Esto se debe a que tanto f1 como f2 están correlacionados y, por lo tanto, aportan la misma información sobre el modelo en el conjunto de datos. Existen varios métodos para calcular el factor de correlación, sin embargo, el coeficiente de correlación de Pearson es el más utilizado. La fórmula para el coeficiente de correlación de Pearson ( ${\ estilo de visualización \ rho$ ) es:

$\rho _{X, Y}={\frac {\operatorname {cov} (X, Y)}{\sigma _{X}\sigma _{Y}\newline}}$

where 
cov(X, Y) - covariance
sigma(X) - standard deviation of X
sigma(Y) - standard deviation of Y

Por lo tanto, las características correlacionadas son irrelevantes, ya que todas aportan información similar. Solo un representante de todas las características correlacionadas o asociadas daría el mismo resultado de clasificación o regresión. Por lo tanto, estas características son redundantes y se excluyen con fines de reducción de la dimensionalidad después de seleccionar un representante particular de cada grupo de características asociado o correlacionado utilizando varios algoritmos.

Cantidad de información aportada por las funciones:

1. ENTROPÍA
La entropía es la medida del contenido medio de información. Cuanto mayor sea la entropía, mayor será la contribución de información de esa característica. La entropía (H) se puede formular como:

$\mathrm {H} (X)=\mathrm {E} [\mathrm {I} (X)]=\mathrm {E} [-\ln(\mathrm {P} (X))]\newline$

where
X - discrete random variable X
P(X) - probability mass function
E - expected value operator, 
I - information content of X.
I(X) - a random variable.

En Data Science, la entropía de una función f1 se calcula excluyendo la función f1 y luego calculando la entropía del resto de las funciones. Ahora, cuanto menor sea el valor de la entropía (excluyendo f1), mayor será el contenido de información de f1. De esta manera se calcula la entropía de todas las características. Al final, ya sea un valor de umbral o una verificación de relevancia adicional determina la optimización de las características sobre la base de qué características se seleccionan. La entropía se usa principalmente para el aprendizaje no supervisado, ya que tenemos un campo de clase en el conjunto de datos y, por lo tanto, la entropía de las características puede brindar información sustancial.

2. INFORMACIÓN MUTUA
En la teoría de la información, la información mutua I(X;Y) es la cantidad de incertidumbre en X debido al conocimiento de Y. Matemáticamente, la información mutua se define como

$I(X;Y)=\sum _{y\in Y}\sum _{x\in X}p(x, y)\log {\left({\frac {p(x, y)}{p(x)\, p(y)}}\right)\newline}$

where 
p(x, y) - joint probability function of X and Y,
p(x) - marginal probability distribution function of X
p(y) - marginal probability distribution function of Y

La información mutua en la ciencia de datos se calcula principalmente para conocer la cantidad de información compartida sobre la clase por una característica. Por lo tanto, se utiliza principalmente para la reducción de la dimensionalidad en el aprendizaje supervisado . Las características que tienen un alto valor de información mutua correspondiente a la clase en un aprendizaje supervisado se consideran óptimas ya que pueden influir en el modelo predictivo hacia la predicción correcta y, por lo tanto, aumentar la precisión del modelo.

Referencia: http://www.cs.uccs.edu/~jkalita/papers/2014/HoqueExpertSystems2014.pdf

Publicación traducida automáticamente

Artículo escrito por sagarika3kundu y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Parámetros para la selección de funciones:

Deja una respuesta Cancelar la respuesta