Análisis Discriminante Gaussiano

Hay dos tipos de algoritmos de aprendizaje supervisado que se utilizan para la clasificación en el aprendizaje automático.

  1. Algoritmos de aprendizaje discriminativos
  2. Algoritmos de aprendizaje generativo

Los algoritmos de aprendizaje discriminativos incluyen la regresión logística, el algoritmo de perceptrón, etc., que intentan encontrar un límite de decisión entre las diferentes clases durante el proceso de aprendizaje. Por ejemplo, dado un problema de clasificación para predecir si un paciente tiene malaria o no, un algoritmo de aprendizaje discriminatorio intentará crear un límite de clasificación para separar dos tipos de pacientes, y cuando se presente un nuevo ejemplo, se verificará en qué lado del límite. el ejemplo miente para clasificarlo. Dichos algoritmos intentan modelar P(y|X), es decir, dado un conjunto de características X para una muestra de datos, ¿cuál es la probabilidad de que pertenezca a la clase ‘y’?

Por otro lado, los algoritmos de aprendizaje generativo siguen un enfoque diferente, intentan capturar la distribución de cada clase por separado en lugar de encontrar un límite de decisión entre las clases. Teniendo en cuenta el ejemplo anterior, un algoritmo de aprendizaje generativo observará la distribución de pacientes infectados y pacientes sanos por separado e intentará aprender cada una de las características de la distribución por separado, cuando se introduce un nuevo ejemplo, se compara con ambas distribuciones, la clase a la que pertenece. se le asignará el ejemplo de datos que más se asemeje. Dichos algoritmos intentan modelar P(X|y) para un P(y) dado aquí, P(y) se conoce como una clase anterior

Las predicciones para los algoritmos de aprendizaje generativo se realizan utilizando el Teorema de Bayes de la siguiente manera:

P(y|X) = \dfrac{P(X|y).P(y)}{P(X)} \\where, P(X) = P(X|y=1).P(y=1) + P(X|y=0).P(y=0)\\

Usando solo los valores de P(X|y) y P(y) para la clase en particular, podemos calcular P(y|X), es decir, dadas las características de una muestra de datos, ¿cuál es la probabilidad de que pertenezca a la clase ‘y’?

El análisis discriminante gaussiano es un algoritmo de aprendizaje generativo y, para capturar la distribución de cada clase, intenta ajustar una distribución gaussiana a cada clase de datos por separado. Las siguientes imágenes muestran la diferencia entre los algoritmos de aprendizaje discriminativo y generativo. La probabilidad de una predicción en el caso del algoritmo de aprendizaje Generativo será alta si se encuentra cerca del centro del contorno correspondiente a su clase y decrece a medida que nos alejamos del centro del contorno.  

Algoritmo de aprendizaje generativo (GDA)

Algoritmo de aprendizaje discriminativo

Consideremos un problema de clasificación binaria en el que todas las muestras de datos son IID (distribuidas de forma independiente e idéntica), por lo tanto, para calcular P(X|y) podemos usar la distribución gaussiana multivariante para formar una función de densidad de probabilidad para cada clase individual. Y para calcular P(y) o la clase anterior para cada clase, podemos usar la distribución de Bernoulli , ya que todas las muestras de datos en la clasificación binaria pueden tomar el valor 1 o 0.

Por lo tanto, la distribución de probabilidad y la clase antes de una muestra de datos se pueden definir utilizando la forma general de distribución de Gauss y Bernoulli, respectivamente: 

P(x|y=0) = \dfrac{1}{(2\pi)^{n/2}*|\Sigma|^{1/2}} exp({-1/2(x-\mu_0)^{T}\Sigma^{-1}(x-\mu_0))}\hspace{1mm}-\hspace{1mm}\textbf{Eq\hspace{1mm}1} \\ P(x|y=1) = \dfrac{1}{(2\pi)^{n/2}*|\Sigma|^{1/2}} exp({-1/2(x-\mu_1)^{T}\Sigma^{-1}(x-\mu_1))}\hspace{1mm} -\hspace{1mm} \textbf{Eq\hspace{1mm}2} \\ P(y)  =  \phi^y . (1-\phi)^{1-y}\hspace{1mm}-\hspace{1mm}\textbf{Eq\hspace{1mm}\hspace{1mm}3}\\        [Tex]\\\\ In\hspace{1mm}the\hspace{1mm}above\hspace{1mm}equations:\\ \mu_0\hspace{1mm}is\hspace{1mm}the\hspace{1mm}mean\hspace{1mm} of\hspace{1mm} data\hspace{1mm} samples\hspace{1mm} corresponding\hspace{1mm} to\hspace{1mm} class\hspace{1mm}0\hspace{1mm}of\hspace{1mm}dimensions\hspace{1mm}\R^{n*1}\\\mu_1\hspace{1mm}is\hspace{1mm}the\hspace{1mm}mean\hspace{1mm} of\hspace{1mm} data\hspace{1mm} samples\hspace{1mm} corresponding\hspace{1mm} to\hspace{1mm} class\hspace{1mm} 1\hspace{1mm}of\hspace{1mm}dimensions\hspace{1mm}\R^{n*1}\\ \newline\Sigma\hspace{1mm}is \hspace{1mm}the \hspace{1mm}co-variance \hspace{1mm}matrix\hspace{1mm}of\hspace{1mm}dimensions\hspace{1mm}\R^{n*n}. \newline\hspace{1mm}\phi\hspace{1mm}is\hspace{1mm}the\hspace{1mm}probability\hspace{1mm}that\hspace{1mm}a\hspace{1mm}data\hspace{1mm}sample\hspace{1mm}belongs\hspace{1mm}to\hspace{1mm}class\hspace{1mm}y        \newline  [/Tex]

Para ver las distribuciones de probabilidad como una función de los parámetros mencionados anteriormente, podemos definir una función de probabilidad que es igual al producto de la distribución de probabilidad y la clase antes de cada muestra de datos (Tomar el producto de las probabilidades es razonable ya que todas las muestras de datos se consideran IID).

\newline L(\phi, \mu_0,\mu_1,\Sigma) = \Pi_{i=1}^{m}P(x^{(i)},y^{(i)};\phi,\mu_0,\mu_1,\Sigma)\\ \hspace{2.3cm}=\Pi_{i=0}^{m}P(x^{(i)}|y^{(i)}).P(y^{(i)}) \hspace{1mm} - \textbf{Eq \hspace{1mm} 4}
 

De acuerdo con el principio de estimación de Máxima Verosimilitud, tenemos que elegir el valor de los parámetros de forma que maximice la función de probabilidad dada en la ecuación 4 . Para hacerlo, en lugar de maximizar la función de verosimilitud, podemos maximizar la función de verosimilitud logarítmica , que es una función estrictamente creciente.

Therefore,\hspace{1mm} Log-Likelihood \hspace{1mm}function = log(L(\phi,\mu_0,\mu_1,\Sigma)) \newline On \hspace{1mm}maximizing \hspace{1mm}Log-Likelihood \hspace{1mm}following \hspace{1mm}parameters \hspace{1mm}are \hspace{1mm}obtained

\newline\phi = \dfrac{1}{m}\Sigma_{i=1}^{m}1\{y^{(i)} = 1\}\\ \mu_0 = \dfrac{\Sigma_{i=1}^{m}\mathbb{1}\{y^{(i)} = 0\}.x^{(i)}}{\Sigma_{i=1}^{m}\mathbb{1}\{y^{(i)} = 0\}}\\ \mu_1 = \dfrac{\Sigma_{i=1}^{m}\mathbb{1}\{y^{(i)} = 1\}.x^{(i)}}{\Sigma_{i=1}^{m}\mathbb{1}\{y^{(i)} = 1\}}\\ \Sigma = \dfrac{1}{m}\Sigma_{i=1}^{m}(x^{(i)} - \mu_{y^{(i)}}).(x^{(i)} - \mu_{y^{(i)}})^{T}\\

En las ecuaciones anteriores, la función “1{condición}” es la función indicadora que devuelve 1 si la condición es verdadera; de lo contrario, devuelve 0. Por ejemplo, 1{y=1} devolverá 1 solo cuando la clase de esa muestra de datos sea 1 else devuelve 0 de manera similar, en el caso de 1{y=0} devolverá 1 solo cuando la clase de esa muestra de datos sea 0; de lo contrario, devolverá 0. 

Los valores de los parámetros obtenidos se pueden sustituir en las ecuaciones 1, 2 y 3 para encontrar la distribución de probabilidad y la clase antes de todas las muestras de datos. Estos valores obtenidos se pueden multiplicar aún más para encontrar la función de probabilidad dada en Eq 4 . Como se mencionó anteriormente, la función de verosimilitud, es decir, P(X|y). P(y) se puede conectar a la fórmula de Bayes para predecir P(y|X) (es decir, predecir la clase ‘ y ‘ de una muestra de datos para las características dadas ‘ X ‘). 

NOTA: Las muestras de datos en este modelo se consideran IID, que es una suposición hecha sobre el modelo, el análisis discriminante gaussiano tendrá un rendimiento deficiente si los datos no son una distribución gaussiana, por lo tanto, siempre se sugiere visualizar los datos para verificar si tiene una distribución normal y, si no, se puede intentar hacerlo utilizando métodos como transformación logarítmica, etc. (No confunda el análisis discriminante gaussiano con el modelo de mezcla gaussiana, que es un algoritmo de aprendizaje no supervisado).

Por lo tanto, el análisis discriminante gaussiano funciona bastante bien para una pequeña cantidad de datos (digamos unos pocos miles de ejemplos) y puede ser más sólido en comparación con la regresión logística si nuestras suposiciones subyacentes sobre la distribución de los datos son verdaderas. 

Referencia:

Publicación traducida automáticamente

Artículo escrito por amanbhutani263 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *