Heterocedasticidad en análisis de regresión

Requisito previo: regresión lineal

En Regresión lineal simple o Regresión lineal múltiple hacemos algunas suposiciones básicas sobre el término de error \epsilon.

Regresión lineal simple:

 \begin{equation*} Y_i = \beta_0 + \beta_1 X_i + \epsilon_i \end{equation*}

Regresión lineal múltiple:

 \begin{equation*} Y_i = \beta_0 + \beta_1 X_i_1 + \beta_2 X_i_2 + .... + \beta_n X_i_n + \epsilon_i \end{equation*}

Suposiciones:

1. Error has zero mean
2. Error has constant variance
3. Errors are uncorrelated
4. Errors are normally distributed

El segundo supuesto se conoce como Homoscedasticidad y por tanto, la violación de este supuesto se conoce como Heteroscedasticidad .

Homocedasticidad vs heterocedasticidad:

Por lo tanto, en términos simples, podemos definir la heteroscedasticidad como la condición en la que varía la varianza del término de error o el término residual en un modelo de regresión. Como puede ver en el diagrama anterior, en caso de homocedasticidad, los puntos de datos están igualmente dispersos, mientras que en caso de heterocedasticidad, los puntos de datos no están igualmente dispersos.

Posibles razones de que surja la Heterocedasticidad:

  1. A menudo ocurre en aquellos conjuntos de datos que tienen un amplio rango entre los valores observados más grandes y más pequeños, es decir, cuando hay valores atípicos.
  2. Cuando el modelo no está correctamente especificado.
  3. Si se mezclan observaciones con diferentes medidas de escala.
  4. Cuando se utiliza una transformación incorrecta de los datos para realizar la regresión.
  5. Sesgo en la distribución de un regresor, y puede haber otras fuentes.

Efectos de la heterocedasticidad:

  • Como se mencionó anteriormente, uno de los supuestos (supuesto número 2) de la regresión lineal es que no hay heterocedasticidad. Romper esta suposición significa que los estimadores MCO (Mínimos Cuadrados Ordinarios) no son el Mejor Estimador Lineal Insesgado (AZUL) y su varianza no es la más baja de todos los demás estimadores insesgados.
  • Los estimadores ya no son mejores/eficientes.
  • Las pruebas de hipótesis (como t-test, F-test) ya no son válidas debido a la inconsistencia en la array de covarianza de los coeficientes de regresión estimados.

Identificación de heteroscedasticidad con gráficos de residuos:
como se muestra en la figura anterior, la heteroscedasticidad produce una forma de embudo de apertura hacia afuera o de embudo de cierre hacia afuera en los gráficos de residuos.

Identificación de heteroscedasticidad a través de pruebas estadísticas:
la presencia de heteroscedasticidad también se puede cuantificar utilizando el enfoque algorítmico. Existen algunas pruebas o métodos estadísticos a través de los cuales se puede establecer la presencia o ausencia de heterocedasticidad.

  1. La prueba de Breush – Pegan: prueba si la varianza de los errores de regresión depende de los valores de las variables independientes. En ese caso, la heteroscedasticidad está presente.
  2. Prueba de White: La prueba de White establece si la varianza de los errores en un modelo de regresión es constante. Para probar la varianza constante, se lleva a cabo un análisis de regresión auxiliar: este hace retroceder los residuos cuadrados del modelo de regresión original a un conjunto de regresores que contienen los regresores originales junto con sus cuadrados y productos cruzados.

Correcciones por heterocedasticidad:

  1. Podemos utilizar diferentes especificaciones para el modelo.
  2. El método de mínimos cuadrados ponderados es uno de los métodos estadísticos comunes. Esta es la generalización de la regresión lineal y de mínimos cuadrados ordinarios en la que se permite que la array de covarianza de errores sea diferente de una array de identidad.
  3. Uso MINQUE: La teoría de la Estimación Insesgada Cuadrática Norma Mínima (MINQUE) involucra tres etapas. Primero, definir una clase general de estimadores potenciales como funciones cuadráticas de los datos observados, donde los estimadores se relacionan con un vector de parámetros del modelo. En segundo lugar, especificar ciertas restricciones sobre las propiedades deseadas de los estimadores, como la falta de sesgo y, en tercer lugar, elegir el estimador óptimo minimizando una «norma» que mide el tamaño de la array de covarianza de los estimadores.

Referencia: https://en.wikipedia.org/wiki/Heteroscedasticity

Publicación traducida automáticamente

Artículo escrito por mkumarchaudhary06 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *