Cómo realizar pruebas de normalidad multivariadas en Python

En este artículo, veremos los diversos enfoques para realizar pruebas de normalidad multivariante en Python.

La prueba de normalidad multivariada es una prueba de normalidad, determina si el grupo dado de variables proviene de la distribución normal o no. La prueba de normalidad multivariante determina si un grupo de variables sigue o no una distribución normal multivariante.

función multivariante_normalidad()

En este enfoque, el usuario debe llamar a la función multivariate_normality() con los parámetros necesarios de la biblioteca pingouin para realizar la prueba de normalidad multivariante en los datos proporcionados en Python.

Sintaxis para instalar la biblioteca pingouin:

pip install pingouin

Sintaxis: multivariante_normalidad (x, alfa)

Parámetros:

  • X: Array de datos de forma (n_muestras, n_características).
  • alfa: Nivel de significancia.

Devoluciones

  • hz:he Estadístico de prueba de Henze-Zirkler.
  • pval: valor P.
  • normal: Verdadero si X proviene de una distribución normal multivariante.

Esta es una prueba de hipótesis y las dos hipótesis son las siguientes:

  • H0 (aceptada): Las variables siguen una distribución normal multivariante..(Po>0.05)
  • Ha (rechazado): Las variables no siguen una distribución normal multivariada.

Ejemplo 1: prueba de normalidad multivariante en la distribución normal multivariante en Python

En este ejemplo, simplemente usaremos la función multivariate_normality() de la biblioteca pingouin para realizar una prueba de normalidad multivariante en los datos generados aleatoriamente con 100 puntos de datos con 5 variables en python.

Python3

from pingouin import multivariate_normality
import pandas as pd
import numpy as np
data = pd.DataFrame({'a': np.random.normal(size=100),
                         'b': np.random.normal(size=100),
                         'c': np.random.normal(size=100),
                         'd': np.random.normal(size=100),
                         'e': np.random.normal(size=100)})
  
# perform the Multivariate Normality Test
multivariate_normality(data, alpha=.05)

Producción:

HZResults(hz=0.7973450591569415, pval=0.8452549483161891, normal=Verdadero)

Interpretación de salida:

Dado que en el ejemplo anterior, el valor p es 0,84, que es mayor que el umbral (0,5), que es el alfa (0,5), no podemos rechazar la hipótesis nula, es decir, no tenemos evidencia para decir que la muestra sigue una normalidad multivariada. distribución.

Ejemplo 2: prueba de normalidad multivariante en una distribución normal no multivariante en Python

En este ejemplo, simplemente usaremos la función multivariate_normality() de la biblioteca pingouin para realizar una prueba de normalidad multivariante en la distribución de pasión de datos generada aleatoriamente con 100 puntos de datos con 5 variables en python.

Python3

from pingouin import multivariate_normality
import pandas as pd
import numpy as np
data = pd.DataFrame({'a':np.random.poisson(size=100),
                   'b': np.random.poisson(size=100),
                   'c': np.random.poisson(size=100),
                   'd': np.random.poisson(size=100),
                   'e':np.random.poisson(size=100)})
  
# perform the Multivariate Normality Test
multivariate_normality(data, alpha=.05)

HZResults(hz=7.4701896678920745, pval=0.00355552234721754, normal=Falso)

Interpretación de salida:

Dado que en el ejemplo anterior, el valor p es 0,003, que es menor que el alfa (0,5), rechazamos la hipótesis nula, es decir, tenemos suficiente evidencia para decir que la muestra no proviene de una distribución normal multivariante.

Publicación traducida automáticamente

Artículo escrito por geetansh044 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *