Un 4-plot es una colección de 4 herramientas gráficas de análisis exploratorio de datos (EDA) diferentes, cuyo motivo principal es probar las suposiciones que subyacen en la mayoría de los procesos de medición.
La parcela de 4 consta de lo siguiente:
- Gráfico de ejecución: un gráfico de secuencia de ejecución se utiliza para probar la ubicación fija y las variaciones. Tiene los siguientes ejes:
- Eje vertical : Y i
- Eje horizontal : yo
- Lag Plot: Lag plot es un tipo de diagrama de dispersión en el que una variable está rezagada de la otra. Aquí, lag significa el valor de la variable después de una cantidad de tiempo fija. Se puede usar una gráfica logarítmica para probar la aleatoriedad del proceso y puede brindar información importante sobre la distribución del proceso.
- Eje vertical : Y i
- Eje horizontal : Y i-k
- Histograma: El histograma es la gráfica de los valores de los datos frente a su frecuencia en el conjunto de datos. El histograma se utiliza para conocer la distribución del proceso, es decir, si es uniforme, normal, etc.
- Eje vertical : conteos/frecuencia/probabilidad.
- Eje horizontal : Y
- Probabilidad normal: el gráfico de probabilidad normal se utiliza para saber qué tan cerca está la distribución del proceso de la distribución normal.
- Eje vertical : Ordenado Y i
- Eje horizontal : Los valores teóricos de la distribución normal N(0,1).
4-plot puede responder a las siguientes preguntas:
- ¿El proceso está bajo control, es estable y predecible?
- ¿Se está desviando el proceso con respecto a la ubicación?
- ¿Está el proceso a la deriva con respecto a la variación?
- ¿Los datos son aleatorios?
- ¿La observación está relacionada con una observación adyacente?
- Si la distribución no es aleatoria, ¿cuál es la distribución?
- ¿Es la media muestral un buen estimador para el proceso? Si no, ¿cuál es un buen estimador?
Algunas suposiciones que se pueden verificar con 4-plot son:
- Generación aleatoria.
- Distribución Fija.
- La distribución que tiene una ubicación fija
- La distribución que tiene una variación fija con el tiempo.
Hay algunas suposiciones subyacentes que siguen la necesidad de 4 parcelas:
- Si se mantiene la suposición de ubicación fija, entonces el gráfico de secuencia de ejecución será plano y sin deriva.
- Si se mantiene la suposición de variación fija, la dispersión vertical en el gráfico de secuencia de ejecución será aproximadamente la misma en todo el eje horizontal.
- Si se cumplen los supuestos de aleatoriedad, el gráfico de retardo no formará ningún tipo de estructura.
- Si se cumple el supuesto de distribución normal, el histograma será un gráfico de campana.
Si todas las suposiciones anteriores se cumplen, entonces el proceso está bajo control.
Implementación:
- En esta implementación, también usaremos la biblioteca statsmodels , así como algunos paquetes comunes de ciencia de datos (Numpy, Pandas y Seaborn). Todas estas bibliotecas están preinstaladas en Colab y se pueden instalar en el entorno local con pip install .
- Para este código, usaremos un conjunto de datos de medidor de flujo de calor. El conjunto de datos se puede descargar desde aquí .
Python3
# code import pandas as pd import matplotlib.pyplot as plt import seaborn as sns import statsmodels.api as sm %matplotlib inline heat_flow = pd.read_csv('heat_flow.txt', header = None) heat_flow.head() sns.set_style('darkgrid') # plot different components of 4 plot fig, ax = plt.subplots(2,2) sns.lineplot(x = pd.Series(heat_flow.index),y = heat_flow[0],ax = ax[0,0]) ax[0,0].set_title('Run Sequence Plot') pd.plotting.lag_plot(heat_flow[0],ax = ax[0,1]) ax[0,1].set_title('Lag Plot with k=1') sns.histplot(heat_flow[0],kde = True,ax = ax[1,0]) ax[1,0].set_title('Histogram') sm.ProbPlot(heat_flow[0]).qqplot(line ='s', ax = ax[1,1],color = 'blue'); ax[1,1].set_title('Normal Probability Plot') plt.show()
0 0 9.206343 1 9.299992 2 9.277895 3 9.305795 4 9.275351
- Podemos inferir de la gráfica de 4 anterior que:
- Aquí, el gráfico de la secuencia de ejecución es bastante plano y no se desvía. Por lo tanto, se mantiene la suposición de ubicación fija.
- El gráfico de secuencia de ejecución también tiene una dispersión vertical bastante similar. Por lo tanto, se mantiene el supuesto de variación fija.
- Aquí, el gráfico de retardo no genera ningún patrón no aleatorio. Por lo tanto, podemos suponer que la distribución es aleatoria.
- Aquí, el histograma genera una distribución de curva de campana bastante simétrica. Por lo tanto, el proceso se distribuye normalmente.
- De hecho, el punto anterior se puede confirmar con la gráfica de probabilidad normal que genera una dispersión bastante similar a la distribución normal.