el cuarteto de anscombe

De acuerdo con la definición dada en Wikipedia, el cuarteto de Anscombe comprende cuatro conjuntos de datos que tienen propiedades estadísticas simples casi idénticas, pero que parecen muy diferentes cuando se grafican. Cada conjunto de datos consta de once (x,y) puntos. Fueron construidos en 1973 por el estadístico Francis Anscombe para demostrar tanto la importancia de graficar los datos antes de analizarlos como el efecto de los valores atípicos en las propiedades estadísticas.

Comprensión simple:
una vez que Francis John «Frank» Anscombe, un estadístico de gran reputación, encontró 4 conjuntos de 11 puntos de datos en su sueño y solicitó al consejo como su último deseo trazar esos puntos. Esos 4 conjuntos de 11 puntos de datos se dan a continuación.

Después de eso, el consejo los analizó usando solo estadísticas descriptivas y encontró la media, la desviación estándar y la correlación entre x e y.

Descargue el archivo csv aquí.

Código: programa de Python para encontrar la media, la desviación estándar y la correlación entre x e y

# Import the required libraries
import pandas as pd
import statistics
from scipy.stats import pearsonr
  
# Import the csv file
df = pd.read_csv("anscombe.csv")
  
# Convert pandas dataframe into pandas series
list1 = df['x1']
list2 = df['y1']
  
# Calculating mean for x1
print('%.1f' % statistics.mean(list1))
  
# Calculating standard deviation for x1
print('%.2f' % statistics.stdev(list1))
  
# Calculating mean for y1
print('%.1f' % statistics.mean(list2))
  
# Calculating standard deviation for y1
print('%.2f' % statistics.stdev(list2))
  
# Calculating pearson correlation
corr, _ = pearsonr(list1, list2)
print('%.3f' % corr)
  
# Similarly calculate for the other 3 samples
  
# This code is contributed by Amiya Rout

Producción:

9.0
3.32
7.5
2.03
0.816

Así que déjame mostrarte el resultado en forma tabular para una mejor comprensión.

Código: programa de Python para trazar un diagrama de dispersión

# Import the required libraries
from matplotlib import pyplot as plt
import pandas as pd
  
# Import the csv file
df = pd.read_csv("anscombe.csv")
  
# Convert pandas dataframe into pandas series
list1 = df['x1']
list2 = df['y1']
  
# Function to plot scatter
plt.scatter(list1, list2)
  
# Function to show the plot
plt.show()
  
# Similarly plot scatter plot for other 3 data sets
  
# This code is contributed by Amiya Rout

Para la línea de regresión, consulte esto.
Salida:

Nota: Se menciona en la definición que el cuarteto de Anscombe comprende cuatro conjuntos de datos que tienen propiedades estadísticas simples casi idénticas, pero que parecen muy diferentes cuando se grafican.

Explicación de esta salida:

  • En el primero (arriba a la izquierda), si observa el diagrama de dispersión, verá que parece haber una relación lineal entre x e y.
  • En el segundo (arriba a la derecha), si observa esta figura, puede concluir que existe una relación no lineal entre x e y.
  • En el tercero (abajo a la izquierda) puede decir cuándo hay una relación lineal perfecta para todos los puntos de datos excepto uno que parece ser un valor atípico que se indica que está lejos de esa línea.
  • Finalmente, el cuarto (abajo a la derecha) muestra un ejemplo cuando un punto de apalancamiento alto es suficiente para producir un coeficiente de correlación alto.

Aplicación:
el cuarteto todavía se usa a menudo para ilustrar la importancia de mirar un conjunto de datos gráficamente antes de comenzar a analizar de acuerdo con un tipo particular de relación y la insuficiencia de las propiedades estadísticas básicas para describir conjuntos de datos realistas.

Publicación traducida automáticamente

Artículo escrito por AmiyaRanjanRout y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *