Este artículo pretende dar una mejor comprensión de una técnica muy importante de exploración multivariada.
La array de correlación es básicamente una array de covarianza. También conocida como array de autocovarianza, array de dispersión, array de varianza o array de varianza-covarianza. Es una array en la que la posición ij define la correlación entre el i -ésimo y el j -ésimo parámetro del conjunto de datos dado.
Cuando los puntos de datos siguen una tendencia aproximadamente lineal, se dice que las variables tienen una relación aproximadamente lineal. En algunos casos, los puntos de datos caen cerca de una línea recta, pero más a menudo hay bastante variabilidad de los puntos alrededor de la tendencia de línea recta. Una medida de resumen llamada correlación describe la fuerza de la asociación lineal. La correlación resume la fuerza y la dirección de la asociación lineal (línea recta) entre dos variables cuantitativas. Denotado por r , toma valores entre -1 y +1. Un valor positivo de r indica una asociación positiva y un valor negativo de r indica una asociación negativa.
Cuanto más se acerca r a 1cuanto más se acercan los puntos de datos a una línea recta, por lo tanto, la asociación lineal es más fuerte. Cuanto más cerca esté r de 0, más débil será la asociación lineal.
Para obtener el enlace a House_price Data, haga clic aquí .
Cargando bibliotecas
import numpy as np import pandas as pd import seaborn as sns import matplotlib.pyplot as plt from scipy.stats import norm
Cargando datos
data = pd.read_csv("House Price.csv") data.shape
Producción:
(1460, 81)
Descripción de ‘Precio de venta’
data['SalePrice'].describe()
Producción:
count 1460.000000 mean 180921.195890 std 79442.502883 min 34900.000000 25% 129975.000000 50% 163000.000000 75% 214000.000000 max 755000.000000 Name: SalePrice, dtype: float64
Histograma
plt.figure(figsize = (9, 5)) data['SalePrice'].plot(kind ="hist")
Producción:
Código #1: Array de Correlación
corrmat = data.corr() f, ax = plt.subplots(figsize =(9, 8)) sns.heatmap(corrmat, ax = ax, cmap ="YlGnBu", linewidths = 0.1)
Producción:
Código #2: Array de correlación de cuadrícula
corrmat = data.corr() cg = sns.clustermap(corrmat, cmap ="YlGnBu", linewidths = 0.1); plt.setp(cg.ax_heatmap.yaxis.get_majorticklabels(), rotation = 0) cg
Producción:
Código #3: Correlación para Saleprice
# saleprice correlation matrix # k : number of variables for heatmap k = 15 cols = corrmat.nlargest(k, 'SalePrice')['SalePrice'].index cm = np.corrcoef(data[cols].values.T) f, ax = plt.subplots(figsize =(12, 10)) sns.heatmap(cm, ax = ax, cmap ="YlGnBu", linewidths = 0.1, yticklabels = cols.values, xticklabels = cols.values)
Producción:
Publicación traducida automáticamente
Artículo escrito por Mohit Gupta_OMG 🙂 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA