Explorando la correlación en Python

Este artículo pretende dar una mejor comprensión de una técnica muy importante de exploración multivariada.

La array de correlación es básicamente una array de covarianza. También conocida como array de autocovarianza, array de dispersión, array de varianza o array de varianza-covarianza. Es una array en la que la posición ij define la correlación entre el i -ésimo y el j -ésimo parámetro del conjunto de datos dado.

Cuando los puntos de datos siguen una tendencia aproximadamente lineal, se dice que las variables tienen una relación aproximadamente lineal. En algunos casos, los puntos de datos caen cerca de una línea recta, pero más a menudo hay bastante variabilidad de los puntos alrededor de la tendencia de línea recta. Una medida de resumen llamada correlación describe la fuerza de la asociación lineal. La correlación resume la fuerza y ​​la dirección de la asociación lineal (línea recta) entre dos variables cuantitativas. Denotado por r , toma valores entre -1 y +1. Un valor positivo de r indica una asociación positiva y un valor negativo de r indica una asociación negativa.
Cuanto más se acerca r a 1cuanto más se acercan los puntos de datos a una línea recta, por lo tanto, la asociación lineal es más fuerte. Cuanto más cerca esté r de 0, más débil será la asociación lineal.

Para obtener el enlace a House_price Data, haga clic aquí .

Cargando bibliotecas

import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from scipy.stats import norm

Cargando datos

data = pd.read_csv("House Price.csv")
data.shape

Producción:

(1460, 81)

Descripción de ‘Precio de venta’

data['SalePrice'].describe()

Producción:

count      1460.000000
mean     180921.195890
std       79442.502883
min       34900.000000
25%      129975.000000
50%      163000.000000
75%      214000.000000
max      755000.000000
Name: SalePrice, dtype: float64

Histograma

plt.figure(figsize = (9, 5))
data['SalePrice'].plot(kind ="hist")

Producción:

Código #1: Array de Correlación

corrmat = data.corr()
  
f, ax = plt.subplots(figsize =(9, 8))
sns.heatmap(corrmat, ax = ax, cmap ="YlGnBu", linewidths = 0.1)

Producción:

Código #2: Array de correlación de cuadrícula

corrmat = data.corr()
  
cg = sns.clustermap(corrmat, cmap ="YlGnBu", linewidths = 0.1);
plt.setp(cg.ax_heatmap.yaxis.get_majorticklabels(), rotation = 0)
  
cg

Producción:

Código #3: Correlación para Saleprice

# saleprice correlation matrix
# k : number of variables for heatmap
k = 15 
  
cols = corrmat.nlargest(k, 'SalePrice')['SalePrice'].index
  
cm = np.corrcoef(data[cols].values.T)
f, ax = plt.subplots(figsize =(12, 10))
  
sns.heatmap(cm, ax = ax, cmap ="YlGnBu",
            linewidths = 0.1, yticklabels = cols.values, 
                              xticklabels = cols.values)

Producción:

Publicación traducida automáticamente

Artículo escrito por Mohit Gupta_OMG 🙂 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *