El análisis de componentes principales (PCA) es un procedimiento estadístico que utiliza una transformación ortogonal que convierte un conjunto de variables correlacionadas en un conjunto de variables no correlacionadas. PCA es la herramienta más utilizada en el análisis exploratorio de datos y en el aprendizaje automático para modelos predictivos. Además, PCA es una técnica estadística no supervisada utilizada para examinar las interrelaciones entre un conjunto de variables. También se conoce como análisis factorial general donde la regresión determina una línea de mejor ajuste.
Módulo necesario:
import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns %matplotlib inline
Código #1:
# Here we are using inbuilt dataset of scikit learn from sklearn.datasets import load_breast_cancer # instantiating cancer = load_breast_cancer() # creating dataframe df = pd.DataFrame(cancer['data'], columns = cancer['feature_names']) # checking head of dataframe df.head()
Producción:
Código #2:
# Importing standardscalar module from sklearn.preprocessing import StandardScaler scalar = StandardScaler() # fitting scalar.fit(df) scaled_data = scalar.transform(df) # Importing PCA from sklearn.decomposition import PCA # Let's say, components = 2 pca = PCA(n_components = 2) pca.fit(scaled_data) x_pca = pca.transform(scaled_data) x_pca.shape
Producción:
569, 2
# giving a larger plot plt.figure(figsize =(8, 6)) plt.scatter(x_pca[:, 0], x_pca[:, 1], c = cancer['target'], cmap ='plasma') # labeling x and y axes plt.xlabel('First Principal Component') plt.ylabel('Second Principal Component')
Producción:
# components pca.components_
Producción:
df_comp = pd.DataFrame(pca.components_, columns = cancer['feature_names']) plt.figure(figsize =(14, 6)) # plotting heatmap sns.heatmap(df_comp)
Producción:
Publicación traducida automáticamente
Artículo escrito por aishwarya.27 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA