Gráfico de violín para análisis de datos

Violin Plot es un método para visualizar la distribución de datos numéricos de diferentes variables. Es similar a Box Plot pero con un gráfico rotado en cada lado, que brinda más información sobre la estimación de la densidad en el eje y.
La densidad se refleja y se voltea y la forma resultante se rellena, creando una imagen que se asemeja a un violín. La ventaja de un diagrama de violín es que puede mostrar matices en la distribución que no son perceptibles en un diagrama de caja. Por otro lado, el diagrama de caja muestra más claramente los valores atípicos en los datos.

Los diagramas de violín contienen más información que los diagramas de caja, son menos populares. Debido a su impopularidad, su significado puede ser más difícil de comprender para muchos lectores que no están familiarizados con la representación de la trama del violín.

Para obtener el enlace a Iris Data, haga clic aquí .

Información de atributos sobre el conjunto de datos:

Attribute Information:
   -> sepal length in cm
   -> sepal width in cm
   -> petal length in cm
   -> petal width in cm
   -> class: 
              Iris Setosa
              Iris Versicolour
              Iris Virginica

Number of Instances: 150 

Summary Statistics:
             Min  Max   Mean    SD   Class Correlation
   sepal length: 4.3  7.9   5.84  0.83    0.7826   
    sepal width: 2.0  4.4   3.05  0.43   -0.4194
   petal length: 1.0  6.9   3.76  1.76    0.9490  (high!)
    petal width: 0.1  2.5   1.20  0.76    0.9565  (high!)

Class Distribution: 33.3% for each of 3 classes.

Cargando bibliotecas

import numpy as np
import pandas as pd
import seaborn as sns
from matplotlib import pyplot
import seaborn

Cargando datos

data = pd.read_csv("Iris.csv")
  
print (data.head(10))

Producción:

Descripción

data.describe()

Producción:

Información

data.info()

Producción:

Describiendo el parámetro ‘SepalLengthCm’ del conjunto de datos Iris.

data["SepalLengthCm"].describe()

Producción:

count    150.000000
mean       5.843333
std        0.828066
min        4.300000
25%        5.100000
50%        5.800000
75%        6.400000
max        7.900000
Name: SepalLengthCm, dtype: float64

 
Código n.º 1: Trazado de violín para el parámetro ‘SepalLengthCm’.

fig, ax = pyplot.subplots(figsize =(9, 7))
sns.violinplot( ax = ax, y = data["SepalLengthCm"] )

Salida:

Como puede ver, tenemos una densidad más alta entre 5 y 6. Eso es muy significativo porque, como en la descripción de SepalLengthCm, un valor medio es 5,43.

Código #2: Trazado de violín para el parámetro ‘SepalLengthWidth’.

fig, ax = pyplot.subplots(figsize =(9, 7))
sns.violinplot(ax = ax,  y = data["SepalWidthCm"] )

Producción:

Aquí también, la densidad más alta está en la media = 3.05

Código n.º 3: Gráfico de violín que compara ‘SepalLengthCm’ y ‘SepalWidthCm’.

fig, ax = pyplot.subplots(figsize =(9, 7))
sns.violinplot(ax = ax, data = data.iloc[:, 1:3])

Producción:

Código n.º 4: gráfico de violín que compara las especies de ‘SepalLengthCm’.

fig, ax = pyplot.subplots(figsize =(9, 7))
sns.violinplot(ax = ax, x = data["Species"], 
                  y = data["SepalLengthCm"] )

Producción:

Publicación traducida automáticamente

Artículo escrito por Mohit Gupta_OMG 🙂 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *