¿Qué es el diagrama de caja y la condición de los valores atípicos?

Box plot es una función de trazado de visualización de datos. Muestra el mínimo, el máximo, la mediana, el primer cuartil y el tercer cuartil. Todas las cosas se explicarán brevemente. Se puede acceder a todas las propiedades del diagrama de caja por dataframe.column_name.describe()función.

Aspectos de un diagrama de caja

Aquí hay un conjunto de datos bien distribuido.

data = [0, 1, 2, 3, 4, 5, 6] 
df = pd.DataFrame(data, columns = ['Num'])  
df

Producción:

pytohn-box-plot

Ahora trazando el marco de datos usando un diagrama de caja,

plt.figure(figsize = (10, 7)) 
  
df.boxplot() 

Explicación de las diferentes partes del diagrama de caja.

El máximo y el mínimo es el valor máximo y mínimo del conjunto de datos. El percentil 50 es la mediana del conjunto de datos. El primer cuartil es la mediana de los datos entre el mínimo y el 50 % y el tercer cuartil es la mediana de los datos entre el 50 % y el máximo. Los valores atípicos serán los valores que están fuera del (rango intercuartílico de 1,5*) del percentil 25 o 75.

Métodos para encontrar los valores.

  • Usa la mediana para dividir el conjunto de datos ordenados en dos mitades.
    1) Si hay un número impar de puntos de datos en el conjunto de datos ordenado original, no incluya la mediana (el valor central en la lista ordenada) en ninguna de las dos mitades.
    2) Si hay un número par de puntos de datos en el conjunto de datos ordenado original, divida este conjunto de datos exactamente por la mitad.
  • El valor del cuartil inferior es la mediana de la mitad inferior de los datos. El valor del cuartil superior es la mediana de la mitad superior de los datos.
  • Un valor extremo se considera atípico si está al menos 1,5 rangos intercuartílicos por debajo del primer cuartil, o al menos 1,5 rangos intercuartílicos por encima del tercer cuartil.

Diferentes casos de diagrama de caja

Veamos diferentes casos de diagramas de caja con diferentes ejemplos y tratemos de entender cada uno de ellos.

  • Now for the data = [0, 1, 2, 3, 6, 6, 6]

    Aquí, la mediana de los datos es 3, el mínimo es 0 y el máximo es 6. El primer cuartil es 1,5 pero después del 50 % a los valores máximos, todos los datos son 6. Por lo tanto, el tercer cuartil y los valores máximos son los mismos.

  • For the data = [0, 1, 2, 3, 4, 5, 9] 


    Aquí la mediana es 3. Para el tercer cuartil, los valores son 4, 5 y 9. Entonces, el tercer cuartil es 5 y el valor máximo es 9.

  • For the data = [0, 1, 2, 3, 4, 5, 10]


    A diferencia del anterior, el valor máximo es 5 porque el tercer cuartil es 4,5 y el rango intercuartílico es (4.5-1.5)=>3. Entonces, 1.5*3es 4.5y tercer cuartil (4.5)+4.5=>9. Entonces, 10 es mayor que el límite 9, por lo que se convierte en un valor atípico.

Descripción

El diagrama de caja parece útil para detectar valores atípicos, pero también tiene otros usos. Los diagramas de caja ocupan menos espacio y, por lo tanto, son particularmente útiles para comparar distribuciones entre varios grupos o conjuntos de datos. Es una representación directa de la Función de Densidad de Probabilidad que indica la distribución de datos.

Publicación traducida automáticamente

Artículo escrito por towsifahmedlabib y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *