Diagrama de caja: es un tipo de gráfico que representa un grupo de datos numéricos a través de sus cuartiles. Es una forma sencilla de visualizar la forma de nuestros datos. Hace que comparar las características de los datos entre categorías sea muy fácil.
En este artículo, vamos a discutir los siguientes temas:
- Comprender los componentes de un diagrama de caja
- Cómo crear un diagrama de caja
- Usos de un diagrama de caja
- Cómo comparar diagramas de caja
Avancemos paso a paso
1) Comprender los componentes de un diagrama de caja
Un diagrama de caja da un resumen de cinco números de un conjunto de datos que es-
- Mínimo : es el valor mínimo en el conjunto de datos, excluyendo los valores atípicos
- Primer cuartil (Q1) : el 25 % de los datos se encuentra por debajo del primer cuartil (inferior).
- Mediana (Q2) : es el punto medio del conjunto de datos. La mitad de los valores se encuentran por debajo y la otra mitad por encima.
- Tercer cuartil (Q3) : el 75 % de los datos se encuentran por debajo del tercer cuartil (superior).
- Máximo : es el valor máximo en el conjunto de datos, excluyendo los valores atípicos.
Nota: El diagrama de caja que se muestra en el diagrama anterior es un diagrama perfecto sin sesgo. Los gráficos pueden tener sesgo y la mediana podría no estar en el centro de la caja.
El área dentro de la caja (50% de los datos) se conoce como rango intercuartílico. El IQR se calcula como –
IQR = Q3-Q1
Los valores atípicos son los puntos de datos por debajo y por encima del límite inferior y superior . El límite inferior y superior se calcula como –
Lower Limit = Q1 - 1.5*IQR Upper Limit = Q3 + 1.5*IQR
Los valores por debajo y por encima de estos límites se consideran valores atípicos y los valores mínimo y máximo se calculan a partir de los puntos que se encuentran por debajo del límite inferior y superior.
2) Cómo crear un diagrama de caja
Tomemos una muestra de datos para comprender cómo crear un diagrama de caja.
Estas son las carreras anotadas por un equipo de cricket en una liga de 12 partidos: 100,120,110,150,110,140,130,170,120,220,140,110.
Para dibujar un diagrama de caja para los datos dados, primero debemos organizar los datos en orden ascendente y luego encontrar el mínimo, el primer cuartil, la mediana, el tercer cuartil y el máximo.
Ascending Order - 100,110,110,110,120,120,130,140,140,150,170,220 Median (Q2) = (120+130)/2 = 125 ; Since there were even values
Para encontrar el Primer Cuartil tomamos los primeros seis valores y encontramos su mediana.
Q1 = (110+110)/2 = 110
Para el tercer cuartil, tomamos los siguientes seis y encontramos su mediana.
Q3 = (140+150)/2 = 145
Nota: si el número total de valores es impar, excluimos la mediana al calcular Q1 y Q3. Aquí, dado que había dos valores centrales, los incluimos.
Ahora, necesitamos calcular el rango intercuartílico.
IQR = Q3-Q1 = 145-110 = 35
Ahora podemos calcular los límites superior e inferior para encontrar los valores mínimo y máximo y también los valores atípicos, si los hay.
Lower Limit = Q1-1.5*IQR = 110-1.5*35 = 57.5 Upper Limit = Q3+1.5*IQR = 145+1.5*35 = 197.5
Entonces, el mínimo y el máximo entre el rango [57.5,197.5] para nuestros datos dados son:
Minimum = 100 Maximum = 170
Los valores atípicos que están fuera de este rango son:
Outliers = 220
Ahora que tenemos toda la información, podemos dibujar el diagrama de caja que es el siguiente:
Podemos ver en el diagrama que la Mediana no está exactamente en el centro de la caja y que un bigote es más largo que el otro. También tenemos un valor atípico.
3) Usos de un diagrama de caja
- Los diagramas de caja brindan un resumen visual de los datos con los que podemos identificar rápidamente el valor promedio de los datos, qué tan dispersos están los datos, si los datos están sesgados o no (sesgo).
- La Mediana te da el valor promedio de los datos.
- Los diagramas de caja muestran la asimetría de los datos.
a) If the Median is at the center of the Box and the whiskers are almost the same on both the ends then the data is Normally Distributed. b) If the Median lies closer to the First Quartile and if the whisker at the lower end is shorter (as in the above example) then it has a Positive Skew (Right Skew). c) If the Median lies closer to the Third Quartile and if the whisker at the upper end is shorter then it has a Negative Skew (Left Skew).
- La dispersión o extensión de los datos se puede visualizar mediante los valores mínimo y máximo que se encuentran al final de los bigotes.
- El Box plot nos da la idea de los Outliers que son los puntos que están numéricamente distantes del resto de los datos.
4) Cómo comparar diagramas de caja
Como hemos comentado al principio del artículo, los diagramas de caja facilitan mucho la comparación de las características de los datos entre categorías. Echemos un vistazo a cómo podemos comparar diferentes diagramas de caja y derivar conclusiones estadísticas de ellos.
Tomemos las siguientes dos parcelas como ejemplo: –
- Compare las medianas: si la línea de la mediana de un diagrama de caja se encuentra fuera de la caja del otro diagrama de caja con el que se compara, entonces podemos decir que es probable que haya una diferencia entre los dos grupos. Aquí, la línea mediana de la parcela B se encuentra fuera de la caja de la parcela A.
- Compare la dispersión o la dispersión de los datos: el rango entre cuartiles (longitud del cuadro) nos da una idea de qué tan dispersos están los datos. Aquí, la gráfica A tiene una longitud más larga que la gráfica B, lo que significa que la dispersión de los datos es mayor en la gráfica A que en la gráfica B. La longitud de los bigotes también da una idea de la dispersión general de los datos. Los valores extremos (mínimo y máximo) dan el rango de distribución de datos. A mayor rango, más dispersos los datos. Aquí la parcela A tiene un rango mayor que la parcela B.
- Comparación de valores atípicos: los valores atípicos dan la idea de valores de datos inusuales que están distantes del resto de los datos. Más cantidad de valores atípicos significa que la predicción será más incierta. Podemos tener más confianza al predecir los valores de un gráfico que tiene menos o ningún valor atípico.
- Compare la asimetría: la asimetría nos da la dirección y la magnitud de la falta de simetría. Hemos discutido anteriormente cómo identificar la asimetría. Aquí, la gráfica A es positiva o sesgada a la derecha y la gráfica B es negativa o sesgada a la izquierda.
Esto es todo para diagramas de caja. Ahora es posible que tenga la idea de los diagramas de caja, cómo hacerlos y cómo derivar información de ellos. Para cualquier consulta, deje un comentario a continuación.
Publicación traducida automáticamente
Artículo escrito por shristikotaiah y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA