El diagrama de tallo y hoja es una técnica para mostrar las frecuencias con las que pueden ocurrir algunas clases de valores. Es básicamente un método para representar los datos cuantitativos en formato gráfico. El diagrama de tallo y hojas conserva el elemento de datos original hasta dos cifras significativas a diferencia del histograma. Los datos se ordenan, lo que facilita el cambio a estadísticas no paramétricas e inferencia basada en el orden. Entendamos cómo funciona esta técnica de trazado.
Ejemplo:
En el Día Mundial de la Obesidad, suponga que en una escuela una maestra decide medir el peso de 10 estudiantes que cree que pueden tener obesidad. Entonces ella registra el peso de 10 estudiantes de la siguiente manera:
54, 43, 67, 76, 45, 59, 66, 78, 80, 92.
Ahora el diagrama de tallo y hoja en estos registros será:
4 | 3 5 5 | 4 9 6 | 6 7 7 | 6 8 8 | 0 9 | 2
Aquí los registros están ordenados en base a su dígito más significativo. El tallo es el lado izquierdo del gráfico, mientras que el lado derecho es la hoja. A veces, para aumentar la legibilidad, las filas alternativas se pueden fusionar con la siguiente fila inmediata. En caso de valores infinitos o valores faltantes del número, se descartan.
Diagrama de tallo y hoja en R
En R , los diagramas de tallo y hojas (también conocidos como diagramas de tallo y hojas ) de cualquier variable cuantitativa, digamos x, es un gráfico textual que se usa para clasificar los elementos de datos en orden de sus dígitos numéricos más significativos. El término tallo y hoja es así porque el gráfico se da en un formato tabular donde cada valor numérico o elemento de datos se divide en un tallo, es decir, el primer dígito y una hoja, es decir, el último dígito. Por ejemplo, suponga que los datos de entrada son 94. Entonces 9 será el tallo y 4 será la hoja.
Sintaxis:
tallo (número, escala = 1, ancho = 80, átomo = 1e-08)Parámetros:
número : los datos sobre los que queremos dibujar el gráfico de tallo y hoja [ya sea un vector numérico o una lista de vectores numéricos]
escala : la escala que queremos usar para nuestro gráfico
ancho : el ancho deseado para nuestro gráfico [it es 80 por defecto]
atom : tolerancia
Creando un Diagrama de Tallo y Hoja en R
Hay muchos conjuntos de datos reservados en RStudio. Aquí vamos a usar el conjunto de datos ChickWeight para considerar el peso. Al principio, veamos cómo usar el diagrama de tallo y hoja de una manera más simple usando stem().
Ejemplo:
# R program to illustrate # Stem and Leaf Plot # using stem() stem(ChickWeight$weight)
Producción:
The decimal point is 1 digit(s) to the right of the | 2 | 599999999 4 | 00000111111111111111111112222222222222223333456678888888899999999999+38 6 | 00111111122222222333334444455555666677777888888900111111222222333334+8 8 | 00112223344444455555566777788999990001223333566666788888889 10 | 0000111122233333334566667778889901122223445555667789 12 | 00002223333344445555667788890113444555566788889 14 | 11123444455556666677788890011234444555666777777789 16 | 00002233334444466788990000134445555789 18 | 12244444555677782225677778889999 20 | 0123444555557900245578 22 | 0012357701123344556788 24 | 08001699 26 | 12344569259 28 | 01780145 30 | 355798 32 | 12712 34 | 1 36 | 13
Explicación :
Aquí el signo $se usa en el comando para extraer los datos de la lista utilizada. El comando stem() extrae los datos numéricos y los divide en dos partes, a saber, el tallo y la hoja. El lado izquierdo muestra el dígito más significativo mientras que el último dígito se muestra en el lado derecho. Para una mejor legibilidad, los números que tienen el mismo valor de raíz se fusionan.
Usando el argumento de la escala
Ahora veamos el mismo diagrama de tallo y hojas después de cambiar la escala de nuestro diagrama deseado. Para cambiar la escala de la trama, necesitamos usar el argumento de escala dentro de la función stem() .
Ejemplo:
# R program to illustrate # Stem and Leaf Plot # Drawing Stem and Leaf Plot after rescaling stem(ChickWeight$weight, scale = 5)
Producción:
The decimal point is 1 digit(s) to the right of the | 3 | 599999999 4 | 000001111111111111111111122222222222222233334 4 | 5667888888889999999999999 5 | 00000011111111222233333444 5 | 5555566667778888899999 6 | 001111111222222223333344444 6 | 555556666777778888889 7 | 001111112222223333344444444 7 | 6667778889999 8 | 001122233444444 8 | 5555556677778899999 9 | 0001223333 9 | 566666788888889 10 | 0000111122233333334 10 | 5666677788899 11 | 0112222344 11 | 5555667789 12 | 0000222333334444 12 | 555566778889 13 | 0113444 13 | 555566788889 14 | 111234444 14 | 5555666667778889 15 | 0011234444 15 | 555666777777789 16 | 000022333344444 16 | 6678899 17 | 000013444 17 | 5555789 18 | 12244444 18 | 55567778 19 | 222 19 | 5677778889999 20 | 0123444 20 | 5555579 21 | 0024 21 | 5578 22 | 00123 22 | 577 23 | 01123344 23 | 556788 24 | 0 24 | 8 25 | 001 25 | 699 26 | 12344 26 | 569 27 | 2 27 | 59 28 | 01 28 | 78 29 | 014 29 | 5 30 | 3 30 | 5579 31 | 31 | 8 32 | 12 32 | 7 33 | 12 33 | 34 | 1 34 | 35 | 35 | 36 | 1 36 | 37 | 3
Explicación :
Después de cambiar la escala, la distribución de datos ha cambiado horizontalmente. Nuevamente aquí los tallos están del lado izquierdo y las hojas están del lado derecho.
Usando el argumento de ancho
Al usar el argumento de ancho en la función stem() , uno puede cambiar el ancho de la trama en una trama deseada.
Ejemplo:
# R program to illustrate # Stem and Leaf Plot # Drawing Stem and Leaf Plot by changing the width stem(ChickWeight$weight, width = 100)
Producción:
The decimal point is 1 digit(s) to the right of the | 2 | 599999999 4 | 0000011111111111111111111222222222222222333345667888888889999999999999000000111111112222+18 6 | 0011111112222222233333444445555566667777788888890011111122222233333444444446667778889999 8 | 00112223344444455555566777788999990001223333566666788888889 10 | 0000111122233333334566667778889901122223445555667789 12 | 00002223333344445555667788890113444555566788889 14 | 11123444455556666677788890011234444555666777777789 16 | 00002233334444466788990000134445555789 18 | 12244444555677782225677778889999 20 | 0123444555557900245578 22 | 0012357701123344556788 24 | 08001699 26 | 12344569259 28 | 01780145 30 | 355798 32 | 12712 34 | 1 36 | 13
Explicación :
A medida que el ancho cambia de 80 a 100, la distribución de datos también cambia. Aquí, el lado izquierdo del gráfico muestra el tallo, mientras que las hojas están en el lado derecho del gráfico.
Uso de diagrama de tallo y hoja
- El diagrama de tallo y hojas es muy útil para mostrar la forma y la densidad relativa de los datos, lo que le brinda al lector o cliente una visión general rápida del tipo de distribución.
- La mayoría de las veces pueden retener los datos sin procesar con una integridad bastante perfecta.
- Un método muy útil para resaltar los valores atípicos y también para encontrar la moda.