Agrupación de datos: definición, distribución de frecuencia, histogramas

El manejo de datos o el manejo de datos no es solo un término matemático, sino que se usa en la vida cotidiana. Cuando existe el requerimiento de registrar, recolectar y presentar cualquier tipo de información o dato, se utiliza preferentemente el manejo de datos. Estadística es una palabra que escuchamos a menudo, no es sino otro término para el manejo de datos. Desde hacer un gráfico de barras de los dulces favoritos de diferentes estudiantes hasta representar una gran encuesta realizada sobre los casos de Covid-19, se usa y se prefiere el manejo de datos.

venir

      Ahora viene la pregunta de cómo manejar los datos y prepararlos de tal manera que puedan ser representados por estos gráficos. 

      Introducción al manejo de datos 

      El manejo de datos es el proceso de recopilar, registrar o presentar información de tal manera que sea útil para otros en instancias como gráficos o cuadros.

      Por lo general, los datos que recibimos no están organizados. Este tipo de datos se denominan datos sin procesar . Para presentarlo de manera significativa o sacar buenas conclusiones de él, necesitamos organizarlo sistemáticamente. Por ejemplo, considere los siguientes datos, 

      Se pidió a los estudiantes de Literatura que nombraran a su autor existencialista favorito. Los resultados se enumeran a continuación: 

      Camus, Kafka, Nietzsche, Camus, Camus, Nietzsche, Kafka, Camus, Camus, Kafka, Kafka, Kafka, Kafka, Camus, Camus, Nietzsche, Kafka, Camus, Kafka, Kafka

      Ahora la pregunta que debemos responder es ¿cuál fue el autor menos querido? 

      No es fácil contar así si estos datos hubieran sido enormes. Habría sido imposible contar así. Es por eso que necesitamos organizar los datos. 

      Agrupación de datos 

      El ejemplo anterior se puede resolver agrupando correctamente los datos. Puede ser más fácil contar si estos valores se agruparon con su tipo. Hagámoslo solo para el ejemplo anterior, 

      Tenemos los siguientes datos: 

      Camus, Kafka, Nietzsche, Camus, Camus, Nietzsche, Kafka, Camus, Camus, Kafka, Kafka, Kafka, Kafka, Camus, Camus, Nietzsche, Kafka, Camus, Kafka, Kafka

      Vemos que aquí hay tres entidades: Camus, Kafka y Nietzsche. Contemos sus ocurrencias y agrupémoslas por sus ocurrencias en una tabla.

      Histograms

      Las líneas y cruces en ellos se llaman marcas de conteo . A veces nos facilitan contar el número de objetos. Ahora podemos ver que el autor que menos gusta es Nietzsche. El valor en la columna «Número de ocurrencias» se denomina frecuencia de esa entidad y esta tabla se denomina distribución de frecuencia .

      Distribución de frecuencia agrupada 

      A veces puede suceder que haya demasiados valores en un rango particular. Por lo tanto, puede ser muy difícil hacer una tabla de frecuencias para cada entidad. En su lugar, creamos una tabla de frecuencias para un rango y contamos el número de entidades que se encuentran en ese rango. 

      Por ejemplo, 

      Digamos que tenemos datos que muestran las carreras realizadas por un bateador en particular en 60 partidos. 

      21, 10, 30, 22, 33, 5, 37, 12, 25, 42, 15, 39, 26, 32, 26 27, 28, 19, 29, 35, 31, 24, 36, 18, 20, 38 , 22, 44, 16, 24, 10, 27, 39, 28, 49, 29, 32, 23, 31, 21, 34, 22, 23, 36, 24, 36, 33, 47, 48, 50, 39 , 20, 7, 16, 36, 45, 47, 30, 22, 17

      Ahora no podemos hacer una tabla de frecuencias para cada valor, por lo que usamos el concepto de distribución de frecuencias agrupadas discutido anteriormente. 

      Hagamos un rango como 0-10, 10-20, 20-30, etc. 

      Grupos Frecuencia  
      0-10 2
      10-20 9
      20-30 22
      30-40 15
      40-50 8
      50-60 2

      Nota: Note que en el intervalo 0-10, 10-20. 10 es común, pero un valor no puede pertenecer a dos intervalos simultáneamente. Por lo tanto, se supone por convención que la observación común pertenecerá a una clase superior. Entonces 10 pertenecerá al intervalo 10-20. 

      En un grupo 50-60, 50 se denomina límite de clase inferior y 60 se denomina límite de clase superior. La diferencia entre el límite de clase superior y el límite de clase inferior se denomina ancho o tamaño del intervalo. 

      Histogramas

      Es similar a un gráfico de barras, pero un histograma agrupa los números en rangos y luego traza las ocurrencias de los valores en los rangos dados en el gráfico. 

      Consideremos el ejemplo anterior, 

      Grupos Frecuencia  
      0-10 2
      10-20 9
      20-30 22
      30-40 15
      40-50 8
      50-60 2

      Histograms

      La siguiente figura representa estos datos en formato gráfico. La altura de las barras representa la frecuencia del intervalo de clase. Observe que no hay espacio entre las barras. Este tipo de gráfico se llama histograma .

      Problemas de muestra

      Pregunta 1: Se lanzó un dado 25 veces y se obtuvieron los siguientes puntajes:

      2, 5, 2, 4, 3, 6, 1, 4, 2, 5, 1, 6, 2, 6, 3, 5, 4, 1, 3, 2, 3, 6, 1, 5, 2

      Cree una tabla de frecuencia de las puntuaciones.

      Solución:

      La tabla de frecuencias de las puntuaciones obtenidas cuando se lanza un dado se puede representar como:

      Morir Marcas de conteo

      Puntuaciones

      (frecuencia)

      1 |||| 4
      2 |||| | 6
      3 |||| 4
      4 ||| 3
      5 |||| 4
      6 |||| 4

      Pregunta 2: Haz el gráfico de barras para los datos dados en el ejemplo de la literatura al principio. 

      Solución:

      Hagamos la tabla para los datos dados 

      Autor Numero de incidentes
      Kafka 9
      camús 8
      Nietzsche 3

      Pongamos los nombres de los autores en el eje x y el número de ocurrencias en el eje y.

      Histogramas

      Pregunta 3: Haz un histograma para los datos que se dan a continuación: 

      1, 2, 2, 1, 5, 5, 4, 10, 4, 5, 7, 10, 9, 8, 9, 9, 11

      Solución:

      Supongamos un tamaño de intervalo de 3 y hagamos una tabla de frecuencia. 

      Grupos Frecuencia
      0-3 3
      3-6 4
      6-9 2
      9-12 6

      Tracemos estos intervalos en el gráfico. 

      Histogramas

      Pregunta 4: Los datos que se proporcionan a continuación representan el uso por día en minutos de Spotify para una persona en particular. 

      5, 10, 12, 7, 20, 13, 30, 25, 20, 50, 30, 24, 17, 63, 24, 30, 15, 10, 40, 24, 15, 18, 20, 11. 

      Haz una tabla de frecuencia y un histograma para estos datos. 

      Solución:

      Antes de hacer un histograma, necesitamos agrupar los datos y hacer una distribución de frecuencias para ellos. 

      Supongamos que el tamaño del intervalo es 10. 

      Intervalo  Frecuencia
      0-10 2
      10-20 8
      20-30 7
      30-40 3
      40-50 1
      50-60 1
      60-70 1

      Haz una tabla de frecuencia

      Pregunta 5: Responda las siguientes preguntas observando el histograma dado. 

      1. ¿Cuál es la información que da el histograma? 
      2. Qué grupo contiene el máximo de chicas. 
      3. ¿Cuántas chicas tienen marcas de más de 145? 

      histogram

      Solución:

      1. El histograma representa las notas totales obtenidas por las chicas de la clase.
      2. El grupo 140-150 contiene el número máximo de niñas.
      3. 9 niñas tienen marcas de más de 145.

      Publicación traducida automáticamente

      Artículo escrito por anjalishukla1859 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

      Deja una respuesta

      Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *