Recolección y Presentación de Datos

Nos encontramos con mucha información todos los días de diferentes fuentes. Nuestros periódicos, TV, teléfono e Internet, etc. son las fuentes de información en nuestra vida. Esta información se puede relacionar con cualquier cosa, desde los promedios de bolos en el cricket hasta las ganancias de la empresa a lo largo de los años. Estos hechos y cifras a menudo son numéricos y se denominan Datos. La estadística es el estudio de los datos. Veamos esto en detalle. 

Estadísticas: recopilación y presentación de datos

Antes de entrar en Estadística, primero, definamos qué es Datos. 

“Los datos son unidades de información, a menudo numéricas, recopiladas a través de la observación”. 

Es la forma plural de la palabra latina “Datum”.

Nuestro mundo se ha vuelto muy orientado a la información en las últimas dos décadas. Por lo tanto, se vuelve esencial para nosotros extraer información significativa de los datos. Para eso necesitamos estadísticas. Veamos qué significan las estadísticas en términos formales. 

Estadística se deriva de la palabra latina «Estado» que significa «un estado». Se refiere a la naturaleza, el significado y la distribución de los datos. 

Conjunto de datos

La recopilación de datos se refiere a recopilar información sobre algo con el objetivo de analizarlo o extraer información significativa de él. Algunos ejemplos de actividades que implican la recopilación de datos son: 

  1. Estudiantes recopilando datos de sus localidades sobre el número de personas con Vacunas Covid.
  2. Un aficionado al fútbol recopilando información sobre los goles marcados por su jugador favorito.
  3. Una compañía discográfica que recopila información sobre las ventas de álbumes de sus artistas.

Tipos de datos registrados

La mayoría de las veces cuando recopilamos datos para nuestro experimento con un objetivo. Por lo general, cae en una de estas dos categorías: 

  1. Datos categóricos
  2. Datos numéricos

Datos categóricos

Estos datos representan las características de algo entidad. Por ejemplo, si estamos recopilando datos sobre algunas personas. Los datos categóricos relacionados con esta información pueden ser el género de la persona, el estado civil, etc. Estas cosas tendrán valores que no son numéricos, a menudo “Sí/No” o en este caso “Hombre/Mujer”. Como no son numéricos, no se pueden sumar. 

Datos numéricos 

Estos datos provienen de la medición y son de naturaleza numérica. Por ejemplo, Peso de la persona, precios de las acciones, calificaciones de los estudiantes de la clase XII, etc. Estos datos también se denominan datos cuantitativos. Se puede dividir aún más en tipos: 

  1. Datos continuos
  2. Datos discretos

Datos Continuos : Estos datos pueden tomar cualquier valor entre intervalos. No se puede contar el número de valores posibles para estos datos. Por ejemplo, la longitud de una regla puede tomar cualquier longitud entre 0 y 100 cm. Puede ser de 30 cm, 30,11 cm, etc. Hay infinitos valores posibles. 

Datos discretos: estos datos toman solo ciertos valores. Por ejemplo: si se lanza una moneda tres veces y queremos contar el número de caras. Solo hay un puñado de valores que son posibles. 0,1,2 o 3. No puede tomar 2,2 ni ningún otro valor. Entonces, solo hay valores finitos posibles. 

Presentación de datos

Después de recopilar los datos, debemos presentarlos de manera significativa. Tomemos un ejemplo, 

Supongamos que tenemos los datos de alturas de los alumnos de una clase, 

140, 161, 152, 184, 135, 168 y 144.

Necesitamos responder las siguientes preguntas relacionadas con los datos: 

  1. ¿Cuál es la altura del estudiante más largo de la clase?
  2. ¿Cuál es la altura del estudiante más bajo de la clase?
  3. ¿Cuál es la altura promedio?

Es un poco difícil analizar los datos en este formato. Los datos en el formulario se llaman datos sin procesar. El análisis de los datos en este formulario puede llevar más tiempo si los datos son grandes. Se puede hacer un poco más fácil si ordena los datos en orden ascendente o descendente. Así, de esta forma, la presentación de los datos afecta a la información y al tiempo que se tarda en extraerla de los datos. 

Supongamos que si estos datos fueran aún más grandes, sería muy difícil organizarlos en orden. En tales casos, podríamos usar una tabla de frecuencia. Veamos esto a través de un ejemplo. 

Distribución de frecuencia no agrupada

En este tipo de tabla de frecuencia, consideramos los valores tal como son y luego contamos su número de ocurrencias en los datos. No agrupamos los datos. Veamos esto a través de un ejemplo. 

Pregunta: Digamos que tenemos calificaciones de estudiantes de la clase XII. Las notas son sobre 40. 

20  21 29 15 7 10
31 40 24 5 11 13 20
24 27 13 15 38 33 29

Representa estos datos usando una tabla de frecuencia. 

Solución: 

Tomemos las notas de algún estudiante en una columna y la frecuencia de dichas notas en otra columna. 

Marcas Frecuencia
5 1
7 1
8 1
10 1
11 1
13 2
15 2
20 2
21 1
24 2
29 1
33 1
38 1
40 1

Note que en esta tabla, no hemos agrupado los datos sino que hemos tomado valores exactos y su frecuencia. Entonces, este tipo de representación se llama distribución de frecuencia no agrupada. 

Distribución de frecuencia agrupada

El tipo de representación anterior es definitivamente una mejora con respecto a las representaciones anteriores, pero como se ve en el ejemplo anterior, las tablas pueden volverse bastante grandes en tales representaciones. Las marcas de conteo y la agrupación también se pueden usar para representar estos datos. 

Pregunta: Tenemos los datos de la cantidad de casos de covid en un día en particular en 20 ciudades. 

10 21 25 33
15 8 dieciséis 20
0 5 38 28
5 0 dieciséis 23

Representa estos datos usando una tabla de frecuencia. 

Solución: 

En el ejemplo anterior, vimos que la distribución de frecuencias no agrupada es engorrosa y muy larga de ver. Así que ahora, dividiremos los datos en grupos. Este tipo de representación de tabla de frecuencias se denomina representación de frecuencias agrupadas. 

Dividamos el número de casos en grupos como 0-5, 5-10, 10-15… y así sucesivamente. 

Entonces la tabla de frecuencias será, 

Grupo Frecuencia
0-5 2
5-10 3
10-15 1
15-20 3
20-25 2
25-30 2
30-35 1
35-40 1

Los intervalos como 0-5, 5-10 .. y así sucesivamente en el ejemplo anterior se denominan intervalos de clase. El número mayor se llama límite superior y el número menor se llama límite inferior. 

Veamos algunos ejemplos de problemas sobre estos conceptos. 

Problemas de muestra

Problema 1: La siguiente tabla representa los datos. Representar estos datos en forma de distribución de frecuencia adecuada. 

3 4 3 3
2 4 4 3
2 2 2 3

Solución: 

Podemos ver a partir de los datos proporcionados anteriormente, que solo hay tres valores: 2, 3 y 4. Estos valores ocurren varias veces a lo largo de los datos. Dado que hay un número muy reducido de valores, podemos representar este tipo de datos en forma de tabla de frecuencia no agrupada. 

Valor Frecuencia
2 4
3 5
4 3
Total – 12

Problema 2: Los datos que se dan a continuación representan los grupos sanguíneos de los 20 alumnos de la clase XI. 

O AB A
AB AB O B
A A O B
B O B A
B AB O B

Representa los datos dados arriba en la tabla en forma de tabla de frecuencia. ¿Cuál de los siguientes grupos sanguíneos tiene mayor frecuencia entre los estudiantes?

Solución: 

Sabemos que hay cuatro tipos de grupos sanguíneos en la tabla. 

O, A, AB y B

Entonces, usaremos una tabla de distribución de frecuencias no agrupadas para representar los datos. 

Grupo sanguíneo Frecuencia 
O 5
A 5
AB 4
B 6
Total  20

De la tabla de distribución de frecuencias podemos decir que B es el grupo sanguíneo que ocurre con mayor frecuencia en los estudiantes. 

Problema 3: La tabla representa los pesos de los alumnos de la clase X. 

60 73 62 54
48 88 49 52
55 60 62 63
77 47 sesenta y cinco 59

Responde las siguientes preguntas: 

  1. ¿Cuál es el rango en el que se encuentran la mayoría de los estudiantes? 
  2. Suponga que los estudiantes que pesan más de 70 se consideran con sobrepeso y los que pesan menos de 50 se consideran con bajo peso. ¿Cuántos de estos estudiantes hay en la clase? 

Solución: 

Hagamos una tabla de distribución de frecuencia agrupada para estos datos. 

Suponiendo intervalos como 0-10,10-20… y así sucesivamente. Dividamos los datos en estos intervalos para contar la frecuencia. 

Grupo de peso Frecuencia
0-10 0
10-20 0
20-30 0
30-40 0
40-50 3
50-60 4
60-70 6
70-80 2
80-90 1
Total  dieciséis

Esta tabla anterior representa una tabla de frecuencia agrupada. Ahora respondiendo las preguntas. 

1. La mayoría de los estudiantes se encuentran en el rango de 60-70. 

2. Para los estudiantes con sobrepeso, necesitamos contar el número de estudiantes con un peso superior a 70. Se puede observar en la tabla que hay tres de esos estudiantes. 

Para los estudiantes con bajo peso, el número de estudiantes con peso inferior a 50 también son tres estudiantes. 

Problema 4: Se lanzan 20 veces tres monedas. El número de cabezas que ocurrieron cada vez se registra y se da en los datos a continuación. Prepare una distribución de frecuencias para los datos dados. 

0 2 1 3
2 1 1 1
3 2 0 3
2 3 2 2
2 0 1 2

Solución: 

Sabemos que hay un máximo de tres cabezas posibles en cada turno en este experimento. Entonces podemos hacer una distribución de frecuencias no agrupada para tales datos

Número de cabezas Frecuencia
0 3
1 5
2 8
3 4
Total  20

Por lo tanto, la tabla anterior representa la tabla de frecuencias para estos datos. 

Publicación traducida automáticamente

Artículo escrito por anjalishukla1859 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *