Cómo calcular distribuciones de muestreo en R

Una distribución de muestreo es una distribución de probabilidad de una estadística obtenida de un mayor número de muestras extraídas de una población específica. La distribución de muestreo de una población dada es la distribución de frecuencias de un rango de resultados diferentes que posiblemente podrían ocurrir para una estadística de una población.

En estadística, una población es un grupo completo del que se extrae una muestra estadística. Una población puede referirse a un grupo completo de personas, objetos, eventos, visitas al hospital o medidas. Por lo tanto, se puede decir que una población es una observación agregada de sujetos agrupados por una característica común.

  • Una distribución de muestreo es una estadística que se obtiene a través de un muestreo repetido de una población más grande.
  • Describe una gama de posibles resultados de una estadística, como la media o la moda de alguna variable, tal como existe realmente en una población.
  • La mayoría de los datos analizados por los investigadores en realidad se extraen de muestras y no de poblaciones.

Pasos para Calcular Distribuciones Muestreales en R:

Paso 1: Aquí, primero tenemos que definir un número de muestras (n=1000).

n<-1000

Paso 2: A continuación, creamos un vector (muestra_medios) de longitud ‘n’ con valores nulos (NA) [la función rep() se usa para replicar los valores en el vector

Sintaxis: rep(valor_a_ser_replicado,número_de_veces)

Paso 3: luego llenamos el vector nulo sample_means creado con medias de muestra de la población considerada usando la función mean() que tiene una media de muestra de 10 (media) y una desviación estándar de 10 (sd) de 20 muestras (n) usando rnorm() que se utiliza para generar distribuciones normales.

Sintaxis: mean(x, trim = 0)

Sintaxis: rnorm(n, media, sd)

Paso 4: para verificar las muestras creadas, usamos head(), que devuelve las primeras seis muestras del marco de datos (vector, lista, etc.).

Sintaxis: head(data_frame,no_of_rows_be_returned) #Por defecto, el segundo argumento se establece en 6 en R.

Paso 5: Finalmente, para visualizar el conjunto de datos sample_mean, trazamos un histograma (para una mejor visualización) usando la función hist() en R.

Sintaxis :hist(v,principal,xlab,ylab,col) 

dónde.

  • v es un vector que contiene valores utilizados en el histograma.
  • main indica el título del gráfico.
  • col se utiliza para establecer el color de las barras.
  • xlab se usa para dar una descripción del eje x.
  • ylab se utiliza para dar una descripción del eje y.

Paso 6: Finalmente, encontramos la probabilidad de que las medias de muestra generadas tengan una media mayor o igual a 10.

Código:

En este ejemplo particular, encontramos la probabilidad de que la media de la muestra sea menor o igual a 10, dado que la media de la población es 10, la desviación estándar de la población es 10 y el tamaño de la muestra es 20 es 0.506 (aproximadamente 0.50).

R

# define number of samples
n < -1000
 
# create empty vector og length n
sample_means = rep(NA, n)
 
# fill empty_vector with means
for(i in 1: n){
    sample_means[i] = mean(rnorm(20, mean=10, sd=10))
}
head(sample_means)
 
# create histogram to visualize
hist(sample_means, main="Sampling Distribution",
     xlab="Sample Means", ylab="Frequency", col="blue")
 
# To cross check find mean and sd of sample
mean(sample_means)
 
sd(sample_means)
 
# To find probability
sum(sample_means >= 10)/length(sample_means)

Producción:

 

Publicación traducida automáticamente

Artículo escrito por sri06harsha y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *