Bootstrapping es un método estadístico para inferir sobre una población utilizando datos de muestra. Se puede usar para estimar el intervalo de confianza (IC) extrayendo muestras con reemplazo de datos de muestra. Bootstrapping se puede utilizar para asignar CI a varias estadísticas que no tienen soluciones complicadas o de forma cerrada. Supongamos que queremos obtener un intervalo de confianza del 95% usando un remuestreo de arranque, los pasos son los siguientes:
- Muestra n elementos con reemplazo de los datos de muestra originales.
- Para cada muestra, calcule la estadística deseada, por ejemplo. media, mediana, etc.
- Repita los pasos 1 y 2 m veces y guarde las estadísticas calculadas.
- Trazar las estadísticas calculadas que forman la distribución de arranque
- Usando la distribución de arranque de la estadística deseada, podemos calcular el IC del 95%
Ilustración de la generación de distribución de arranque de la muestra:
Implementación en R
En Programación R , el paquete de arranque permite al usuario generar fácilmente muestras de arranque de prácticamente cualquier estadística que podamos calcular. Podemos generar estimaciones de sesgo, intervalos de confianza de arranque o gráficos de distribución de arranque a partir de los cálculos del paquete de arranque.
Para fines de demostración, vamos a utilizar el conjunto de datos de iris debido a su simplicidad y disponibilidad como uno de los conjuntos de datos integrados en R. El conjunto de datos consta de 50 muestras de cada una de las tres especies de Iris (Iris setosa, Iris Virginia , e Iris versicolor). Se midieron cuatro características de cada muestra: el largo y el ancho de los sépalos y pétalos, en centímetros. Podemos ver el conjunto de datos del iris usando el comando principal y observar las características de interés.
R
# View the first row # of the iris dataset head(iris, 1)
Producción:
Sepal.Length Sepal.Width Petal.Length Petal.Width Species 5.1 3.5 1.4 0.2 setosa
Queremos estimar la correlación entre la longitud del pétalo y el ancho del pétalo.
Pasos para calcular el CI Bootstrap en R:
1. Importe la biblioteca de arranque para el cálculo de bootstrap CI y ggplot2 para el trazado.
R
# Import library for bootstrap methods library(boot) # Import library for plotting library(ggplot2)
2. Cree una función que calcule la estadística que queremos usar, como la media, la mediana, la correlación, etc.
R
# Custom function to find correlation # between the Petal Length and Width corr.fun <- function(data, idx) { df <- data[idx, ] # Find the spearman correlation between # the 3rd and 4th columns of dataset c(cor(df[, 3], df[, 4], method = 'spearman')) }
3. Usando la función de arranque para encontrar el arranque R de la estadística.
R
# Setting the seed for # reproducability of results set.seed(42) # Calling the boot function with the dataset # our function and no. of rounds bootstrap <- boot(iris, corr.fun, R = 1000) # Display the result of boot function bootstrap
Producción:
ORDINARY NONPARAMETRIC BOOTSTRAP Call: boot(data = iris, statistic = corr.fun, R = 1000) Bootstrap Statistics : original bias std. error t1* 0.9376668 -0.002717295 0.009436212
4. Podemos trazar la distribución de arranque generada utilizando el comando de trazado con arranque calculado.
R
# Plot the bootstrap sampling # distribution using ggplot plot(bootstrap)
Producción:
5. Usar la función boot.ci() para obtener los intervalos de confianza.
R
# Function to find the # bootstrap Confidence Intervals boot.ci(boot.out = bootstrap, type = c("norm", "basic", "perc", "bca"))
Producción:
BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS Based on 1000 bootstrap replicates CALL : boot.ci(boot.out = bootstrap, type = c("norm", "basic", "perc", "bca")) Intervals : Level Normal Basic 95% ( 0.9219, 0.9589 ) ( 0.9235, 0.9611 ) Level Percentile BCa 95% ( 0.9142, 0.9519 ) ( 0.9178, 0.9535 ) Calculations and Intervals on Original Scale
Inferencia para Bootstrap CI de la salida:
Mirando el intervalo del método Normal de (0.9219, 0.9589) podemos estar 95% seguros de que la correlación real entre la longitud y el ancho de los pétalos se encuentra en este intervalo el 95% del tiempo. Como hemos visto, la salida consta de varios CI que utilizan diferentes métodos según el parámetro de tipo en la función boot.ci. Los intervalos calculados corresponden al («norma», «básico», «perc», «bca») o Normal, Básico, Percentil y BCa que dan diferentes intervalos para el mismo nivel de 95%. El método específico a utilizar para cualquier variable depende de varios factores como su distribución, homocedástica, sesgo, etc.
Los 5 métodos que proporciona el paquete de arranque para los intervalos de confianza de arranque se resumen a continuación:
- Los métodos de arranque normal o límites de confianza estándar utilizan la desviación estándar para el cálculo del IC.
- Se usa cuando la estadística es imparcial.
- Se distribuye normalmente.
- El método de arranque básico o de Hall (segundo percentil) usa el percentil para calcular el límite superior e inferior de la estadística de prueba.
- Cuando la estadística es imparcial y homocedástica.
- La estadística de arranque se puede transformar en una distribución normal estándar.
- Bootstrap percentil o basado en cuantiles, o intervalos aproximados utilizan cuantiles, por ejemplo, 2,5%, 5%, etc. para calcular el IC.
- Se utiliza cuando la estadística es imparcial y homocedástica.
- El error estándar de la estadística de arranque y las estadísticas de muestra son los mismos.
- BCa bootstrap o Bias Corrected Accelerated utiliza límites de percentil con corrección de sesgo y el coeficiente de aceleración estimado corrige el límite y encuentra el IC.
- La estadística de arranque se puede transformar en una distribución normal.
- La estadística transformada normal tiene un sesgo constante.
- El bootstrap estudentizado vuelve a muestrear la muestra bootstrap para encontrar una estadística bootstrap de segunda etapa y usarla para calcular el IC.
- Se usa cuando la estadística es homocedástica.
- El error estándar de la estadística de arranque se puede estimar mediante un remuestreo de segunda etapa.
Referencias:
Paquete de arranque R Arranque
Bootstrapping Estadísticas Wikipedia Arranque
para intervalo de confianza
Publicación traducida automáticamente
Artículo escrito por shashank_10 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA