Valor p en aprendizaje automático

El valor P nos ayuda a determinar la probabilidad de obtener un resultado particular cuando se supone que la hipótesis nula es verdadera. Es la probabilidad de obtener una muestra como la nuestra o más extrema que la nuestra si la hipótesis nula es correcta. Por lo tanto, si se supone que la hipótesis nula es verdadera, el valor p nos da una estimación de cuán «extraña» es nuestra muestra.

Si el valor p es muy pequeño (<0.05 se considera generalmente), entonces nuestra muestra es «extraña», y esto significa que nuestra suposición de que la hipótesis nula es correcta probablemente sea falsa. Por lo tanto, lo rechazamos. Entendamos qué es el valor p a través de algunos ejemplos:

Ejemplos:

1. Lanzar una moneda –

Hay dos resultados posibles: cara (H), cruz (T). Sea la hipótesis nula H ₀ y la hipótesis alternativa H ₁ . H0 : Esta es una _monedajusta ; H ₁ Esta es una moneda sesgada o injusta . Supongamos que estamos en un universo donde la hipótesis nula es verdadera. Considere los siguientes eventos:

Evento	valor p
T	0.5
T	0.25
T	0.12
T	0.06
T	0.03
T	0.01

El valor p es la probabilidad de que ocurra el evento, asumiendo que H ₀ es verdadera; es decir, la moneda es justa (si estuviéramos en el universo donde H ₁ es verdadera, entonces el valor p sería 1 para todos los eventos). La ocurrencia de cruz una vez es bastante regular, y para una moneda justa, la probabilidad de ocurrencia del Evento 1 es 0.5. Sin embargo, cada vez que lanzamos la moneda, ¡el resultado es cruz! Es algo dudoso que suceda. Por lo tanto, el valor p disminuye hacia abajo en la tabla. La probabilidad de que la cola ocurra seis veces seguidas es 0,01, que es bastante baja. Solo hay un 1% de probabilidad de que el evento ocurra en el universo donde H ₀ es cierto (debemos tener mucha suerte para que tal cosa suceda).

Por lo tanto, rechazamos la afirmación de que la hipótesis es verdadera cuando el valor de p desciende por debajo de 0,05 (después del 4º evento). 0,05 se considera generalmente como la significación estadística.

2. ¡Galletas y nueces! –

Mary vende galletas de nuez con chocolate. Lamentablemente, hubo una queja de que había menos cacahuetes en las galletas de chocolate con nueces de las que se suponía que tenían (se supone que un paquete de 200 g tiene 70 g de cacahuetes). Por lo tanto, quería comprobar si la denuncia era válida. Para hacerlo, toma 20 muestras aleatorias de galletas de una población de 400 galletas, las desenvuelve y derrite el chocolate para pesar las nueces en cada paquete. Si los pesos de los cacahuetes en las 20 muestras eran mucho más de 70 gy la media es de unos 95 g, la queja definitivamente no era válida. La cantidad de nueces es, de hecho, más. Considere que los pesos de maní en todas las 20 muestras fueron mucho menos de 70 g, y la media es de aproximadamente 30 g. En esta situación, hay un problema con las cookies.

Aquí nuestra hipótesis nula (H ₀ ) y la hipótesis alternativa (H ₁ ) son las siguientes:

H ₀ – Peso medio de maní en un paquete = 70 g (no hay problema con las galletas).
H ₁ – Peso medio de maní en paquete < 70g.

Si los pesos de maní en todos los paquetes están en el rango (65,75) que está cerca de 70 g, y la media está alrededor de 68,5 g, es difícil decidir si nuestra afirmación de que H ₀ es verdadera es correcta. En tales casos, encontramos el valor p para estos datos en comparación con la media de 70 g. Supongamos que el valor p que obtuvimos es 0,18. Por lo tanto, hay un 18 % de posibilidades de obtener una media tan baja como esta (68,5 g) si las galletas no tienen nada de malo (H ₀ es verdadera), es decir, el peso medio de cacahuetes en las galletas es >= 70 g (Mary se siente aliviada). !).

Si el valor p que obtuviéramos fuera menor que el nivel de significancia de 0.05, rechazaríamos la hipótesis nula.

Demostración del valor p

Por lo tanto, el valor p nos dice si tenemos evidencia de la muestra de que hay un efecto en la población. Si el valor p es mayor que el nivel de significancia, no tenemos prueba. A medida que el valor p cae por debajo del nivel de significación, nuestra evidencia se vuelve más potente y, por lo tanto, podemos rechazar la afirmación de que la hipótesis nula es correcta.

El procedimiento que usamos para encontrar qué tan fuerte es la evidencia es el siguiente:

Suponga que H ₀ es verdadera.
Tome una muestra, obtenga la estadística (media) y calcule la probabilidad de obtener tales cifras si H ₀ es verdadera. El parámetro que nos dice lo primero es el valor p.
Si el valor p es bastante pequeño , H ₀ probablemente sea incorrecto. Cuanto menor sea el valor de p, más evidencia tenemos de que la hipótesis nula es falsa .
Si el valor p es grande , nuestra idea original de suponer que H ₀ es verdadera probablemente sea correcta. Por lo tanto, no rechazamos H ₀ – resultado no significativo .
El valor P es pequeño o grande en comparación con el nivel de significación, que generalmente es 0,05. Se ajusta en función del experimento y de cómo usamos sus resultados.

Por lo tanto, el valor p no es :

La probabilidad de que la afirmación sea válida.
La probabilidad de que la hipótesis nula sea verdadera.

Es el parámetro que nos ayuda a determinar qué tan “extraña” es la muestra bajo el supuesto de que la hipótesis nula es correcta. Por lo tanto, nos ayuda a modificar la hipótesis nula en consecuencia.

Publicación traducida automáticamente

Artículo escrito por eshwitha_reddy y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta Cancelar la respuesta