¿Qué es la prueba de correlación?
La fuerza de la asociación entre dos variables se conoce como prueba de correlación. Por ejemplo, si estamos interesados en saber si existe una relación entre las estaturas de padres e hijos, se puede calcular un coeficiente de correlación para responder a esta pregunta.
Para obtener más información sobre la correlación, consulte esto.
Métodos para el análisis de correlación:
Existen principalmente dos tipos de correlación:
- Correlación Paramétrica – Correlación de Pearson(r) : Mide una dependencia lineal entre dos variables (x e y) se conoce como prueba de correlación paramétrica porque depende de la distribución de los datos.
- Correlación no paramétrica: Kendall (tau) y Spearman (rho) : son coeficientes de correlación basados en rangos, se conocen como correlación no paramétrica.
Fórmula de correlación de Spearman:
donde,
r s = coeficiente de correlación de Spearman
d i = la diferencia en los rangos dados a los valores de las dos variables para cada elemento de los datos,
n = número total de observaciones
Ejemplo : en la correlación de rangos de Spearman, lo que hacemos es convertir los datos, incluso si son datos de valor real, a lo que llamamos rangos. Consideremos tomar 10 puntos de datos diferentes en la variable X 1 e Y 1 . Y entérate de sus respectivos rangos. Luego, averigüe el cuadrado de la diferencia en los rangos dados a los valores de las dos variables para cada elemento de los datos.
Número | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
---|---|---|---|---|---|---|---|---|---|---|
X 1 | 7 | 6 | 4 | 5 | 8 | 7 | 10 | 3 | 9 | 2 |
año 1 | 5 | 4 | 5 | 6 | 10 | 7 | 9 | 2 | 8 | 1 |
Rango X 1 | 6.5 | 5 | 3 | 4 | 8 | 6.5 | 10 | 2 | 9 | 1 |
Rango Y 1 | 4.5 | 3 | 4.5 | 6 | 10 | 7 | 9 | 2 | 8 | 1 |
re 2 | 4 | 4 | 2.25 | 4 | 4 | 0.25 | 1 | 0 | 1 | 0 |
Paso 1 : Encontrar rango-
- Rango X 1 : Entonces, lo que hemos hecho es observar todos los valores individuales de X 1 y asignarle un rango. Por ejemplo, el valor más bajo, en este caso, es 2 y se le asigna un rango 1, el siguiente valor más alto es 3 que se le asigna un rango 2 y así sucesivamente. Entonces, estamos clasificados todos estos puntos. Observe que el sexto y el primer valor están empatados. Entonces, obtienen el rango de 6.5 (la mitad de la mitad) porque hay un empate. De manera similar, si hay más de 2 valores que están empatados, tomamos todos estos rangos y los promediamos por la cantidad de puntos de datos que tienen valores iguales y, en consecuencia, debe dar el rango.
- Rango Y 1 : Del mismo modo, puede otorgar rango a los puntos de datos Y 1 de la misma manera.
Paso 2 : Calcule d 2 :
una vez que tenga el rango, calcule la diferencia en los rangos. Entonces, en este caso, la diferencia en el rango para el primer punto de datos es 2 y lo elevamos al cuadrado, de manera similar, tomamos la diferencia en el segundo punto de datos en los rangos entre X i e Y i que es 2 y lo elevamos al cuadrado y obtenemos 4. Entonces, así, hacemos la diferencia en los rangos y al elevarlo al cuadrado obtenemos lo que llamamos los valores finales de d al cuadrado. Sumamos los valores generales y luego calculamos el coeficiente de Spearman usando este valor en la fórmula anterior.
By putting the value of the overall sum of d2 and n value rho/rs = 1 - ((6 x 20.5) / 990) = 1 - (123 / 990) = 1 - 0.1242 = 0.88
Propiedades :
- r s toma un valor entre -1 (asociación negativa) y 1 (asociación positiva).
- r s = 0 significa que no hay asociación.
- Se puede utilizar cuando la asociación no es lineal.
- Se puede aplicar para variables ordinales.
Correlación de Spearman para los datos de
Anscombe: Los datos de Anscombe, también conocidos como el cuarteto de Anscombe, se componen de cuatro conjuntos de datos que tienen propiedades estadísticas simples casi idénticas, pero que parecen muy diferentes cuando se grafican. Cada conjunto de datos consta de once (x, y) puntos. Fueron construidos en 1973 por el estadístico Francis Anscombe para demostrar tanto la importancia de graficar los datos antes de analizarlos como el efecto de los valores atípicos en las propiedades estadísticas.
Esos 4 conjuntos de 11 puntos de datos se dan aquí. Descargue el archivo csv aquí.
Cuando trazamos esos puntos se ve así. Estoy considerando 3 conjuntos de 11 puntos de datos aquí.
Una breve explicación del diagrama anterior:
Entonces, si aplicamos el coeficiente de correlación de Spearman para cada uno de estos conjuntos de datos, encontramos que es casi idéntico, no importa si realmente lo aplica en un primer conjunto de datos (arriba a la izquierda) o en un segundo dato. conjunto (arriba a la derecha) o el tercer conjunto de datos (abajo a la izquierda). Entonces, lo que parece indicar es que si aplicamos la correlación de Spearman y encontramos el coeficiente de correlación razonablemente alto cercano a uno en este primer conjunto de datos (extremo superior izquierdo). El punto clave aquí es que no podemos concluir de inmediato que si el coeficiente de correlación de Spearman va a ser alto, entonces existe una relación lineal entre ellos, por ejemplo, en el segundo conjunto de datos (arriba a la derecha), esta es una relación no lineal y todavía da lugar a un valor razonablemente alto.
Publicación traducida automáticamente
Artículo escrito por AmiyaRanjanRout y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA