En este artículo, discutiremos cómo usar la función de fluctuación en el lenguaje de programación R para diagramas de dispersión.
Scatterplots es un gráfico de visualización que utiliza coordenadas cartesianas para mostrar valores de normalmente dos variables para un conjunto de datos colocándolos en el eje x y el eje y. Esto es muy útil para comprender la relación entre las variables y descubrir tendencias en los datos. Pero si estamos visualizando la relación entre una variable continua y otra variable que es casi continua, el diagrama de dispersión no brinda una buena visualización ya que los puntos están confinados en grupos y no se pueden distinguir.
El archivo CSV utilizado en el ejemplo se puede descargar desde aquí .
Ejemplo: Diagrama de dispersión
R
# load data frame df <- read.csv("Sample_data.CSV") # plot scatter plot plot( df$var1, df$var2, col = 'green')
Producción:
Dado que aquí los datos en el eje y también son casi continuos, es muy difícil visualizar tendencias en datos agrupados. Para esta situación, usamos la función jitter. La función jitter() se usa para agregar ruido al vector numérico. La función jitter() toma un vector numérico y una cantidad de ruido para agregar y devuelve un vector numérico de la misma longitud pero con una cantidad de ruido agregada para romper empates.
Sintaxis:
fluctuación (numeric_vector, cantidad)
dónde,
- numeric_vector: determina el vector de entrada en el que se añadirá el ruido.
- cantidad: determina la cantidad de ruido que se agregará al vector de entrada.
Ejemplo: Diagrama de dispersión con una función de fluctuación.
R
# load data frame df <- read.csv("Sample_data.CSV") # add noise to dataframe using jitter # function df$var1 <- jitter(df$var1, 2) # plot scatter plot plot( df$var1, df$var2, col = 'green')
Producción:
La cantidad de ruido que se agrega al marco de datos también juega un papel muy importante en la visualización. Si agregamos una gran cantidad de ruido al conjunto de datos, afectará la integridad del propio conjunto de datos. La adición de ruido mediante la función jitter() solo es útil para fines de visualización. De lo contrario, agregar ruido afectará el cálculo estadístico y hará que el conjunto de datos no sea confiable.
Ejemplo: en este ejemplo, hemos agregado una gran cantidad de ruido y, por lo tanto, ha hecho que la trama sea muy aleatoria e inútil.
R
# load data frame df <- read.csv("Sample_data.CSV") # add noise to dataframe using jitter # function df$var1 <- jitter(df$var1, 20) # plot scatter plot plot( df$var1, df$var2, col = 'green')
Producción:
Publicación traducida automáticamente
Artículo escrito por mishrapriyank17 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA