Limpieza de datos en R

En este artículo, repasaremos brevemente la limpieza de datos con su aplicación y su técnica para la implementación en el lenguaje de programación R.

Limpieza de datos en R

La limpieza de datos es el proceso para transformar datos sin procesar en datos consistentes que se pueden analizar fácilmente. Su objetivo es filtrar el contenido de los estados estadísticos en función de los datos, así como de su fiabilidad. Además, influye en las declaraciones estadísticas basadas en los datos y mejora la calidad de los datos y la productividad general.

Propósito de la limpieza de datos

Los siguientes son los diversos propósitos de la limpieza de datos:

  • Eliminar errores
  • Eliminar redundancia
  • Aumente la confiabilidad de los datos
  • Precisión de entrega
  • Garantice la consistencia
  • Asegurar la integridad
  • Estandarice su enfoque

Descripción general de una string típica de análisis de datos

Esta sección representa una descripción general de un análisis de datos típico. Cada rectángulo de la figura representa datos en un estado determinado, mientras que cada flecha representa las actividades necesarias para pasar de un estado a otro. El primer estado ( Datos sin procesar ) son los datos tal como llegan. Los datos sin procesar pueden carecer de encabezados, contener tipos de datos incorrectos, etiquetas de categoría incorrectas, codificación de caracteres desconocida o inesperada, etc. Una vez que se ha realizado este preprocesamiento, los datos pueden considerarse Datos técnicamente correctos . Es decir, en este estado, los datos se pueden leer en un marco de datos R, con los nombres, tipos y etiquetas correctos, sin más problemas. Sin embargo, esto no significa que los valores estén libres de errores o completos. Datos consistenteses la etapa donde los datos están listos para la inferencia estadística. Son los datos que la mayoría de las teorías estadísticas utilizan como punto de partida. 

 

Cómo limpiar datos en R

Aquí, esto implica varios pasos, ya que desde los datos sin procesar iniciales deben avanzar hacia los datos consistentes y altamente eficientes que están listos para implementar según los requisitos y producen resultados estadísticos altamente precisos y precisos. Los pasos varían de un dato a otro, ya que en este caso el usuario debe saber la fecha que está usando para los resultados. Como hay muchas características y síntomas comunes de datos desordenados que dependen totalmente de los datos utilizados por el usuario para el análisis.

Las características de los datos limpios incluyen datos:

  •   Libre de filas/valores duplicados
  •   Sin errores (sin faltas de ortografía)
  •   Relevante (caracteres especiales libres)
  •   El tipo de datos apropiado para el análisis.
  •   Libre de valores atípicos (o solo contiene valores atípicos que han sido identificados/entendidos)
  •   Sigue una estructura de » datos ordenados «

Síntomas comunes de datos desordenados:

  •   Caracteres especiales (por ejemplo, comas en valores numéricos)
  •   Valores numéricos almacenados como tipos de datos de texto/caracteres
  •   filas duplicadas
  •   faltas de ortografía
  •   imprecisiones
  •   espacio en blanco
  •   Datos perdidos
  •   Los ceros en lugar de los valores nulos varían.

Comencemos la implementación de limpieza de datos en R

Para esto, utilizaremos conjuntos de datos incorporados (conjuntos de datos de calidad del aire) que están disponibles en R. 

R

head(airquality)

Producción:

 

En el conjunto de datos anterior, podemos ver claramente el valor NA dentro de las columnas que generará el error o no producirá predicciones precisas para el modelo de aprendizaje automático.

Manejo del valor faltante en R

Para manejar el valor faltante, verificaremos las columnas de los conjuntos de datos, si encontramos algunos datos faltantes dentro de las columnas, esto genera los valores NA como salida, lo que puede no ser bueno para todos los modelos. Así que vamos a comprobarlo usando los métodos mean() .

R

mean(airquality$Solar.R)

Producción:

<NA>

Comprobando otra columna

R

mean(airquality$Ozone)

Producción:

<NA>

Comprobando otra columna

Aquí obtenemos el valor medio de las columnas de viento, lo que significa que no falta ningún valor en esta columna.

R

mean(airquality$Wind)

Producción:

9.95751633986928

Manejo de valores NA

Manejo del valor NA usando na.rm en ambas columnas.

R

mean(airquality$Solar.R, na.rm = TRUE)

Producción:

185.931506849315

También realizando la misma operación en otra columna.

R

mean(airquality$Ozone, na.rm = TRUE)

Producción:

42.1293103448276

Operación de limpieza de datos

Después de verificar el resumen del conjunto de datos, encontramos el número en NA en dos columnas (Ozono y Solar.R)

R

summary(airquality)

Producción:

 

Podemos obtener una imagen clara de los datos irregulares mediante un diagrama de caja.

R

boxplot(airquality)

Producción:

 

Eliminación de datos de irregularidades con métodos is.na() .

R

New_df = airquality
  
New_df$Ozone = ifelse(is.na(New_df$Ozone), 
                      median(New_df$Ozone,
                             na.rm = TRUE),
                      New_df$Ozone)

Producción:

 

Realizando la misma operación en otra columna.

R

New_df$Solar.R = ifelse(is.na(New_df$Solar.R),
                        median(New_df$Solar.R, 
                               na.rm = TRUE),
                        New_df$Solar.R)

Ahora podemos ver claramente que no tenemos ningún dato sucio usando métodos de resumen.

R

summary(New_df)

Producción:

 

Podemos ver claramente que no tenemos ningún dato faltante dentro del marco de datos.

R

head(New_df)

Producción:

 

Ahora nuestros valores atípicos de la gráfica de caja tampoco muestran errores.

R

boxplot(New_df)

 

Publicación traducida automáticamente

Artículo escrito por geetansh044 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *