Cómo encontrar y contar valores faltantes en R DataFrame

En este artículo, discutiremos cómo encontrar y contar los valores faltantes en el lenguaje de programación R.

Generalmente, los valores que faltan en los datos dados se representan con NA. En la programación R, los valores faltantes se pueden determinar mediante el método is.na(). Este método acepta la variable de datos como un parámetro y determina si el punto de datos es un valor faltante o no. Para encontrar la ubicación del valor faltante, use el método which() en el cual el método is.na() se pasa al método which(). Para contar el número total de valores faltantes, use el método sum() en el que se pasa el método is.na().

Veamos la sintaxis de los métodos que encuentran la ubicación y el recuento total de valores faltantes:

# encuentra la ubicación de los valores faltantes

cual(es.na(datos))

 

# encuentra el conteo de valores faltantes 

sum(es.na(datos))

Encuentre y cuente los valores faltantes de todo el marco de datos:

Para encontrar la ubicación de los valores faltantes y su conteo de todo el marco de datos, pase el nombre del marco de datos al método is.na(). Veamos un programa para encontrar y contar los valores faltantes de todo el marco de datos.

Ejemplo: 

En el siguiente código, creamos un marco de datos «estadísticas» que contiene datos de jugadores de críquet con pocos valores faltantes. Para determinar la ubicación y el recuento de valores faltantes en los datos proporcionados, usamos los métodos which(is.na(stats) ) y sum(is.na(stats)) .

R

# create a data frame 
stats <- data.frame(player=c('A', 'B', 'C', 'D'),
                 runs=c(100, 200, 408, NA),
                 wickets=c(17, 20, NA, 5))
  
# find location of missing values
print("Position of missing values -")
which(is.na(stats))
  
# count total missing values 
print("Count of total missing values - ")
sum(is.na(stats))

Producción

Position of missing values - 8 11
Count of total missing values - 2

Encuentre y cuente los valores faltantes en una columna de un marco de datos:

Para encontrar la ubicación de los valores faltantes y su conteo en una columna particular de un marco de datos, pase dataframeName$columnName al método is.na(). Veamos un programa para encontrar y contar los valores faltantes en la columna especificada de un marco de datos.

Ejemplo: 

En este código, encontraremos la ubicación y el recuento de valores faltantes en una determinada columna. Para encontrar los valores que faltan en una determinada columna, agregue $columnName al nombre del marco de datos en el método is.na() .

R

# create a data frame 
stats <- data.frame(player=c('A', 'B', 'C', 'D'),
                 runs=c(NA, 200, 408, NA),
                 wickets=c(17, 20, NA, 8))
  
print("Location of missing values in runs column")
which(is.na(stats$runs))
  
  
print("Count of missing values in wickets column")
sum(is.na(stats$wickets))

Producción

"Location of missing values in runs column"
1 4
"Count of missing values in wickets column"
1

Encuentre y cuente los valores faltantes en todas las columnas en el marco de datos:

También podemos encontrar los valores faltantes en el marco de datos en forma de columna. Reduce la complejidad de buscar valores faltantes en el marco de datos. Veamos un programa de ejemplo de muestra para encontrar y contar los valores faltantes en forma de columna.

Ejemplo:

En este código, encontraremos la posición y el recuento de valores faltantes en todas las columnas dadas en el marco de datos. Para encontrar los valores que faltan en todas las columnas, use la función apply con which y la función sum en el método is.na().

R

# create a data frame 
stats <- data.frame(player=c('A', 'B', 'C', 'D'),
                 runs=c(100, 200, 408, NA),
                 wickets=c(17, 20, NA, 5))
  
# find location of missing values column wise
print("Position of missing values by column wise")
sapply(stats, function(x) which(is.na(x)))
  
# count the missing values by column wise
print("Count of missing values by column wise")
sapply(stats, function(x) sum(is.na(x)))

Producción

"Position of missing values by column wise"
$player
integer(0)
$runs
4
$wickets
3
"Count of missing values by column wise"
player    runs wickets 
     0       1       1 

De la salida, podemos decir que-

  • la columna del jugador no tiene valores faltantes.
  • La columna de carreras tiene 1 valor faltante en la 4ª posición.
  • la columna de wickets tiene 1 valor faltante en la 3ra posición.

Publicación traducida automáticamente

Artículo escrito por akhilvasabhaktula03 y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *