Python | Marco de datos de Pandas.muestra()

Python es un excelente lenguaje para realizar análisis de datos, principalmente debido al fantástico ecosistema de paquetes de Python centrados en datos. Pandas es uno de esos paquetes y facilita mucho la importación y el análisis de datos.

Pandas sample()se utiliza para generar una fila o columna aleatoria de muestra a partir del marco de datos de la persona que llama a la función.

Sintaxis:

DataFrame.sample(n=Ninguno, frac=Ninguno, replace=False, weights=Ninguno, random_state=Ninguno, axis=Ninguno)

Parámetros:

n: valor int, Número de filas aleatorias a generar.
frac: valor flotante, devuelve (valor flotante * longitud de los valores del marco de datos). frac no se puede usar con n.
replace: valor booleano, devolver muestra con reemplazo si es True.
random_state: valor int o numpy.random.RandomState, opcional. si se establece en un número entero en particular, devolverá las mismas filas que la muestra en cada iteración.
eje: 0 o ‘fila’ para Filas y 1 o ‘columna’ para Columnas.

Tipo de retorno: nuevo objeto del mismo tipo que el autor de la llamada.

Para descargar el archivo CSV utilizado, haga clic aquí.

Ejemplo n.º 1: fila aleatoria del marco de datos

En este ejemplo, el método .sample() genera dos filas aleatorias y las compara más tarde.

# importing pandas package
import pandas as pd
  
# making data frame from csv file 
data = pd.read_csv("employees.csv")
  
# generating one row 
row1 = data.sample(n = 1)
  
# display
row1
  
# generating another row
row2 = data.sample(n = 1)
  
# display
row2

Salida:
como se muestra en la imagen de salida, las dos filas de muestras aleatorias generadas son diferentes entre sí.

 
Ejemplo n.º 2: generación de una muestra del 25 % del marco de datos
En este ejemplo, se genera un 25 % de datos de muestra aleatorios a partir del marco de datos.

# importing pandas package
import pandas as pd
  
# making data frame from csv file 
data = pd.read_csv("employees.csv")
  
# generating one row 
rows = data.sample(frac =.25)
  
# checking if sample is 0.25 times data or not
  
if (0.25*(len(data))== len(rows)):
    print( "Cool")
    print(len(data), len(rows))
  
# display
rows

Salida:
como se muestra en la imagen de salida, la longitud de la muestra generada es el 25 % del marco de datos. También la muestra se genera aleatoriamente.

Publicación traducida automáticamente

Artículo escrito por Kartikaybhutani y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *