Python es un excelente lenguaje para realizar análisis de datos, principalmente debido al fantástico ecosistema de paquetes de Python centrados en datos. Pandas es uno de esos paquetes y facilita mucho la importación y el análisis de datos.
Pandas sample()
se utiliza para generar una fila o columna aleatoria de muestra a partir del marco de datos de la persona que llama a la función.
Sintaxis:
DataFrame.sample(n=Ninguno, frac=Ninguno, replace=False, weights=Ninguno, random_state=Ninguno, axis=Ninguno)
Parámetros:
n: valor int, Número de filas aleatorias a generar.
frac: valor flotante, devuelve (valor flotante * longitud de los valores del marco de datos). frac no se puede usar con n.
replace: valor booleano, devolver muestra con reemplazo si es True.
random_state: valor int o numpy.random.RandomState, opcional. si se establece en un número entero en particular, devolverá las mismas filas que la muestra en cada iteración.
eje: 0 o ‘fila’ para Filas y 1 o ‘columna’ para Columnas.
Tipo de retorno: nuevo objeto del mismo tipo que el autor de la llamada.
Para descargar el archivo CSV utilizado, haga clic aquí.
Ejemplo n.º 1: fila aleatoria del marco de datos
En este ejemplo, el método .sample() genera dos filas aleatorias y las compara más tarde.
# importing pandas package import pandas as pd # making data frame from csv file data = pd.read_csv("employees.csv") # generating one row row1 = data.sample(n = 1) # display row1 # generating another row row2 = data.sample(n = 1) # display row2
Salida:
como se muestra en la imagen de salida, las dos filas de muestras aleatorias generadas son diferentes entre sí.
Ejemplo n.º 2: generación de una muestra del 25 % del marco de datos
En este ejemplo, se genera un 25 % de datos de muestra aleatorios a partir del marco de datos.
# importing pandas package import pandas as pd # making data frame from csv file data = pd.read_csv("employees.csv") # generating one row rows = data.sample(frac =.25) # checking if sample is 0.25 times data or not if (0.25*(len(data))== len(rows)): print( "Cool") print(len(data), len(rows)) # display rows
Salida:
como se muestra en la imagen de salida, la longitud de la muestra generada es el 25 % del marco de datos. También la muestra se genera aleatoriamente.
Publicación traducida automáticamente
Artículo escrito por Kartikaybhutani y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA