Como sabemos, en el mundo actual, todo tipo de empresas utilizan el análisis de datos. Mientras trabajamos con datos, podemos encontrarnos con cualquier tipo de problema que requiera un enfoque innovador para la evaluación. La mayoría de los Datos en la vida real contienen el nombre de entidades u otros sustantivos. Es posible que los nombres no estén en el formato adecuado. En esta publicación, vamos a discutir los enfoques para limpiar dichos datos.
Supongamos que estamos tratando con los datos de un sitio web basado en el comercio electrónico. El nombre de los productos no está en el formato adecuado. Formatee correctamente los datos de modo que no haya espacios en blanco al principio ni al final, y que las primeras letras de todos los productos sean mayúsculas.
Solución #1: muchas veces nos encontraremos con una situación en la que se nos pedirá que escribamos nuestra propia función personalizada adecuada para la tarea en cuestión.
# importing pandas as pd import pandas as pd # Create the dataframe df = pd.DataFrame({'Date':['10/2/2011', '11/2/2011', '12/2/2011', '13/2/2011'], 'Product':[' UMbreLla', ' maTress', 'BaDmintoN ', 'Shuttle'], 'Updated_Price':[1250, 1450, 1550, 400], 'Discount':[10, 8, 15, 10]}) # Print the dataframe print(df)
Producción :
Ahora escribiremos nuestra propia función personalizada para resolver este problema.
def Format_data(df): # iterate over all the rows for i in range(df.shape[0]): # reassign the values to the product column # we first strip the whitespaces using strip() function # then we capitalize the first letter using capitalize() function df.iat[i, 1]= df.iat[i, 1].strip().capitalize() # Let's call the function Format_data(df) # Print the Dataframe print(df)
Producción :
Solución #2: Ahora veremos un enfoque mejor y más eficiente usando DataFrame.apply()
la función Pandas.
# importing pandas as pd import pandas as pd # Create the dataframe df = pd.DataFrame({''Date':['10/2/2011', '11/2/2011', '12/2/2011', '13/2/2011'], 'Product':[' UMbreLla', ' maTress', 'BaDmintoN ', 'Shuttle'], 'Updated_Price':[1250, 1450, 1550, 400], 'Discount':[10, 8, 15, 10]}) # Print the dataframe print(df)
Producción :
Usemos la DataFrame.apply()
función Pandas para formatear los nombres de los productos en el formato correcto. Dentro de la DataFrame.apply()
función Pandas usaremos la función lambda.
# Using the df.apply() function on product column df['Product'] = df['Product'].apply(lambda x : x.strip().capitalize()) # Print the Dataframe print(df)
Producción :
Publicación traducida automáticamente
Artículo escrito por Shubham__Ranjan y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA