Limpie los datos de la string en el marco de datos de Pandas dado

Como sabemos, en el mundo actual, todo tipo de empresas utilizan el análisis de datos. Mientras trabajamos con datos, podemos encontrarnos con cualquier tipo de problema que requiera un enfoque innovador para la evaluación. La mayoría de los Datos en la vida real contienen el nombre de entidades u otros sustantivos. Es posible que los nombres no estén en el formato adecuado. En esta publicación, vamos a discutir los enfoques para limpiar dichos datos.

Supongamos que estamos tratando con los datos de un sitio web basado en el comercio electrónico. El nombre de los productos no está en el formato adecuado. Formatee correctamente los datos de modo que no haya espacios en blanco al principio ni al final, y que las primeras letras de todos los productos sean mayúsculas.

Solución #1: muchas veces nos encontraremos con una situación en la que se nos pedirá que escribamos nuestra propia función personalizada adecuada para la tarea en cuestión.

# importing pandas as pd
import pandas as pd
  
# Create the dataframe
df = pd.DataFrame({'Date':['10/2/2011', '11/2/2011', '12/2/2011', '13/2/2011'],
                   'Product':[' UMbreLla', '  maTress', 'BaDmintoN ', 'Shuttle'],
                   'Updated_Price':[1250, 1450, 1550, 400],
                   'Discount':[10, 8, 15, 10]})
  
# Print the dataframe
print(df)

Producción :

Ahora escribiremos nuestra propia función personalizada para resolver este problema.

def Format_data(df):
    # iterate over all the rows
    for i in range(df.shape[0]):
  
        # reassign the values to the product column
        # we first strip the whitespaces using strip() function
        # then we capitalize the first letter using capitalize() function
        df.iat[i, 1]= df.iat[i, 1].strip().capitalize()
  
# Let's call the function
Format_data(df)
  
# Print the Dataframe
print(df)

Producción :

 
Solución #2: Ahora veremos un enfoque mejor y más eficiente usando DataFrame.apply()la función Pandas.

# importing pandas as pd
import pandas as pd
  
# Create the dataframe
df = pd.DataFrame({''Date':['10/2/2011', '11/2/2011', '12/2/2011', '13/2/2011'],
                   'Product':[' UMbreLla', '  maTress', 'BaDmintoN ', 'Shuttle'],
                   'Updated_Price':[1250, 1450, 1550, 400],
                   'Discount':[10, 8, 15, 10]})
  
# Print the dataframe
print(df)

Producción :

Usemos la DataFrame.apply()función Pandas para formatear los nombres de los productos en el formato correcto. Dentro de la DataFrame.apply()función Pandas usaremos la función lambda.

# Using the df.apply() function on product column
df['Product'] = df['Product'].apply(lambda x : x.strip().capitalize())
  
# Print the Dataframe
print(df)

Producción :

Publicación traducida automáticamente

Artículo escrito por Shubham__Ranjan y traducido por Barcelona Geeks. The original can be accessed here. Licence: CCBY-SA

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *