Pulizia dei dati in Python

Pulizia dei dati con Python Ottimizza la gestione delle informazioni

Pulizia dei dati in Python usando la libreria Panda

Scott Graham on Unsplash

Oggi ti mostrerò come implementare la pulizia dei dati utilizzando pandas.

Dati:

Il set di dati utilizzato in questa pubblicazione proviene da open-rice Hongkong

FAQ | OpenRice Hong Kong

www.openrice.com

E puoi trovare i dati grezzi qui:

https://raw.githubusercontent.com/Louis192/Data/main/open-rice.csv

Pandas è una libreria Python che può essere importata come pd in modo abbreviato.

Ci sono diversi modi o forme di pulizia dei dati in pandas, e oggi mi concentrerò solo su tre tracce.

Immagine di Autore

Il diagramma sopra illustra i tre modi di pulizia dei dati che implementerò oggi.

Esplora set di dati

import pandas as pd

df=pd.read_csv('data/open-rice.csv')df.head()
Primi 5 record del dataframe: foto dell'autore

Sopra, il set di dati viene importato in Jupyter Notebook e salvato in un dataframe di Pandas.

Sopra sono presenti i primi 5 campi, quindi quando digiti df. Head(), per impostazione predefinita vengono mostrate le prime 5 righe nel dataframe.

In pandas, un dataframe è una struttura bidimensionale etichettata. Un dataframe può essere paragonato a una tabella SQL o a un foglio di calcolo Excel.

df.columns
Nomi dei campi nel dataframe: foto dell'autore
df.info()