Pulizia dei dati in Python
Pulizia dei dati con Python Ottimizza la gestione delle informazioni
Pulizia dei dati in Python usando la libreria Panda
Oggi ti mostrerò come implementare la pulizia dei dati utilizzando pandas.
Dati:
Il set di dati utilizzato in questa pubblicazione proviene da open-rice Hongkong
FAQ | OpenRice Hong Kong
OpenRice.com è la guida ai ristoranti più popolare di Hong Kong per aiutare le persone a trovare luoghi in cui mangiare basati sulle recensioni dei ristoranti…
www.openrice.com
- All’interno di COSP e USP Google ricerca nuovi metodi per migliorare il ragionamento nelle LLMs
- La scelta per le aziende tra modelli open-source e proprietari per implementare l’IA generativa
- GPT-4 Vs. Zephyr-7b-beta Quale Dovresti Usare?
E puoi trovare i dati grezzi qui:
https://raw.githubusercontent.com/Louis192/Data/main/open-rice.csv
Pandas è una libreria Python che può essere importata come pd in modo abbreviato.
Ci sono diversi modi o forme di pulizia dei dati in pandas, e oggi mi concentrerò solo su tre tracce.
Il diagramma sopra illustra i tre modi di pulizia dei dati che implementerò oggi.
Esplora set di dati
import pandas as pd
df=pd.read_csv('data/open-rice.csv')df.head()
Sopra, il set di dati viene importato in Jupyter Notebook e salvato in un dataframe di Pandas.
Sopra sono presenti i primi 5 campi, quindi quando digiti df. Head(), per impostazione predefinita vengono mostrate le prime 5 righe nel dataframe.
In pandas, un dataframe è una struttura bidimensionale etichettata. Un dataframe può essere paragonato a una tabella SQL o a un foglio di calcolo Excel.
df.columns
df.info()