Prova queste 3 funzioni meno conosciute di Pandas

Prova 3 funzioni meno note di Pandas.

Migliora le tue competenze di elaborazione dei dati utilizzando pandas

Foto di Balázs Kétyi su Unsplash

Se chiedi a qualsiasi data scientist esperto o ingegnere di machine learning quale sia la parte che richiede più tempo nel loro lavoro? Immagino che molti di loro risponderanno: la pre-elaborazione dei dati – una fase che pulisce i dati e li prepara per l’analisi dei dati sequenziali. La ragione è semplice: spazzatura dentro, spazzatura fuori. Cioè, se non prepari correttamente i dati, le tue “insight” sui dati difficilmente avranno un significato.

Nonostante la fase di pre-elaborazione dei dati possa essere piuttosto noiosa, Pandas fornisce tutte le funzioni essenziali che ci consentono di completare facilmente il nostro lavoro di pulizia dei dati. Tuttavia, a causa della sua versatilità, non tutti gli utenti conoscono tutte le funzionalità che la libreria pandas ha da offrire. In questo articolo, vorrei condividere 3 funzioni meno conosciute, ma molto utili, che puoi provare nei tuoi progetti di data science.

Senza ulteriori indugi, iniziamo.

Nota: Per fornire contesto, supponiamo che tu sia responsabile della gestione e analisi dei dati di un negozio di abbigliamento. Gli esempi mostrati di seguito si basano su questa ipotesi.

1. explode

La prima funzione che voglio menzionare è explode. Questa funzione è utile quando si lavora con dati in una colonna che contiene liste. Quando si utilizza explode con questa colonna, si creano più righe e si estrae ciascuno degli elementi della lista in righe separate.

Ecco un semplice esempio di codice per mostrarti come utilizzare la funzione explode. Supponiamo che tu abbia un dataframe che memorizza le informazioni sugli ordini. In questa tabella, hai una colonna (cioè la colonna order) che contiene liste di articoli, come mostrato di seguito:

order_data = {    'customer': ['John', 'Zoe', 'Mike'],    'order': [['Scarpe', 'Pantaloni', 'Cappelli'], ['Giacche', 'Shorts'], ['Cravatte', 'Felpa con cappuccio']]}order_df = pd.DataFrame(order_data)order_df

L’operazione necessaria è quella di suddividere ogni elemento della lista in una riga separata per ulteriori elaborazioni dei dati. Senza utilizzare explode, una soluzione ingenua potrebbe essere la seguente. Iteriamo semplicemente le righe originali…