Ottieni il massimo dal raggruppamento di Pandas

Ottenere il massimo dal raggruppamento di Pandas

Dai semplici esempi ad un esercizio pratico

Foto di Alex Suprun su Unsplash.

La libreria pandas di Python include molti strumenti utili per interrogare e manipolare i dati, tra cui la potente funzione GroupBy. Questa funzione consente di raggruppare le osservazioni in base a diverse categorie e di aggregarle in vari modi.

All’inizio può sembrare confuso, ma questa guida ti mostrerà come utilizzare la funzione e le sue diverse funzionalità. La guida includerà:

  • Un’introduzione a GroupBy.
  • L’applicazione di GroupBy a dataset di esempio.
  • Diverse tecniche di GroupBy.
  • Esercizio pratico e applicazione.

Codice e Dati:

I dati e il notebook Jupyter con il codice Python completo utilizzati in questa guida sono disponibili sulla pagina GitHub collegata. Scarica o clona il repository per seguirli. Questa guida utilizza dati sintetici con nomi falsi generati dall’autore per questo articolo; i dati sono disponibili sulla pagina GitHub collegata.

Il codice richiede le seguenti librerie:

# Gestione dei Datiimport pandas as pdimport numpy as np# Visualizzazione dei Datiimport plotly.express as px

1.1. Inizio — Caricamento dei Dati e Nozioni di base su GroupBy

Il primo passo è caricare un dataset:

# Carica i dati:df = pd.read_csv('StudentData.csv')df.head(3)

Otterrai il seguente dataframe con informazioni sugli studenti che hanno sostenuto una serie di test a scuola. Include la loro età, tre punteggi ai test, quando hanno tenuto la loro classe, la loro media voto, la lettera del voto e se hanno superato o meno:

Screenshot dell'autore

GroupBy di Pandas consente di suddividere il dataframe in elementi di interesse e di applicare una qualche funzione ad essi. Il modo più semplice per pensare a GroupBy è formulare una domanda che l’operazione GroupBy risolve. Un punto di partenza semplice è chiedersi quanti studenti hanno superato il corso:

df.groupby('CoursePass')['CoursePass'].count()