Ottieni il massimo dal raggruppamento di Pandas
Ottenere il massimo dal raggruppamento di Pandas
Dai semplici esempi ad un esercizio pratico
![Foto di Alex Suprun su Unsplash.](https://ai.miximages.com/miro.medium.com/v2/resize:fit:640/format:webp/1*6Fcc7gweknneAS5D833zGg.jpeg)
La libreria pandas di Python include molti strumenti utili per interrogare e manipolare i dati, tra cui la potente funzione GroupBy. Questa funzione consente di raggruppare le osservazioni in base a diverse categorie e di aggregarle in vari modi.
All’inizio può sembrare confuso, ma questa guida ti mostrerà come utilizzare la funzione e le sue diverse funzionalità. La guida includerà:
- Un’introduzione a GroupBy.
- L’applicazione di GroupBy a dataset di esempio.
- Diverse tecniche di GroupBy.
- Esercizio pratico e applicazione.
Codice e Dati:
I dati e il notebook Jupyter con il codice Python completo utilizzati in questa guida sono disponibili sulla pagina GitHub collegata. Scarica o clona il repository per seguirli. Questa guida utilizza dati sintetici con nomi falsi generati dall’autore per questo articolo; i dati sono disponibili sulla pagina GitHub collegata.
Il codice richiede le seguenti librerie:
- Meta AI introduce AnyMAL Il futuro dei modelli di linguaggio multimodali che collegano testo, immagini, video, audio e dati dei sensori di movimento.
- Ricercatori al MIT e a Harvard svelano un rivoluzionario approccio computazionale basato sull’IA individuare in modo efficiente le migliori interventi genetici con meno esperimenti.
- Salesforce AI introduce GlueGen rivoluzionando i modelli di testo-immagine con miglioramenti efficienti dell’encoder e capacità multimodali.
# Gestione dei Datiimport pandas as pdimport numpy as np# Visualizzazione dei Datiimport plotly.express as px
1.1. Inizio — Caricamento dei Dati e Nozioni di base su GroupBy
Il primo passo è caricare un dataset:
# Carica i dati:df = pd.read_csv('StudentData.csv')df.head(3)
Otterrai il seguente dataframe con informazioni sugli studenti che hanno sostenuto una serie di test a scuola. Include la loro età, tre punteggi ai test, quando hanno tenuto la loro classe, la loro media voto, la lettera del voto e se hanno superato o meno:
![Screenshot dell'autore](https://ai.miximages.com/miro.medium.com/v2/resize:fit:640/format:webp/1*PoTgPVh1hfzleMglwW6G2w.png)
GroupBy di Pandas consente di suddividere il dataframe in elementi di interesse e di applicare una qualche funzione ad essi. Il modo più semplice per pensare a GroupBy è formulare una domanda che l’operazione GroupBy risolve. Un punto di partenza semplice è chiedersi quanti studenti hanno superato il corso:
df.groupby('CoursePass')['CoursePass'].count()