Costruire una pipeline Batch Data con Athena e MySQL
Creare una pipeline Batch Data con Athena e MySQL
Un tutorial end-to-end per principianti
In questa storia parlerò di uno dei modi più popolari per eseguire attività di trasformazione dei dati: l’elaborazione batch dei dati. Questo schema di progettazione per i pipeline dei dati diventa incredibilmente utile quando abbiamo bisogno di elaborare i dati a blocchi, rendendolo molto efficiente per i lavori di ETL che richiedono una pianificazione. Dimostrerò come si può ottenere costruendo un pipeline di trasformazione dei dati utilizzando MySQL e Athena. Utilizzeremo l’infrastruttura come codice per distribuirlo nel cloud.
Immagina di essere appena entrato in un’azienda come Data Engineer. La loro infrastruttura dati è moderna, orientata agli eventi, economica, flessibile e può scalare facilmente per rispondere alle crescenti risorse dati disponibili. Le fonti esterne di dati e i pipeline di dati nella tua piattaforma dati sono gestiti dal team di data engineering utilizzando un ambiente flessibile con integrazione GitHub CI/CD.
Come data engineer, devi creare un cruscotto di business intelligence che mostri la geografia dei flussi di ricavi aziendali come mostrato di seguito. I dati di pagamento grezzi sono memorizzati nel database del server (MySQL). Vuoi costruire un pipeline di elaborazione batch che estrae i dati da quel database quotidianamente, quindi utilizzare AWS S3 per archiviare i file di dati e Athena per elaborarli.
Pipeline dei dati in batch
Una pipeline dei dati può essere considerata una sequenza di passaggi di elaborazione dei dati. Grazie alle connessioni di flusso logico tra questi stage, ogni stage genera un output che serve come input per lo stage successivo.
- NVIDIA DGX Cloud e AI Enterprise ora disponibili su Oracle Cloud Marketplace
- Introduzione ai Database con SQL Corso gratuito di Harvard
- LlamaIndex vs LangChain Un’Analisi Comparativa
C’è una pipeline dei dati ogni volta che c’è un’elaborazione dei dati tra i punti A e B.
Le pipeline dei dati possono essere diverse a causa della loro natura concettuale e logica. Ne ho parlato precedentemente qui [1]:
Pattern di progettazione per le pipeline dei dati
Scegliere la giusta architettura con esempi
towardsdatascience.com