Costruire una pipeline Batch Data con Athena e MySQL

Creare una pipeline Batch Data con Athena e MySQL

Un tutorial end-to-end per principianti

Foto di Redd F su Unsplash

In questa storia parlerò di uno dei modi più popolari per eseguire attività di trasformazione dei dati: l’elaborazione batch dei dati. Questo schema di progettazione per i pipeline dei dati diventa incredibilmente utile quando abbiamo bisogno di elaborare i dati a blocchi, rendendolo molto efficiente per i lavori di ETL che richiedono una pianificazione. Dimostrerò come si può ottenere costruendo un pipeline di trasformazione dei dati utilizzando MySQL e Athena. Utilizzeremo l’infrastruttura come codice per distribuirlo nel cloud.

Immagina di essere appena entrato in un’azienda come Data Engineer. La loro infrastruttura dati è moderna, orientata agli eventi, economica, flessibile e può scalare facilmente per rispondere alle crescenti risorse dati disponibili. Le fonti esterne di dati e i pipeline di dati nella tua piattaforma dati sono gestiti dal team di data engineering utilizzando un ambiente flessibile con integrazione GitHub CI/CD.

Come data engineer, devi creare un cruscotto di business intelligence che mostri la geografia dei flussi di ricavi aziendali come mostrato di seguito. I dati di pagamento grezzi sono memorizzati nel database del server (MySQL). Vuoi costruire un pipeline di elaborazione batch che estrae i dati da quel database quotidianamente, quindi utilizzare AWS S3 per archiviare i file di dati e Athena per elaborarli.

Cruscotto dei ricavi. Immagine dell'autore.

Pipeline dei dati in batch

Una pipeline dei dati può essere considerata una sequenza di passaggi di elaborazione dei dati. Grazie alle connessioni di flusso logico tra questi stage, ogni stage genera un output che serve come input per lo stage successivo.

C’è una pipeline dei dati ogni volta che c’è un’elaborazione dei dati tra i punti A e B.

Le pipeline dei dati possono essere diverse a causa della loro natura concettuale e logica. Ne ho parlato precedentemente qui [1]:

Pattern di progettazione per le pipeline dei dati

Scegliere la giusta architettura con esempi

towardsdatascience.com