Comprendere la genealogia dei dati dalla fonte alla destinazione

Capire l'origine e il percorso dei dati dalla fonte alla destinazione

Sono andato ieri in un ristorante chiamato “Anthera”. Dopo aver mangiato il mio quarto o quinto pezzo di pollo al pepe, che, tra l’altro, era delizioso, sono rimasto stupito dalla nostra capacità di digerirlo e gustarlo. Il modo in cui usiamo la bocca per assaggiare, triturare, tritare e inghiottire il cibo, seguita dal nostro corpo che lo trasforma, ci aiuta nella digestione e filtra i rifiuti usando i reni – è un processo così ben definito, con ogni parte che ha una funzione importante. Questo mi fa pensare che nell’universo tutto sia fatto secondo un disegno piuttosto che una scelta;

Così come il nostro corpo ha un processo ben definito, un progetto di dati ha bisogno di un flusso chiaro – è qui che entra in gioco la Linea dei Dati. Il design e l’architettura giocano un ruolo importante nei progetti di dati. Lavorando su un progetto di streaming dati in tempo reale, anche una riduzione di latenza di 30 secondi può generare milioni di profitti per l’azienda. Tutto questo sarà possibile grazie a una Linea dei Dati adeguata (DL) – capendo e progettando il flusso dall’inizio alla fine, iniziamo scoprendo di più sulla Linea dei Dati.

Cos’è la Linea dei Dati?

La Linea dei Dati è il processo di comprendere, registrare e visualizzare i dati nel loro flusso dall’inizio alla fine. Dalle origini delle fonti di dati al consumo, si propone di mostrare il flusso completo dei dati. Questo include tutte le trasformazioni che i dati hanno subito lungo il percorso e come sono memorizzati. La Linea dei Dati aiuta a mantenere la qualità, la affidabilità e la coerenza dei dati.

  • Qualità dei dati: la Linea dei Dati aiuta a identificare e correggere eventuali incongruenze, errori o inesattezze che possono verificarsi durante il flusso dei dati, garantendo la qualità dei dati.
  • Affidabilità: riduce i rischi e le interruzioni causate dai cambiamenti continui dei processi e aiuta a ridurre gli effetti a catena causati dalle trasformazioni dei dati.
  • Coerenza: conoscendo gli spostamenti di dati in entrata e in uscita dalle nostre tabelle, la Linea dei Dati fornisce una mappa chiara di come i dati si muovono attraverso un sistema nel tempo, migliorando la coerenza.

Inoltre, aiuta ad ottimizzare i processi identificando punti critici, ridondanze o percorsi inefficienti. Insieme, la Linea dei Dati aiuta nella presa di decisioni informate durante le fasi di sviluppo.

Linea dei Dati

Tecniche ed Esempi di Linea dei Dati

Mentre la Linea dei Dati può essere realizzata semplicemente tramite una documentazione adeguata o diagrammi di flusso visivi, ci sono alcune tecniche avanzate che possono essere implementate nel processo –

  • Linea dei Dati basata su Pattern: Basandosi sui modelli riconoscibili nelle trasformazioni dei dati o nei flussi di dati in ingresso, la Linea dei Dati può essere eseguita utilizzando tali modelli. Ad esempio, identificando le trasformazioni dati coinvolte nelle operazioni legate alle informazioni demografiche.
  • Etichettatura dei Dati: Applicare etichette ai metadati ai dataset, alle colonne o agli elementi di dati singoli per categorizzarli e tracciarli durante l’intero ciclo di vita dei dati. Ad esempio, i dati dei clienti possono essere etichettati come “PII” (Personally Identifiable Information) o “Sensibili” per garantirne un trattamento adeguato e la conformità.
  • Linea dei Dati basata su Regole: Definire regole che catturano esplicitamente come i dati possono essere trasformati o utilizzati. Ad esempio, una regola per standardizzare i numeri di telefono dei clienti prima dell’uso in tutto il sistema.
  • Grafici di Dipendenza dei Dati: Rappresentare la Linea dei Dati come un grafico, con nodi come entità di dati e archi come trasformazioni o relazioni tra di loro.

Come cominciare con la Linea dei Dati?

Il Regolamento generale sulla protezione dei dati (GDPR), che è entrato in vigore nel maggio 2018, suggerisce alle organizzazioni di concentrarsi sulla Linea dei Dati. Con un sacco di vantaggi e molte tecniche a disposizione, per iniziare con la Linea dei Dati, ecco un breve riassunto –

  • Identificare gli Elementi di Dati: Contattare gli utenti aziendali e comprendere chiaramente il processo dall’inizio alla fine per identificare i punti critici per le funzioni aziendali.
  • Tracciare l’Origine: Tracciare l’origine dei dati o l’origine di un processo e comprenderla chiaramente.
  • Annotare le Fonti e i Collegamenti: Creare un flusso visivo per rappresentare le fonti di dati e gli elementi di collegamento che possono essere combinati.
  • Creare una Mappa: Creare mappe per ogni sistema e una mappa generale dell’intero scenario.

Oggi, sul mercato ci sono soluzioni complete di qualità dei dati che includono la data lineage. Questi strumenti possono facilmente ordinare e organizzare i tuoi dati – risparmiando tempo e denaro e portando a margini evidenti.

Data Lineage vs. Data Provenance vs. Data Governance

Mentre la Data Lineage è un registro di come i dati vengono trasformati e migrati dall’origine alla fine, la Data Provenance è la documentazione dell’origine, dell’accesso, della proprietà, della modifica e della storia di un elemento di dati. Questo processo aiuta a dimostrare l’integrità e l’accuratezza dei dati. E la Governance dei dati copre l’intero insieme di politiche e processi per la gestione della qualità dei dati, della privacy e della conformità.

La lineage e la provenance dei dati assicurano che tu sappia sempre da dove provengono i dati e come si sono spostati e trasformati fino alla destinazione. Nel frattempo, la governance assicura che la raccolta e la conservazione dei dati siano standardizzate e seguire un insieme predefinito di processi e best practice.

Conclusioni: Con le organizzazioni che subiscono spostamenti di dipendenti, licenziamenti e riorganizzazioni, la Data Lineage può agire come un supervisore che spiega la storia del progetto. Inoltre, quando la linea di provenienza dei dati, la provenienza e la governance vengono utilizzate insieme in modo corretto, aiutano molto a garantire l’affidabilità e la coerenza dei dati…

Assicurati di implementarlo se non è ancora stato fatto nel tuo lavoro…

Buono studio… Muttineni Sai Rohith Chiudo qui…