Come identificare i dati critici per la tua attività

Identifying critical data for your business.

Passi pratici per identificare i modelli di dati e i dashboard critici per l’azienda e guidare la fiducia nei dati

Fonte: synq.io

Questo articolo è stato scritto congiuntamente da Lindsay Murphy

Non tutti i dati sono uguali. Se lavori in un team di dati, sai che se un certo dashboard si interrompe, lasci tutto e ti dedichi a risolvere il problema, mentre altre questioni possono attendere fino alla fine della settimana. C’è una buona ragione per questo. Il primo può significare che l’intera azienda sta perdendo dati, mentre il secondo potrebbe non avere un impatto significativo.

Tuttavia, tenere traccia di tutti i tuoi dati critici per l’azienda mentre espandi il tuo team e aumenti il numero di modelli di dati e dashboard può essere difficile. Ecco perché situazioni come queste accadono

“Non avevo idea che il reparto finanziario si stesse affidando a questo dashboard per il loro rapporto di audit mensile”

oppure

“Che diavolo, il nostro CEO ha segnalibro questo dashboard che ho creato in fretta come richiesta singola sei mesi fa”

In questo articolo esamineremo

  • Perché dovresti identificare i tuoi asset di dati critici per l’azienda
  • Come identificare i dashboard e i modelli di dati critici
  • Come creare una cultura di uptime per i dati critici

Perché dovresti identificare i tuoi dati critici per l’azienda

Quando hai mappato i tuoi asset critici per l’azienda, puoi avere una panoramica end-to-end di tutto il tuo stack che mostra quali modelli di dati o dashboard sono critici per l’azienda, dove vengono utilizzati e qual è il loro ultimo stato.

Questo può essere davvero utile in diversi modi:

  • Può diventare un pezzo importante di documentazione che aiuta a guidare l’allineamento in tutta l’azienda sui asset di dati più importanti
  • Crea fiducia nel team di dati per apportare modifiche e aggiornamenti a modelli o funzionalità esistenti, senza il timore di rompere qualcosa di critico a valle
  • Consente una decisione migliore, velocità e prioritizzazione quando si presentano problemi
  • Dà al tuo team il permesso di concentrare più energia sugli asset altamente critici e di lasciar correre alcune cose meno importanti
Esempio di visualizzazione di modelli di dati e dashboard importanti influenzati per un incidente. Fonte: synq.io

In questo articolo esamineremo come identificare i modelli di dati e i dashboard critici per l’azienda. Puoi applicare la maggior parte dei medesimi principi ad altri tipi di asset di dati che possono essere critici per la tua azienda.

Quali dati sono critici per l’azienda

I dati utilizzati per la presa di decisioni sono importanti e se i dati sono errati, possono portare a decisioni sbagliate e nel tempo alla perdita di fiducia nei dati. Ma le aziende orientate ai dati hanno dati veramente critici per l’azienda. Se questi dati sono errati o obsoleti, si ha un momento di panico e c’è un’immediata conseguenza per l’attività se non si risolve il problema, come ad esempio…

  • Diverse decine di migliaia di clienti possono ricevere la mail sbagliata in quanto lo strumento ETL inverso sta leggendo da un modello di dati obsoleto
  • Si sta riportando dati incorretti ai regolatori e il CEO può essere ritenuto personalmente responsabile
  • Il modello di previsione non funziona e centinaia di dipendenti del servizio clienti non possono ottenere i loro orari di lavoro per il turno successivo prima delle festività
Fonte: synq.io

Mappare questi casi d’uso richiede una profonda comprensione di come funziona la tua azienda, cosa è più importante per i tuoi stakeholder e quali potenziali implicazioni hanno i problemi.

Identificare i tuoi dashboard critici per l’azienda

Looker espone metadati sull’utilizzo del contenuto in Esplorazioni predefinite che puoi arricchire con i tuoi dati per renderli più utili. Negli esempi seguenti useremo Looker, ma la maggior parte degli strumenti BI moderni consente la creazione di report basati sull’utilizzo in qualche forma (Lightdash ha anche Analytics di utilizzo integrati, Tableau Cloud offre Admin Insights e la Discovery Database di Mode offre accesso ai dati sull’utilizzo, solo per citarne alcuni).

Importanza basata sul caso d’uso critico per l’attività aziendale

Quando parli con i tuoi leader aziendali puoi fare domande come:

  • Quali sono le tue priorità principali per i prossimi tre mesi?
  • Come misuri il successo per la tua area?
  • Quali sono state le questioni più critiche che hai avuto nell’ultimo anno?

I tuoi leader aziendali potrebbero non sapere che il motivo per cui i tempi di risposta medi del supporto clienti sono passati da due ore a 24 ore durante il periodo natalizio era dovuto a un errore di previsione dei dati upstream obsoleti, ma ti descriveranno l’esperienza dolorosa. Se puoi mappare le operazioni e i flussi di lavoro più critici e capire come vengono utilizzati i dati, inizierai a scoprire i dati veramente critici per l’attività aziendale.

Importanza basata sull’utilizzo del dashboard

I dashboard più importanti ovvi sono quelli che tutti in azienda utilizzano. La maggior parte di questi potresti già conoscerli, come “KPI aziendali”, “Dashboard di utilizzo del prodotto” o “Metriche del servizio clienti”. Ma a volte ti sorprenderai scoprendo che decine di persone si basano su dashboard di cui non avevi idea dell’esistenza.

Fonte: synq.io

Nella maggior parte dei casi dovresti filtrare per l’utilizzo recente per non includere dashboard che hanno avuto molti utenti sei mesi fa ma nessun utilizzo nell’ultimo mese. Ci sono eccezioni a questo come un dashboard OKR trimestrale che viene utilizzato solo ogni tre mesi.

Importanza basata sull’utilizzo del dashboard da parte del C-suite

Che ti piaccia o no, se il tuo CEO utilizza regolarmente un dashboard, è importante, anche se ci sono solo pochi altri utenti. Nel peggiore dei casi ti rendi conto che un membro del C-suite ha utilizzato un dashboard per mesi con dati errati senza che tu abbia idea dell’esistenza di questo dashboard.

“Abbiamo scoperto che il nostro CEO guardava con grande attenzione una email giornaliera con un rapporto sui ricavi, ma era filtrata in modo errato per includere un segmento specifico, per cui non corrispondeva al dashboard centralizzato dei KPI aziendali.” — Startup sanitaria canadese

Se hai un sistema di registrazione dei dipendenti, potresti facilmente ottenere identificatori per i titoli delle persone e arricchire i tuoi dati sull’utilizzo con questo. In caso contrario, puoi mantenere una mappatura manuale di questi e aggiornarli quando cambia il team esecutivo.

Fonte: synq.io

Anche se l’utilizzo per anzianità è altamente correlato all’importanza, la tua prima priorità dovrebbe essere la mappatura dei casi d’uso critici per l’attività aziendale. Ad esempio, una grande azienda fintech ha un dashboard utilizzato dal responsabile della segnalazione normativa per condividere informazioni critiche con i regolatori. L’accuratezza di questi dati può essere di maggiore importanza per il tuo CEO rispetto al dashboard che guarda ogni giorno.

Identificazione dei modelli di dati critici per l’attività aziendale

Con molti progetti dbt che superano le centinaia o migliaia di modelli di dati, è importante sapere quali sono quelli critici per l’attività aziendale in modo da sapere quando dovresti dare priorità a un esecuzione o a un test fallito, o costruire test extra robusti.

Modelli di dati con molte dipendenze downstream

Probabilmente hai un insieme di modelli di dati in cui se si rompono, tutto il resto viene ritardato o influenzato. Questi sono modelli che dipendono da tutto il resto, come utenti, ordini o transazioni.

Potresti già sapere quali sono quelli. In caso contrario, puoi anche utilizzare il file manifest.json che dbt produce come parte degli artefatti ad ogni invocazione e la proprietà depends_on per ogni nodo per ciclare attraverso tutti i tuoi modelli e contare il numero totale di modelli che dipendono da essi.

Nella maggior parte dei casi troverai un ridotto numero di modelli con un numero sproporzionato di dipendenze. Questi devono essere contrassegnati come critici.

Modelli di dati sulla via critica

I modelli di dati sono raramente critici da soli, ma più spesso a causa dell’importanza della loro dipendenza a valle, come ad esempio una dashboard importante o un modello di machine learning utilizzato per fornire raccomandazioni agli utenti sul tuo sito web

Tutti i modelli di dati a monte di una dashboard aziendale critica sono sulla via critica. Fonte: synq.io

Dopo aver svolto il duro lavoro di identificazione delle dipendenze a valle e dei casi d’uso critici per l’azienda, è possibile utilizzare le esposizioni in dbt per mappare manualmente queste dipendenze o utilizzare uno strumento che collega automaticamente la tua lineage tra gli strumenti.

Tutto ciò che si trova a monte di un asset critico deve essere contrassegnato come critico o come sulla via critica.

Come mantenere aggiornate le definizioni dei tuoi modelli di dati critici

Automatizza il più possibile l’etichettatura dei tuoi modelli di dati critici. Ad esempio:

  • Utilizza check-model-tags dal pacchetto pre-commit dbt per garantire che ogni modello di dati abbia un’etichetta di criticità
  • Crea uno script, o utilizza uno strumento, che aggiunge automaticamente un’etichetta critical-path a tutti i modelli che sono a monte di un asset aziendale critico

Definizione delle etichette di criticità

Non c’è una sola risposta giusta su come definire la criticità, ma dovresti farti due domande

  1. Quali sono i tuoi piani su come gestire diversamente i dati critici
  2. Come mantenere una definizione coerente di ciò che è critico in modo che tutti siano sulla stessa pagina

La maggior parte delle aziende utilizza un approccio a più livelli (ad esempio, bronzo, argento, oro) o un approccio binario (ad esempio, critico, non critico). Entrambe le opzioni possono funzionare e la soluzione migliore dipende dalla tua situazione.

Fonte: synq.io

Dovresti essere coerente nel modo in cui definisci la criticità e scriverlo come parte del tuo onboarding per i nuovi arrivati e evitare di posticiparlo. Ad esempio, la definizione di tiering potrebbe essere:

  • Tier 1 : Modello di dati utilizzato da un sistema di machine learning per determinare quali utenti sono autorizzati a registrarsi per il tuo prodotto
  • Tier 2 : Dashboard utilizzata dal CMO per la revisione settimanale del marketing
  • Tier 3 : Dashboard utilizzata dal tuo product manager per monitorare l’engagement mensile del prodotto

Se non aggiorni e contrassegni i tuoi asset in modo coerente, porta a una mancanza di fiducia e all’assunzione che non ti puoi basare sulla definizione.

Dove definire la criticità

Non c’è un solo posto giusto per definire la criticità, ma è più comunemente fatto o nel tool in cui si crea l’asset dati, o in un catalogo di dati, come Secoda.

Definire la criticità nello strumento in cui si crea l’asset dati

In dbt puoi mantenere le tue definizioni di criticità nel tuo file .yml insieme alla definizione del tuo modello di dati. Ciò ha diversi vantaggi, come la possibilità di imporre la criticità durante la fusione di un PR o di trasferire facilmente queste informazioni tra strumenti come un catalogo di dati o uno strumento di osservabilità

models: - name: fct_orders    description: Tutti gli ordini           meta:     criticality: alta

Esempio di definizione di criticità in un file .yml

In strumenti BI, un’opzione che rende trasparente per tutti è quella di etichettare il titolo di una dashboard con ad esempio “Tier 1” per indicare che è critica. Questi dati possono essere estratti e utilizzati in altri strumenti.

Fonte: synq.io

Definizione della criticità in un catalogo dati

In un catalogo dati è possibile accedere facilmente a tutti i dati dell’azienda e trovare risposte alle domande comuni cercando in tutta la pipeline, il che facilita l’allineamento sulle metriche e sui modelli.

Tagging critical data. Source: secoda.co

Agire in base alla criticità

La mappatura dei tuoi asset aziendali critici avrà successo solo se agirai in modo diverso a causa di essi. Ecco alcuni processi per costruire la qualità tramite il design.

Dashboard:

  • Le dashboard di livello 1 hanno bisogno di una revisione del codice prima di essere pubblicate in produzione
  • Le dashboard di livello 1 dovrebbero rispettare metriche di prestazioni specifiche in termini di tempo di caricamento e avere un layout visivo coerente
  • L’utilizzo delle dashboard di livello 1 dovrebbe essere monitorato mensilmente dal proprietario

Modelli di dati:

  • Le anomalie o i fallimenti sui modelli di dati critici devono essere affrontati entro lo stesso giorno
  • I problemi sui modelli di dati critici dovrebbero essere inviati a PagerDuty (un membro del team di on-call) in modo che possano essere rapidamente gestiti
  • I modelli di dati critici dovrebbero avere almeno test univoci e non nulli e un proprietario definito

Puoi leggere di più su come agire sui problemi dei dati nella nostra guida Progettazione di livelli di gravità per i problemi dei dati

Sommario

Se identifichi e mappi i tuoi asset di dati aziendali critici, puoi agire più velocemente su problemi importanti e essere intenzionale su dove costruire asset di dati di alta qualità.

  • Per identificare le dashboard importanti per l’azienda, inizia guardando i casi d’uso aziendali. Quindi considera i dati di utilizzo come il numero di utenti o se qualcuno della C-suite sta utilizzando una dashboard
  • I modelli di dati critici spesso hanno molte dipendenze downstream e/o dipendenze downstream critiche
  • Definisci la criticità, direttamente negli strumenti in cui crei gli asset di dati, o usa un catalogo dati
  • Sii esplicito su come agire sui problemi degli asset critici dell’azienda e definisci procedure per costruire la qualità tramite il design