Paesaggio di Ingegneria dei Dati nel Mondo Guidato dall’AI

Data Engineering Landscape in an AI-Driven World

L’AI generativa ha appena cominciato a catturare l’immaginazione degli ingegneri dei dati, quindi l’impatto finora è stato solo una frazione di ciò che sarà tra uno o due anni.

Uno dei maggiori impatti è stato l’adozione più ampia dell'”ingegneria rapida”, essenzialmente la capacità di sollecitare l’aiuto dell’IA per le attività legate alla codifica. Ho visto Andrej Karpathy scherzare su Twitter dicendo: “Il nuovo linguaggio di programmazione più caldo è l’inglese”.

L’IA generativa ha anche dato il via a una corsa all’oro con decine di aziende start-up che si affrettano a sviluppare un’IA in grado di interrogare il data warehouse e restituire una risposta intelligente alle domande ad hoc che i consumatori di dati pongono nella loro lingua naturale. “Ciò semplificherebbe radicalmente il processo di analisi self-service e democratizzerebbe ulteriormente i dati, ma sarà difficile risolverlo oltre la semplice “raccolta di metriche”, data la complessità delle pipeline dei dati per l’analisi più avanzata”, ha commentato il CTO di Monte Carlo Shane Murray.

“Quando valuto i candidati per il ruolo di ingegnere dei dati, cerco il loro track record di impatto e di partenza immediata”, ha sottolineato Murray. Potrebbe essere nel loro lavoro primario o contribuendo a progetti open-source. In entrambi i casi, non importa se c’eri, ma quale impatto hai fatto?

Se non ti piace il cambiamento, l’ingegneria dei dati non fa per te. “Poco in questo spazio è sfuggito alla reinvenzione”, ha osservato Murray. È chiaro che il processo di costruzione e mantenimento delle pipeline dei dati diventerà molto più facile, così come la capacità dei consumatori di dati di accedere e manipolare i dati.

Tuttavia, ciò che non è cambiato è il ciclo di vita dei dati. “Viene emesso, viene trasformato per un uso e quindi viene archiviato”, ha sottolineato Murray. “Mentre l’infrastruttura sottostante potrebbe cambiare e l’automazione sposterà il tempo e l’attenzione a destra o sinistra, gli ingegneri dei dati umani continueranno a svolgere un ruolo cruciale nell’estrarre valore dai dati, sia che si tratti di architettare sistemi di dati scalabili e affidabili o di ingegneri specialisti all’interno di un dominio scelto dei dati.”

Le squadre di piattaforma dati offrono opportunità

Ho scoperto che le squadre di piattaforma dati, che sono ormai abbastanza comuni in squadre di dati di varie dimensioni, sono ottimi posti per gli ingegneri dei dati per fare esperienza.

Murray ha spiegato ulteriormente: “Qui, puoi specializzarti in un dominio specifico di dati che è centrale per le operazioni aziendali, come i dati dei clienti o i dati comportamentali/produttivi. In questo ruolo, dovresti cercare di comprendere il problema end-to-end, dalla fonte all’uso analitico, poiché ti renderà un valore aggiunto per il team e l’azienda.”

“In alternativa, si potrebbe specializzarsi in una capacità specifica della piattaforma dati, come l’ingegneria della affidabilità, l’intelligenza aziendale, l’esperimentazione o l’ingegneria delle funzionalità”. Murray ha specificato. “Questi tipi di ruoli danno tipicamente una comprensione più ampia, ma meno profonda, di ciascun caso d’uso aziendale, ma possono essere un salto più facile da un ruolo di ingegneria del software a quello dei dati.”

Un altro percorso che vedo sempre più spesso per gli ingegneri dei dati è il ruolo di product manager dei dati, ha detto Murray. Se si sta sviluppando le competenze di ingegneria dei dati, ma si scopre di essere più attratti dal parlare con gli utenti finali, dall’articolare i problemi da risolvere e dal sintetizzare la visione e la roadmap per il team, allora un ruolo di gestione del prodotto potrebbe essere una prospettiva futura.

Le squadre di dati stanno iniziando a investire in questa competenza poiché passiamo a trattare “i dati come un prodotto”, che va dalle dashboard critiche e gli strumenti decisionali di supporto alle applicazioni di apprendimento automatico che sono cruciali per le operazioni aziendali o l’esperienza del cliente. “I grandi product manager dei dati avranno una comprensione di come costruire un prodotto dati affidabile e scalabile, ma applicheranno anche il pensiero del prodotto per guidare la visione, la roadmap e l’adozione”, ha confermato Murray.

Stack dati moderno

Lo stack dati moderno sta diventando rapidamente lo stack tecnologico dominante e di tendenza nel campo dell’ingegneria dei dati, ha affermato Murray. Questo stack ha un data warehouse o lake basato su cloud al centro e soluzioni complementari basate su cloud per l’ingestione, la trasformazione, l’orchestrazione, la visualizzazione e l’osservabilità dei dati.

È vantaggioso perché ha un tempo di attuazione rapido, è fondamentalmente più user-friendly rispetto alla generazione precedente di strumenti, è estendibile a una vasta gamma di casi d’uso analitici e di apprendimento automatico e può scalare alle dimensioni e alla complessità dei dati gestiti nel mondo di oggi.

“Le soluzioni esatte varieranno a seconda delle dimensioni dell’organizzazione e dei casi d’uso specifici dei dati, ma in generale lo stack dati moderno più comune è Snowflake, Fivetran, dbt, Airflow, Looker e Monte Carlo. Potrebbero anche esserci Atlan e Immuta per affrontare la catalogazione e l’accesso ai dati, rispettivamente”, ha spiegato Murray. “Le organizzazioni più grandi o quelle con più casi d’uso di apprendimento automatico avranno tipicamente stack dati che utilizzano maggiormente Databricks e Spark.”

Una potenziale interruzione

“L’era del moderno stack di dati inaugurata da Snowflake e Databricks non ha ancora raggiunto un punto di consolidamento, e già vediamo idee che potrebbero ulteriormente sconvolgere lo status quo delle moderne pipeline di dati”, ha riflettuto Murray. “All’orizzonte ci sono l’adozione più diffusa di dati in streaming, zero-ETL, condivisione di dati e un livello di metriche unificato”. Zero-ETL e condivisione di dati sono particolarmente interessanti poiché hanno il potenziale per semplificare la complessità delle moderne pipeline di dati, che hanno molteplici punti di integrazione e quindi di fallimento.

Scenario dei Lavori Tecnologici

Il mercato del lavoro nel settore tecnologico è destinato a subire un cambiamento significativo nel 2023, guidato dalla crescita dell’analisi dei big data. Secondo l’analisi di Dice Media, questo cambiamento avverrà poiché il mercato globale dell’analisi dei big data dovrebbe crescere ad un tasso impressionante del 30,7%, raggiungendo un valore stimato di $346,24 miliardi entro il 2030. Questa crescita si prevede creerà numerose opportunità per professionisti esperti nel campo, come ingegneri dei dati, analisti aziendali e analisti dei dati.

“Credo fermamente che i lavori di ingegneria dei dati non si limiteranno alla sola scrittura di codice, ma piuttosto coinvolgeranno maggiormente la comunicazione con gli stakeholder aziendali e la progettazione di sistemi end-to-end”, ha commentato Deexith Reddy, un esperto ingegnere dei dati e appassionato di open-source. “Pertanto, per garantire la sicurezza del lavoro, è necessario concentrarsi sia sulla vastità dell’analisi dei dati che sulla profondità dell’ingegneria dei dati”.

L’AI generativa è destinata a rendere il campo dell’ingegneria dei dati più competitivo. Tuttavia, durante la nostra chiamata, Reddy ha anche sottolineato che contribuire a progetti open-source sarà sempre vantaggioso per costruire un portafoglio solido, considerando gli avanzamenti tecnologici e le recenti scoperte dell’AI.

Reddy ha fornito ulteriori informazioni sul ruolo critico che gli ingegneri dei dati svolgono nell’incrementare le capacità di un’organizzazione utilizzando tecnologie open-source. Ad esempio, c’è stata una diffusa adozione di tecnologie open-source come Apache Spark, Apache Kafka e Elasticsearch tra gli ingegneri dei dati, così come Kubernetes tra i data scientist per le pratiche di scienza dei dati. Queste tecnologie OSS aiutano a soddisfare i requisiti computazionali per i carichi di lavoro di deep learning e machine learning, così come i flussi di lavoro MLOps.

Le aziende identificano e reclutano spesso i migliori contributori di progetti open-source come questi, coltivando un ambiente che valorizza e incoraggia i contributi open-source. Questo approccio aiuta a trattenere gli ingegneri dei dati esperti e consente alle organizzazioni di beneficiare della loro esperienza. Saqib Jan è uno scrittore e analista tecnologico con una passione per la scienza dei dati, l’automazione e il cloud computing.