Siamo entusiasti di annunciare che le viste materializzate e le tabelle di streaming sono ora disponibili pubblicamente in Databricks SQL su AWS e Azure. Le tabelle di streaming forniscono l'ingestione incrementale dallo spazio di archiviazione cloud e dalle code di messaggi. Le viste materializzate vengono aggiornate automaticamente e in modo incrementale man mano che arrivano nuovi dati. Insieme, queste due funzionalità consentono di creare pipeline di dati senza infrastruttura, semplici da configurare e in grado di fornire dati aggiornati all'azienda. In questo post su un blog, esploreremo come queste nuove funzionalità consentono ad analisti e analytics engineer di fornire applicazioni di dati e di analitiche in modo più efficace nel data warehouse.
Il data warehousing e l'ingegneria dei dati sono fondamentali per qualsiasi organizzazione basata sui dati. I data warehouse fungono da posizione principale per le analitiche e il reporting, mentre l'ingegneria dei dati comporta la creazione di pipeline di dati per acquisire e trasformare i dati.
Tuttavia, i data warehouse tradizionali non sono progettati per l'acquisizione e la trasformazione in streaming. L'acquisizione di grandi volumi di dati a bassa latenza in un data warehouse tradizionale è costosa e complessa perché i data warehouse legacy erano progettati per l'elaborazione batch. Di conseguenza, i team hanno dovuto implementare soluzioni macchinose che richiedevano configurazioni esterne al warehouse e l'utilizzo dello storage cloud come posizione di staging intermedia. La gestione di questi sistemi è costosa, soggetta a errori e di complessa manutenzione.
La Databricks Lakehouse Platform stravolge questo paradigma tradizionale fornendo una soluzione unificata. Delta Live Tables (DLT) è lo strumento migliore per la data ingegneria e lo streaming, e Databricks SQL offre un rapporto prezzo/prestazioni fino a 12 volte migliore per i carichi di lavoro analitiche sui data lake esistenti.
Inoltre, ora partner come dbt possono integrarsi con queste funzionalità native, che descriveremo più in dettaglio nel corso di questo annuncio.
I data warehouse fungono da posizione principale per le analitiche e la distribuzione dei dati per la reportistica interna tramite applicazioni di Business Intelligence (BI). Le organizzazioni affrontano diverse sfide nell'adozione dei data warehouse:
Le tabelle di streaming e le viste materializzate forniscono agli analisti SQL le best practice di data engineering. Consideriamo un esempio di acquisizione continua di file appena arrivati da una posizione S3 e di preparazione di una semplice tabella di reporting. Con Databricks SQL, l'analista può individuare e visualizzare rapidamente in anteprima i file in S3 e configurare una semplice pipeline ETL in pochi minuti, utilizzando solo poche righe di codice come nell'esempio seguente:
1- Scopri e visualizza in anteprima i dati in S3
2- Ingestire i dati in modalità streaming
3- Aggregare i dati in modo incrementale utilizzando una vista materializzata
Le viste materializzate riducono i costi e migliorano la latenza delle query pre-calcolando le query lente e i calcoli utilizzati di frequente. In un contesto di data ingegneria, vengono utilizzate per la trasformazione dei dati. Ma sono preziose anche per i team di analisti in un contesto di data warehousing, perché possono essere utilizzate per (1) accelerare le query degli utenti finali e le dashboard di BI e (2) condividere i dati in modo sicuro. Basate su Delta Live Tables, le MV riducono la latenza delle query pre-calcolando query altrimenti lente e calcoli utilizzati di frequente.

Vantaggi delle viste materializzate:
L'acquisizione in DBSQL viene eseguita con tabelle di streaming (ST). Puoi considerare le ST come ideali per portare i dati nelle tabelle "bronze". Le ST abilitano l'acquisizione continua e scalabile da qualsiasi sorgente di dati, inclusi archivi cloud, bus di messaggi (EventHub, Apache Kafka) e altro ancora.

Vantaggi delle tabelle di streaming:

Databricks SQL consente agli analisti di dati e SQL di acquisire, pulire e arricchire i dati per soddisfare le esigenze aziendali senza dipendere da strumenti di terze parti. Tutto può essere fatto interamente in SQL, semplificando il flusso di lavoro.
Sfruttando le viste materializzate e le tabelle di streaming, puoi:

Adobe ha un approccio avanzato all'AI, con la missione di rendere il mondo più creativo, produttivo e personalizzato grazie all'intelligenza artificiale come co-pilota che amplifica l'ingegno umano. In qualità di cliente di punta della preview delle Viste Materializzate su Databricks SQL, ha riscontrato enormi vantaggi tecnici e di business che la aiutano a realizzare questa missione:
“La conversione in viste materializzate ha comportato un drastico miglioramento delle prestazioni delle query, con un tempo di esecuzione che è passato da 8 minuti a soli 3 secondi. Questo permette al nostro team di lavorare in modo più efficiente e di prendere decisioni più rapide sulla base delle informazioni dettagliate ottenute dai dati. Inoltre, i risparmi aggiuntivi sui costi sono stati davvero d'aiuto.” — Karthik Venkatesan, Security Software Engineering Sr. Manager, Adobe

Fondata nel 1948, Danske Spil, la lotteria nazionale danese, è stata uno dei nostri primi clienti ad accedere in anteprima alle viste materializzate di DB SQL. Søren Klein, Data Ingegneria Team Lead, condivide la sua prospettiva su ciò che rende le Materialized View così preziose per l'organizzazione:
“In Danske Spil usiamo le Viste Materializzate per accelerare le prestazioni dei nostri dati di tracciamento del sito web. Con questa funzionalità evitiamo la creazione di tabelle non necessarie e una maggiore complessità, ottenendo al contempo la velocità di una vista persistente che accelera la soluzione di reporting per l'utente finale.” — Søren Klein, Responsabile del team di Data ingegneria, Danske Spil
Databricks e dbt Labs collaborano per semplificare l'ingegneria dell'analisi in tempo reale sull'architettura lakehouse. La combinazione del popolare framework di ingegneria delle analitiche di dbt con la Databricks Lakehouse Platform fornisce potenti funzionalità:
Il data warehousing e l'ingegneria dei dati sono componenti fondamentali di qualsiasi azienda basata sui dati. Tuttavia, la gestione di soluzioni separate per ogni aspetto è costosa, soggetta a errori e di difficile manutenzione. La Databricks Lakehouse Platform porta le migliori funzionalità di ingegneria dei dati in modo nativo in Databricks SQL, offrendo agli utenti SQL una soluzione unificata. Inoltre, la nostra integrazione con partner come dbt consente ai nostri clienti comuni di sfruttare queste funzionalità uniche per fornire insight più rapidi, analisi in tempo reale e flussi di lavoro di data engineering semplificati.
Puoi iniziare oggi stesso con Databricks e Databricks SQL, oppure consultare la documentazione per le viste materializzate e le tabelle di streaming.
(Questo post sul blog è stato tradotto utilizzando strumenti basati sull'intelligenza artificiale) Post originale
Plataforma > Produtos > Anúncios
April 24, 2024/3 min de leitura

