La Databricks Data Intelligence Platform semplifica notevolmente lo streaming dei dati per offrire analisi, machine learning e applicazioni in tempo reale su un'unica piattaforma.
Consenti ai team di gestione dati di costruire carichi di lavoro per i dati in streaming con i linguaggi e gli strumenti che già conoscono. Semplifica lo sviluppo e la gestione operativa automatizzando gli aspetti di produzione associati alla costruzione e alla manutenzione di carichi di lavoro dei dati in tempo reale. Elimina i silos di dati grazie a un'unica piattaforma per dati in streaming e in batch.
Costruisci pipeline e applicazioni di streaming più velocemente
Usa i linguaggi e gli strumenti che già conosci con le API unificate per batch e streaming in SQL e Python. Sblocca analisi, ML e applicazioni in tempo reale per tutta l'organizzazione.
Semplifica le attività operative con strumenti automatizzati
Implementa e gestisci facilmente pipeline in tempo reale e applicazioni in produzione. Gli strumenti automatizzati semplificano l'orchestrazione delle attività, la tolleranza e il ripristino di guasti, le verifiche e i controlli automatici (checkpoint), l'ottimizzazione delle prestazioni e l'autoscalabilità.
Unifica la governance per tutti i dati in tempo reale su diversi cloud
Unity Catalog mette a disposizione del lakehouse un modello di governance omogeneo per tutti i dati in streaming e in batch, semplificando le modalità di scoperta, accesso e condivisione dei dati in tempo reale.
Come funziona?
Acquisizione e trasformazione di dati in streaming
Analisi, ML e applicazioni in tempo reale
Strumenti operativi automatizzati
Motore di elaborazione dei flussi di dati di nuova generazione
Governance e storage unificati
Acquisizione e trasformazione di dati in streaming
Rendi più semplici i processi di acquisizione dei dati ed ETL per pipeline di dati in streaming con Delta Live Tables. Sfrutta un semplice approccio dichiarativo all'ingegneria dei dati che consente ai team di lavorare con i linguaggi e gli strumenti che già conoscono, come SQL e Python. Le pipeline in batch e in streaming possono essere costruite ed eseguite in un unico luogo, con impostazioni di aggiornamento controllabili e automatizzate, risparmiando tempo e riducendo la complessità operativa. Indipendentemente dalla destinazione dei dati, la costruzione di pipeline di dati in streaming su Databricks Lakehouse Platform evita perdite di tempo nel passaggio da dati grezzi a dati puliti.
"Un numero maggiore di unità aziendali sta utilizzando la piattaforma in modalità self-service, cosa che prima non era possibile. Non potrò mai dire abbastanza dell'impatto positivo che Databricks ha avuto sulla Columbia".
- Lara Minor, responsabile senior dei dati aziendali, Columbia Sportswear
Analisi, ML e applicazioni in tempo reale
Lo streaming dei dati consente di migliorare immediatamente la precisione e la fruibilità di analisi e AI. L'azienda beneficia di informazioni approfondite in tempo reale grazie alle pipeline di dati in streaming. Quando esegui analisi SQL e report BI, addestri modelli ML o costruisci applicazioni operative in tempo reale, la tua azienda può contare sui dati più aggiornati per accedere ad approfondimenti in tempo reale, previsioni più accurate e decisioni più rapide, per restare un passo avanti alla concorrenza.
“Dobbiamo fornire i dati più aggiornati e precisi ai nostri partner, altrimenti perderanno fiducia nelle informazioni... Databricks Lakehouse ha reso estremamente semplice ciò che prima era impossibile.”- Guillermo Roldán, responsabile dell'architettura di LaLiga Tech
Strumenti operativi automatizzati
Nel processo di costruzione e implementazione di pipeline di dati in streaming, Databricks automatizza molti dei compiti operativi complessi richiesti per la produzione, come il dimensionamento automatico dell'infrastruttura sottostante, l'orchestrazione delle dipendenze della pipeline, la gestione di errori e il ripristino, l'ottimizzazione delle prestazioni e altro ancora.La funzione Enhanced Autoscaling ottimizza l'uso del cluster allocando automaticamente le risorse di calcolo per ogni carico di lavoro. Queste funzionalità, insieme al controllo automatico della qualità dei dati e alla gestione delle eccezioni, contribuiscono a ridurre il tempo impiegato nella costruzione e manutenzione degli strumenti operativi, consentendo di concentrarsi sul valore ricavato dai dati.
Motore di elaborazione dei flussi di dati di nuova generazione
Spark Structured Streaming è la tecnologia chiave che sblocca lo streaming di dati sulla Databricks Lakehouse Platform, mettendo a disposizione un'API unificata per l'elaborazione in batch e streaming. Databricks Lakehouse Platform è l'ambiente migliore in cui eseguire i carichi di lavoro di Apache Spark con un servizio gestito che vanta un record di disponibilità (uptime) del 99,95%. I carichi di lavoro Spark vengono ulteriormente accelerati da Photon, il motore lakehouse di nuova generazione compatibile con le API di Apache Spark, che offre un rapporto prestazioni-costo da record con scalabilità automatica a migliaia di nodi.
Governance e storage unificati
Eseguendo lo streaming dei dati su Databricks, si possono sfruttare i componenti fondamentali della Databricks Data Intelligence Platform: Unity Catalog e Delta Lake. I dati grezzi vengono ottimizzati con Delta Lake, l'unico framework di storage open-source progettato appositamente per dati in streaming e in batch. Unity Catalog offre una governance integrata e dettagliata per tutti gli asset di dati e AI, con un unico modello omogeneo di scoperta, accesso e condivisione dei dati su diversi cloud. Unity Catalog offre inoltre supporto nativo per Delta Sharing, il primo protocollo aperto per la condivisione semplice e sicura dei dati con altre organizzazioni.
Integrazioni
Assicura la massima flessibilità ai team di gestione dei dati utilizzando Partner Connect e un ecosistema di partner tecnologici per realizzare un'integrazione diretta con gli strumenti di streaming dei dati più diffusi.