Direkt zum Hauptinhalt

Blog: Introducing Materialized Views and Streaming Tables for Databricks SQL

Ermöglichen Sie Datenanalysten, aktuelle Daten vollständig in SQL zu erfassen, zu transformieren und bereitzustellen.

m

Wir freuen uns, bekannt zu geben, dass materialisierte Ansichten und Streaming-Tabellen jetzt in Databricks SQL auf AWS und Azure öffentlich verfügbar sind. Streaming-Tabellen ermöglichen die inkrementelle Aufnahme aus Cloud-Speichern und Nachrichtenwarteschlangen. Materialisierte Sichten werden automatisch und inkrementell aktualisiert, sobald neue Daten eintreffen. Zusammen ermöglichen diese beiden Fähigkeiten infrastrukturfreie Datenpipelines, die einfach einzurichten sind und dem Unternehmen aktuelle Daten liefern. In diesem Blogpost untersuchen wir, wie diese neuen Funktionen Analysten und Analytics-Ingenieure befähigen, Daten- und Analyseanwendungen im Data Warehouse effektiver bereitzustellen.

Hintergrund

Data Warehousing und Data Engineering sind für jedes datengesteuerte Unternehmen von entscheidender Bedeutung. Data Warehouses dienen als primärer Ort für Analysen und Berichte, während Data Engineering die Erstellung von Datenpipelines, um Daten zu transformieren, umfasst.

Herkömmliche Data Warehouses sind jedoch nicht für die Streaming-Ingestion und -Transformation ausgelegt. Die Aufnahme großer Datenmengen mit geringer Latenz in einem herkömmlichen Data Warehouse ist teuer und komplex, weil ältere Data Warehouses für die Batch-Verarbeitung konzipiert wurden. Infolgedessen mussten Teams umständliche Lösungen implementieren, die Konfigurationen außerhalb des Warehouse erforderten und Cloud-Speicher als Zwischenspeicherort nutzten. Die Verwaltung dieser Systeme ist kostspielig, fehleranfällig und aufwendig in der Wartung.

Die Databricks Lakehouse Platform durchbricht dieses traditionelle Paradigma, indem sie eine einheitliche Lösung bietet. Delta-Live-Tables (DLT) ist der beste Ort für Data Engineering und Streaming, und Databricks SQL bietet ein bis zu 12x besseres Preis-Leistungs-Verhältnis für Analyse-Workloads auf bestehenden Data Lakes.

Darüber hinaus können jetzt Partner wie dbt in diese nativen Funktionen integriert werden, die wir später in dieser Ankündigung genauer beschreiben.

Häufige Herausforderungen für Data-Warehouse-Benutzer

Data Warehouses sind der zentrale Speicherort für Analysen und die Datenbereitstellung für das interne Reporting über Business-Intelligence-Anwendungen (BI). Unternehmen stehen bei der Einführung von Data Warehouse vor mehreren Herausforderungen:

  • Self-Service: SQL-Analysten stehen oft vor der Herausforderung, zur Behebung von Datenproblemen von anderen Ressourcen und Tools abhängig zu sein, was das Tempo verlangsamt, mit dem Geschäftsanforderungen erfüllt werden können.
  • Langsame BI-Dashboards: BI-Dashboards, die mit großen Datenmengen erstellt werden, geben Ergebnisse tendenziell langsam zurück, was die Interaktivität und Benutzerfreundlichkeit bei der Beantwortung verschiedener Fragen beeinträchtigt.
  • Veraltete Daten: BI-Dashboards präsentieren aufgrund von ETL-Jobs, die nur nachts ausgeführt werden, oft veraltete Daten, wie z. B. die Daten vom Vortag.

Verwenden Sie SQL, um Daten ohne Tools von Drittanbietern zu erfassen und zu transformieren

Streaming-Tabellen und materialisierte Sichten ermöglichen SQL-Analysten, Best Practices für das Data Engineering anzuwenden. Betrachten wir ein Beispiel für die kontinuierliche Erfassung neu eintreffender Dateien von einem S3-Speicherort und die Erstellung einer einfachen Berichtstabelle. Mit Databricks SQL kann der Analyst Dateien in S3 schnell ermitteln, als Vorschau anzeigen und in wenigen Minuten eine einfache ETL-Pipeline einrichten. Dazu sind nur wenige Codezeilen wie im folgenden Beispiel erforderlich:

1- Daten in S3 entdecken und als Vorschau anzeigen

2- Daten per Streaming aufnehmen

3- Daten mithilfe einer materialisierten Sicht inkrementell aggregieren

Was sind materialisierte Ansichten?

Materialized Views reduzieren die Kosten und verbessern die Abfragelatenz, indem sie langsame Abfragen und häufig verwendete Berechnungen vorab berechnen. Im Kontext des Data Engineering werden sie zur Transformation von Daten verwendet. Sie sind aber auch für Analystenteams im Data-Warehousing-Kontext wertvoll, da sie verwendet werden können, um (1) Endbenutzerabfragen und BI-Dashboards zu beschleunigen und (2) Daten sicher zu teilen. Aufbauend auf Delta-Live-Tables reduzieren MVs die Abfragelatenz, indem sie ansonsten langsame Abfragen und häufig verwendete Berechnungen vorab berechnen.

Blog: Introducing Materialized Views and Streaming Tables for Databricks SQL

Vorteile von materialisierten Ansichten:

  • BI-Dashboards beschleunigen. Da MVs Daten vorab berechnen, sind die Abfragen von Endnutzern wesentlich schneller, da eine erneute Verarbeitung der Daten durch die direkte Abfrage der Basistabellen entfällt.
  • Datenverarbeitungskosten senken. Die Ergebnisse von MVs werden inkrementell aktualisiert, sodass die Ansicht bei Eintreffen neuer Daten nicht vollständig neu erstellt werden muss.
  • Verbessern Sie die Datenzugriffskontrolle für ein sicheres Teilen. Kontrollieren Sie durch die Steuerung des Zugriffs auf Basistabellen genauer, welche Daten für Nutzer sichtbar sind.

Was sind Streaming-Tabellen?

Die Ingestion in DBSQL erfolgt über Streaming-Tabellen (STs). Sie können sich STs als ideal vorstellen, um Daten in „Bronze“-Tabellen zu bringen. STs ermöglichen eine kontinuierliche, skalierbare Ingestion aus beliebigen Datenquellen, einschließlich Cloud-Speicher, Nachrichtenbussen (EventHub, Apache Kafka) und mehr.

Blog: Introducing Materialized Views and Streaming Tables for Databricks SQL

Vorteile von Streaming-Tabellen:

  • Echtzeit-Anwendungsfälle ermöglichen. Unterstützung von Echtzeit-Analysen/BI, machine Learning und operativen Anwendungsfällen mit Streaming-Daten.
  • Größere Skalierbarkeit. Große Datenmengen durch inkrementelle Verarbeitung anstelle von großen Batches effizienter verarbeiten.
  • Mehr Anwender befähigen. Die einfache SQL-Syntax macht Datenstreaming für alle Dateningenieure und Analysten zugänglich.

Kundenbericht: Wie Adobe und Danske Spil Dashboard-Abfragen mit materialisierten Ansichten beschleunigen

Blog: Introducing Materialized Views and Streaming Tables for Databricks SQL

Mit Databricks SQL können SQL- und Datenanalysten Daten einfach erfassen, bereinigen und anreichern, um die Geschäftsanforderungen zu erfüllen, ohne auf Tools von Drittanbietern angewiesen zu sein. Alles kann vollständig in SQL erledigt werden, was den Workflow optimiert.

Durch die Nutzung von materialisierten Ansichten und Streaming-Tabellen können Sie:

  • Stärken Sie Ihre Analysten: SQL- und Datenanalysten können Daten problemlos aufnehmen, bereinigen und anreichern, um die Anforderungen Ihres Unternehmens schnell zu erfüllen. Da alles vollständig in SQL erledigt werden kann, sind keine Tools von Drittanbietern erforderlich.
  • BI-Dashboards beschleunigen: Erstellen Sie MVs, um SQL-Analysen und BI-Berichte zu beschleunigen, indem Sie die Ergebnisse im Voraus berechnen.
  • Umstieg auf Echtzeitanalysen: Kombinieren Sie MVs mit Streaming-Tabellen, um inkrementelle Datenpipelines für Echtzeit-Anwendungsfälle zu erstellen. Sie können Streaming-Datenpipelines für die direkte Aufnahme und Transformationen von Daten im Databricks SQL warehouse einrichten.

Adobe verfolgt einen fortschrittlichen Ansatz für KI und hat es sich zur Aufgabe gemacht, die Welt kreativer, produktiver und personalisierter zu machen – mit künstlicher Intelligenz als Co-Pilot, der den menschlichen Einfallsreichtum verstärkt. Als führender Preview-Kunde von materialisierten Ansichten in Databricks SQL haben sie enorme technische und geschäftliche Vorteile erzielt, die sie bei der Erfüllung dieser Mission unterstützen:

„Die Umstellung auf Materialized Views hat zu einer drastischen Verbesserung der Abfrageleistung geführt, wobei die Ausführungszeit von 8 Minuten auf nur 3 Sekunden gesunken ist. Dies ermöglicht unserem Team, effizienter zu arbeiten und schnellere Entscheidungen auf der Grundlage der aus den Daten gewonnenen Erkenntnisse zu treffen. Außerdem haben die zusätzlichen Kosteneinsparungen wirklich geholfen.“ – Karthik Venkatesan, Security Software Engineering Sr. Manager, Adobe

Danske Spil wurde 1948 gegründet, ist die nationale Lotterie Dänemarks und war einer unserer ersten Preview-Kunden für DB SQL Materialized Views. Søren Klein, Teamleiter Data Engineering, erläutert, was materialisierte Sichten für das Unternehmen so wertvoll macht:

„Bei Danske Spil verwenden wir Materialized Views, um die Performance unserer Website-Tracking-Daten zu beschleunigen. „Mit diesem Feature vermeiden wir die Erstellung unnötiger Tabellen und zusätzliche Komplexität und erhalten gleichzeitig die Geschwindigkeit einer persistierten Ansicht, die die Reporting-Lösung für Endbenutzer beschleunigt.“ — Søren Klein, Teamleiter für Data Engineering, Danske Spil

Einfache Streaming-Ingestion und Transformation mit dbt

Databricks und dbt Labs arbeiten zusammen, um das Engineering von Echtzeitanalysen in der Lakehouse-Architektur zu vereinfachen. Die Kombination aus dem sehr beliebten Analytics-Engineering-Framework von dbt und der Databricks Lakehouse Platform bietet leistungsstarke Funktionen:

  • dbt + Streaming-Tabellen: Die Streaming-Ingestion aus beliebigen Quellen ist jetzt in dbt-Projekte integriert. Mithilfe von SQL können Analytics Engineers Cloud-/Streaming-Daten direkt in ihren dbt-Pipelines definieren und erfassen.
  • dbt + Materialisierte Ansichten: Der Aufbau effizienter Pipelines wird mit dbt einfacher, da die leistungsstarken inkrementellen Refresh-Funktionen von Databricks genutzt werden. Benutzer können dbt verwenden, um Pipelines zu erstellen und auszuführen, die auf MVs basieren, und so die Infrastrukturkosten durch effiziente, inkrementelle Berechnungen senken.

Wichtigste Erkenntnisse

Data Warehousing und Data Engineering sind entscheidende Komponenten jedes datengesteuerten Unternehmens. Die Verwaltung separater Lösungen für jeden Aspekt ist jedoch kostspielig, fehleranfällig und wartungsintensiv. Die Databricks Lakehouse Platform integriert die besten Data-Engineering-Funktionen nativ in Databricks SQL und bietet SQL-Benutzern damit eine einheitliche Lösung. Darüber hinaus ermöglicht unsere Integration mit Partnern wie dbt unseren gemeinsamen Kunden, diese einzigartigen Funktionen zu nutzen, um schnellere Einblicke, Echtzeit-Analytics und optimierte Data-Engineering-Workflows zu liefern.

Sie können noch heute mit Databricks und Databricks SQL loslegen oder die Dokumentation für materialisierte Sichten und Streaming-Tabelleneinsehen.

 

(Dieser Blogbeitrag wurde mit KI-gestützten Tools übersetzt.) Originalbeitrag

Verpassen Sie keinen Beitrag von Databricks

Abonnieren Sie unseren Blog und erhalten Sie die neuesten Beiträge direkt in Ihren Posteingang.

Was kommt als Nächstes?

Data Warehousing

June 28, 2023/6 min de leitura

Novidade no Unity Catalog: Lakehouse Federation

Social Card

Plataforma > Produtos > Anúncios

April 24, 2024/3 min de leitura

Anunciando a disponibilidade geral de notebooks Databricks em SQL Warehouses