Wir freuen uns, bekannt zu geben, dass materialisierte Ansichten und Streaming-Tabellen jetzt in Databricks SQL auf AWS und Azure öffentlich verfügbar sind. Streaming-Tabellen ermöglichen die inkrementelle Aufnahme aus Cloud-Speichern und Nachrichtenwarteschlangen. Materialisierte Sichten werden automatisch und inkrementell aktualisiert, sobald neue Daten eintreffen. Zusammen ermöglichen diese beiden Fähigkeiten infrastrukturfreie Datenpipelines, die einfach einzurichten sind und dem Unternehmen aktuelle Daten liefern. In diesem Blogpost untersuchen wir, wie diese neuen Funktionen Analysten und Analytics-Ingenieure befähigen, Daten- und Analyseanwendungen im Data Warehouse effektiver bereitzustellen.
Data Warehousing und Data Engineering sind für jedes datengesteuerte Unternehmen von entscheidender Bedeutung. Data Warehouses dienen als primärer Ort für Analysen und Berichte, während Data Engineering die Erstellung von Datenpipelines, um Daten zu transformieren, umfasst.
Herkömmliche Data Warehouses sind jedoch nicht für die Streaming-Ingestion und -Transformation ausgelegt. Die Aufnahme großer Datenmengen mit geringer Latenz in einem herkömmlichen Data Warehouse ist teuer und komplex, weil ältere Data Warehouses für die Batch-Verarbeitung konzipiert wurden. Infolgedessen mussten Teams umständliche Lösungen implementieren, die Konfigurationen außerhalb des Warehouse erforderten und Cloud-Speicher als Zwischenspeicherort nutzten. Die Verwaltung dieser Systeme ist kostspielig, fehleranfällig und aufwendig in der Wartung.
Die Databricks Lakehouse Platform durchbricht dieses traditionelle Paradigma, indem sie eine einheitliche Lösung bietet. Delta-Live-Tables (DLT) ist der beste Ort für Data Engineering und Streaming, und Databricks SQL bietet ein bis zu 12x besseres Preis-Leistungs-Verhältnis für Analyse-Workloads auf bestehenden Data Lakes.
Darüber hinaus können jetzt Partner wie dbt in diese nativen Funktionen integriert werden, die wir später in dieser Ankündigung genauer beschreiben.
Data Warehouses sind der zentrale Speicherort für Analysen und die Datenbereitstellung für das interne Reporting über Business-Intelligence-Anwendungen (BI). Unternehmen stehen bei der Einführung von Data Warehouse vor mehreren Herausforderungen:
Streaming-Tabellen und materialisierte Sichten ermöglichen SQL-Analysten, Best Practices für das Data Engineering anzuwenden. Betrachten wir ein Beispiel für die kontinuierliche Erfassung neu eintreffender Dateien von einem S3-Speicherort und die Erstellung einer einfachen Berichtstabelle. Mit Databricks SQL kann der Analyst Dateien in S3 schnell ermitteln, als Vorschau anzeigen und in wenigen Minuten eine einfache ETL-Pipeline einrichten. Dazu sind nur wenige Codezeilen wie im folgenden Beispiel erforderlich:
1- Daten in S3 entdecken und als Vorschau anzeigen
2- Daten per Streaming aufnehmen
3- Daten mithilfe einer materialisierten Sicht inkrementell aggregieren
Materialized Views reduzieren die Kosten und verbessern die Abfragelatenz, indem sie langsame Abfragen und häufig verwendete Berechnungen vorab berechnen. Im Kontext des Data Engineering werden sie zur Transformation von Daten verwendet. Sie sind aber auch für Analystenteams im Data-Warehousing-Kontext wertvoll, da sie verwendet werden können, um (1) Endbenutzerabfragen und BI-Dashboards zu beschleunigen und (2) Daten sicher zu teilen. Aufbauend auf Delta-Live-Tables reduzieren MVs die Abfragelatenz, indem sie ansonsten langsame Abfragen und häufig verwendete Berechnungen vorab berechnen.

Vorteile von materialisierten Ansichten:
Die Ingestion in DBSQL erfolgt über Streaming-Tabellen (STs). Sie können sich STs als ideal vorstellen, um Daten in „Bronze“-Tabellen zu bringen. STs ermöglichen eine kontinuierliche, skalierbare Ingestion aus beliebigen Datenquellen, einschließlich Cloud-Speicher, Nachrichtenbussen (EventHub, Apache Kafka) und mehr.

Vorteile von Streaming-Tabellen:

Mit Databricks SQL können SQL- und Datenanalysten Daten einfach erfassen, bereinigen und anreichern, um die Geschäftsanforderungen zu erfüllen, ohne auf Tools von Drittanbietern angewiesen zu sein. Alles kann vollständig in SQL erledigt werden, was den Workflow optimiert.
Durch die Nutzung von materialisierten Ansichten und Streaming-Tabellen können Sie:

Adobe verfolgt einen fortschrittlichen Ansatz für KI und hat es sich zur Aufgabe gemacht, die Welt kreativer, produktiver und personalisierter zu machen – mit künstlicher Intelligenz als Co-Pilot, der den menschlichen Einfallsreichtum verstärkt. Als führender Preview-Kunde von materialisierten Ansichten in Databricks SQL haben sie enorme technische und geschäftliche Vorteile erzielt, die sie bei der Erfüllung dieser Mission unterstützen:
„Die Umstellung auf Materialized Views hat zu einer drastischen Verbesserung der Abfrageleistung geführt, wobei die Ausführungszeit von 8 Minuten auf nur 3 Sekunden gesunken ist. Dies ermöglicht unserem Team, effizienter zu arbeiten und schnellere Entscheidungen auf der Grundlage der aus den Daten gewonnenen Erkenntnisse zu treffen. Außerdem haben die zusätzlichen Kosteneinsparungen wirklich geholfen.“ – Karthik Venkatesan, Security Software Engineering Sr. Manager, Adobe

Danske Spil wurde 1948 gegründet, ist die nationale Lotterie Dänemarks und war einer unserer ersten Preview-Kunden für DB SQL Materialized Views. Søren Klein, Teamleiter Data Engineering, erläutert, was materialisierte Sichten für das Unternehmen so wertvoll macht:
„Bei Danske Spil verwenden wir Materialized Views, um die Performance unserer Website-Tracking-Daten zu beschleunigen. „Mit diesem Feature vermeiden wir die Erstellung unnötiger Tabellen und zusätzliche Komplexität und erhalten gleichzeitig die Geschwindigkeit einer persistierten Ansicht, die die Reporting-Lösung für Endbenutzer beschleunigt.“ — Søren Klein, Teamleiter für Data Engineering, Danske Spil
Databricks und dbt Labs arbeiten zusammen, um das Engineering von Echtzeitanalysen in der Lakehouse-Architektur zu vereinfachen. Die Kombination aus dem sehr beliebten Analytics-Engineering-Framework von dbt und der Databricks Lakehouse Platform bietet leistungsstarke Funktionen:
Data Warehousing und Data Engineering sind entscheidende Komponenten jedes datengesteuerten Unternehmens. Die Verwaltung separater Lösungen für jeden Aspekt ist jedoch kostspielig, fehleranfällig und wartungsintensiv. Die Databricks Lakehouse Platform integriert die besten Data-Engineering-Funktionen nativ in Databricks SQL und bietet SQL-Benutzern damit eine einheitliche Lösung. Darüber hinaus ermöglicht unsere Integration mit Partnern wie dbt unseren gemeinsamen Kunden, diese einzigartigen Funktionen zu nutzen, um schnellere Einblicke, Echtzeit-Analytics und optimierte Data-Engineering-Workflows zu liefern.
Sie können noch heute mit Databricks und Databricks SQL loslegen oder die Dokumentation für materialisierte Sichten und Streaming-Tabelleneinsehen.
(Dieser Blogbeitrag wurde mit KI-gestützten Tools übersetzt.) Originalbeitrag
Plataforma > Produtos > Anúncios
April 24, 2024/3 min de leitura

