Databricks SQLにおいてマテリアライズドビューとストリーミングテーブルが正式リリース!
Databricks SQL において、 マテリアライズドビュー (MV)と ストリーミングテーブル (STs)が AWS と Azure で正式リリースされました!ストリーミングテーブルは、クラウドストレージやメッセージバスといったソースから、SQL 数行でシンプルかつ増分でデータ取り込みが可能です。マテリアライズドビューは、クエリ結果を事前に計算し、増分で更新することで、ダッシュボードやクエリの実行速度を大幅に向上させます。この2つを組み合わせることで、データ取り込みから変換まで、SQL だけで効率的かつスケーラブルなデータパイプラインを作成できます。 このブログでは、これらのツールがアナリストやアナリティクスエンジニアにどのように力を与え、DBSQL ウェアハウス内でデータおよび分析アプリケーションをより効果的に提供できるようにするかについて詳しく説明します。また、MV と ST の新機能であるモニタリング、エラー対応、コスト追跡の強化についてもご紹介します。 データウェアハウスユーザーが直面する課題 デー
Delta Live Tablesパイプラインのためのコスト効率的で増分的なETLとサーバーレスコンピューティング
私たちは最近、ノートブック、ワークフロー、Delta Live Tables(DLT)パイプラインのサーバーレスコンピューティングの一般提供開始を 発表しました 。今日、DLTパイプラインで構築されたETLパイプラインが、サーバーレスコンピュートからどのように利益を得られるかを説明したいと思います。 DLTパイプライン は、シンプルで宣言的なフレームワークを使用して、コスト効率の良いストリーミングとバッチETLワークフローを簡単に構築できます。データの変換を定義し、DLTパイプラインはタスクのオーケストレーション、スケーリング、監視、データ品質、エラーハンドリングを自動的に管理します。 DLTパイプラインのサーバーレスコンピュートは、データ取り込みについては最大5倍のコストパフォーマンスを提供し、複雑な変換については最大98%のコスト節約を提供します。また、DLTクラシックコンピュートに比べて信頼性も向上します。この組み合わせにより、Databricks上で高速かつ信頼性の高いETLを大規模に実現します。このブロ
Lakehouse Monitoring 一般提供開始:インテリジェントなデータ品質のプロファイリング、診断、実施
Data and AI Summitで、我々は Databricks Lakehouse Monitoring の一般提供開始を発表しました。データとAIの監視に対する統一的なアプローチにより、 Databricks Data Intelligence Platform 内で直接プロファイルを作成し、診断し、品質を強制することが容易になります。これは直接 Unity Catalog 上に構築されており、Lakehouse Monitoring ( AWS | Azure )は追加のツールや複雑さを必要としません。ダウンストリームプロセスが影響を受ける前に品質問題を発見することで、組織はデータへのアクセスを民主化し、データへの信頼を回復することができます。 なぜデータとモデルの品質が重要なのか...
マテリアライズド・ビューによるLakeviewダッシュボードの高速化
このブログ記事では、Databricks SQL マテリアライズド・ビュー をLakeviewダッシュボードで使用して、ビジネスに新鮮なデータと洞察を提供する方法を紹介します。 先日、 Databricks Data Intelligence Platform におけるLakeviewダッシュボードのパブリックプレビューを 発表 しました。Lakeview のダッシュボードは、Databricksの顧客のためのビジュアライゼーションとレポーティング体験の作成において、大きな前進を意味します。 視覚化が大幅に改善され、共有や配布に最適化されたシンプルなデザイン体験を提供します。 Lakeview ダッシュボードは Databricks SQL (DBSQL) データウェアハウス上で実行されます。 DBSQLを使用すると、レガシーなクラウドデータウェアハウスの数分の一のコストで、選択したツールですべてのSQLおよびBIアプリケーションを大規模に実行できます。 マテリアライズド・ビューは、ビジネスに新鮮なデータを提供す
dbtとDatabricksを用いてコスパの良いリアルタイムデータ処理を行う
ビジネスが成長するにつれ、データ量はGBからTB(またはそれ以上)に拡大し、レイテンシー要求は数時間から数分(またはそれ以下)になり、ビジネスに新鮮な洞察を提供するためのコストはますます高くなります。これまでPythonやScalaのデータエンジニアは、このような需要に応えるためにストリーミングを利用し、新しいデータをリアルタイムで効率的に処理してきましたが、SQLベースのdbtパイプラインを拡張する必要があるアナリティクスエンジニアには、このような選択肢はありませんでした。 しかし今は違います!このブログでは、Databricks の新しいストリーミングテーブルとマテリアライズドビューを使用して、SQL と dbt のシンプルさで新鮮なリアルタイムのインサイトをビジネスに提供する方法を説明します。 背景 2023 Data + AI Summitでは、 Databricks SQLにストリーミングテーブルとマテリアライズドビューを導入 しました。この素晴らしい機能により、Databricks SQL ユーザーは
Databricks SQLのマテリアライズド・ビューとストリーミング・テーブルの紹介
翻訳:Junichi Maruyama. - Original Blog Link AWSとAzure上の Databricks SQL でマテリアライズド・ビューとストリーミング・テーブルが公開されたことをお知らせできることを嬉しく思います。ストリーミングテーブルは、クラウドストレージやメッセージキューからの増分インジェストを提供します。マテリアライズド・ビューは、新しいデータが到着すると自動的にインクリメンタルに更新されます。これら2つの機能を組み合わせることで、インフラストラクチャを必要としないデータパイプラインが実現し、セットアップが簡単で、新鮮なデータをビジネスに提供することができます。このブログポストでは、アナリストやアナリティクス・エンジニアがデータウェアハウスでデータとアナリティクス・アプリケーションをより効果的に提供するために、これらの新機能がどのように役立つかを探ります。 背景 データウェアハウスとデータエンジニアリングは、データ駆動型の組織にとって極めて重要である。データウェアハウスはアナリ
Delta Live Tables の一般提供開始を発表
Databricks は本日、 Delta Live Tables(DLT) の Amazon AWS と Microsoft Azure クラウドにおける一般公開、および Google Cloud におけるパブリックプレビューの提供開始を発表しました。このブログでは、DLT が大手企業のデータエンジニアやアナリストをどのように支援し、本番環境に対応したストリーミングとバッチパイプラインの簡単な構築や、大規模なインフラストラクチャの自動管理、および、新世代のデータ、分析、AI アプリケーションの提供に役立つかについて解説します。 レイクハウスにおけるシンプルなストリーミングとバッチ ETL ETL(抽出・変換・ロード)に対するストリーミング、バッチワークロードの処理は、分析、データサイエンス、機械学習ワークロードの基本的な取り組みです。企業が生み出す膨大なデータ量がこの傾向を加速させています。しかし、未加工の構造化されていないデータを、クリーンで文書化された信頼のおける情報に処理することは、ビジネスの知見を推進す