メインコンテンツへジャンプ

Databricks SQL Year in Review(Part1):AIに最適化されたパフォーマンスとサーバーレス・コンピューティング

AIを活用したデータウェアハウスの再発明
Share this post

本記事は、2023年のDatabricks SQLの主な進歩分野を振り返るブログ・シリーズのパート1で、最初の記事ではパフォーマンスに焦点を当てています。 データウェアハウスのパフォーマンスは、特に計算時間がコストを左右する現代のSaaSの世界では、より応答性の高いユーザーエクスペリエンスと優れた価格/パフォーマンスを実現するために重要です。 私たちは、Databricks SQLのパフォーマンスを向上させるとともに、AIを活用することで手作業によるチューニングの必要性を低減させるために努力してきました。

AIに最適化されたパフォーマンス

最新のデータウェアハウスは、新しいデータ、より多くのユーザー、または新しいユースケースが入ってくるたびに、知識豊富な管理者が継続的に手動で調整する必要があるワークロード固有の構成で満たされています。 これらの"ノブ" は、データの物理的な保存方法から、コンピ ュータの利用方法やスケーリング方法まで多岐にわたります。 この1年間、私たちはDatabricksのデータインテリジェンスプラットフォームのビジョンに沿って、これらのパフォーマンスや管理上のつまみを取り除くためにAIを適用してきました:

  1. サーバーレスコンピュート(Serverless Compute)は、Databricks SQLの基盤であり、コストを削減し、インフラストラクチャの管理よりもビジネスに最大の価値を提供することに集中できる、即時かつ弾力的なコンピュートで最高のパフォーマンスを提供します。
  2. Predictive I/O、ニューラルネットワークを使用してインテリジェントにデータをプリフェッチすることにより、インデックスのようなパフォーマンスチューニングを排除します。 また、パフォーマンスを犠牲にすることなく、マージ・オン・リード技術を使用してより高速な書き込みを実現します。 初期の顧客は、ポイント・ルックアップの効率が35倍向上し、MERGE操作で2~6倍、DELETE操作で2~10倍という驚異的なパフォーマンス向上の恩恵を受けています。
  3. 自動データレイアウトは、クエリパターンに基づいてファイルサイズをインテリジェントに最適化し、自動的に最高のパフォーマンスを提供します。 これにより、コストとパフォーマンスが自己管理されます。
  4. リザルトキャッシュは、ワークスペース内のすべてのサーバーレスウェアハウスでローカルキャッシュと永続的なリモートキャッシュの2層システムを使用することで、クエリ結果のキャッシュを改善します。 これらのキャッシュメカニズムは、クエリ要件と利用可能なリソースに基づいて自動的に管理されます。
  5. Predictive Optimization(パブリックプレビュー、ブログ) Databricksは、OPTIMIZE、VACUUM、ANALYZE、CLUSTERINGコマンドを実行することで、ファイルサイズとクラスタリングをシームレスに最適化します。 この機能により、Anker Innovationsはクエリ性能を2.2倍に高めると同時に、ストレージコストを50%削減しました。
  6. リキッドクラスタリング(パブリックプレビュー、ブログ):クラスタリングキーに基づき、新しいデータが入ってくると自動的にインテリジェントにデータレイアウトを調整します。 これにより、発生する可能性のあるパーティショニングの過不足問題を回避し、Zオーダーと比較して最大2.5倍の高速クラスタリングを実現します。

このような技術革新により、ユーザーの複雑さやコストを増加させることなく、性能を大幅に向上させることが可能になりました。

ETLワークロードのクラス最高のパフォーマンスとコスト効率を継続的に実現

Databricks SQLは、ETLワークロードのパフォーマンスとコスト効率において、長い間トップランナーでした。 Predictive I/OのようなAIを活用した機能への投資は、データ量が増加し続ける中で、リーダーとしての地位を維持し、コスト優位性を高めるのに役立ちます。 これは、Databricks SQLが業界をリードする競合製品に比べて最大9倍のコスト優位性を持つETLワークロードの処理において明らかです(以下のベンチマークを参照)。

ETLベンチマーク完了までの総コスト

業界をリードする同時実行性でBIに低レイテンシ・パフォーマンスを提供

Databricks SQLは、同時接続ユーザー数が少ない場合(< 100)には、業界をリードする競合他社に匹敵する低レイテンシのクエリパフォーマンスを発揮し、同時接続ユーザー数が1000人以上に増加すると、パフォーマンスが9倍向上します(以下のベンチマークを参照)。 サーバーレス・コンピューティングはまた、必要なときに数秒で倉庫を開始するため、クラスタを常時稼働させたり、手動でシャットダウンしたりする必要がなく、大幅なコスト削減を実現します。 ワークロードの需要が低下すると、SQL Serverlessは自動的にクラスタを縮小したり、ウェアハウスをシャットダウンしてコストを抑えます。

BIワークロードからのクエリの待ち時間の中央値

AIに最適化されたデータウェアハウスの進むべき道

Databricks SQLは、統一されたガバナンス、お気に入りのツールの豊富なエコシステム、ロックインを避けるためのオープンなフォーマットとAPIを備えています。 SQLワークロードをコスト最適化、ハイパフォーマンス、サーバーレス、シームレスに統合されたモダンアーキテクチャに移行したいのであれば、Databricks SQLがソリューションです。 Databricks の担当者に相談して、今すぐ概念実証を開始し、その利点を直接体験してください。 Databricks SQLがお客様のデータ革新のスピードアップに最適かどうか、私たちのチームがお手伝いいたします。

AI主導の最適化を使用してDatabricks SQLでクラス最高のパフォーマンスを達成する方法については、Reynold Xinの基調講演Databricks SQL Serverless Under the Hood: How We Use ML to Get the Best Price/Performancefrom the Data+AI Summitをご覧ください。

Databricks 無料トライアル

関連記事

一部の地域でDatabricks SQL Serverlessの一般利用開始を発表します!

Original: Announcing the General Availability of Databricks SQL Serverless ! 翻訳: saki.kitaoka 本日、AWSおよびAzureの一部地域でDatabricks SQLのサーバーレスコンピューティングが一般利用可能になったことを発表することを大変嬉しく思います! Databricks SQL (DB SQL) サーバーレスは、インスタントでエラスティックなコンピューティングによる最高のパフォーマンスを提供し、コストを削減し、インフラの管理ではなくビジネスへの最大の価値提供に注力できるようにします。GA(一般提供)により、Databricksからの最高レベルの安定性、サポート、エンタープライズ対応を、Databricks Lakehouse Platform上のミッションクリティカルなワークロードに対して期待することができます。 このブログ記事では、DB SQL...

Databricks SQLのキャッシングを理解する: UIキャッシュ、リザルトキャッシュ、ディスクキャッシュ

Original: Understanding Caching in Databricks SQL: UI, Result, and Disk Caches 翻訳: junichi.maruyama キャッシングは、同じデータを何度も再計算またはフェッチする必要性を回避することで、データウェアハウスシステムのパフォーマンスを向上させるために不可欠な技術です。Databricks SQLでは、キャッシングによってクエリの実行を大幅に高速化し、ウェアハウスの使用量を最小限に抑えることができるため、コストの削減とリソースの効率的な利用が可能になります。 この記事では、キャッシングの利点を探り、DBSQLの3種類のキャッシング:ユーザー インターフェイス キャッシュ、リザルトキャッシュ(ローカルおよびリモート)、ディスク キャッシュ(旧デルタ キャッシュ)を掘り下げて説明します。 キャッシングのメリット キャッシングは、データウェアハウスにおいて、以下のような多くの利点をもたらします: スピード...

Predictive I/O for Updatesのパブリックプレビューのお知らせ

Original Blog : Announcing the Public Preview of Predictive I/O for Updates 翻訳: junichi.maruyama 前回、 Predictive I/O と呼ばれる新技術により、CDWのお客様がノブなしで選択的読み取りを最大35倍まで改善できることをご紹介しました。本日は、もう一つの革新的な飛躍であるPredictive I/O for Updatesのパブリックプレビューを発表し、MERGE、UPDATE、DELETEのクエリパフォーマンスを最大10倍高速化することができるようになりました。 Databricksのお客様は、毎日1エクサバイト以上のデータを処理しており、50%以上のテーブルでMERGE、UPDATE、DELETEなどのデータ操作言語(DML)オペレーションを利用しています。このブログでは、Predictive I/Oが機械学習を使用してこの大規模なパフォーマンス向上を達成した方法を説明します。しかし、良い部分にスキップ

Predictive I/O for Readsの一般提供開始を発表

Original Blog : Announcing the General Availability of Predictive I/O for Reads 翻訳: junichi.maruyama 本日、 Databricks SQL (DB SQL) 向けのPredictive I/Oの一般提供を開始します:機械学習を利用した機能で、ポイントのルックアップをより速く、より安くすることができます。Predictive I/Oは、Databricksが大規模なAI/MLシステムを構築してきた長年の経験を活用し、追加のインデックスや高価なバックグラウンドサービスなしで、Lakehouseを最もスマートなデータウェアハウスにすることができます。実際、ポイント検索では、Predictive I/Oは、インデックスと最適化サービスのすべての利点を提供しますが、それらを維持するための複雑さとコストは必要ありません。...
プラットフォームブログ一覧へ