Databricks SQL Year in Review（Part1）：AIに最適化されたパフォーマンスとサーバーレス・コンピューティング

AIを活用したデータウェアハウスの再発明

Databricks SQL Year in Review (Part I): AI-optimized Performance and Serverless Compute

公開日: January 18, 2024

によってジェレミー・ルーアレン、ガウラヴ・サラフ、モスタファ・モクタル、Kevin Clugage、ジョー・ハリスによる投稿

本記事は、2023年のDatabricks SQLの主な進歩分野を振り返るブログ・シリーズのパート1で、最初の記事ではパフォーマンスに焦点を当てています。データウェアハウスのパフォーマンスは、特に計算時間がコストを左右する現代のSaaSの世界では、より応答性の高いユーザーエクスペリエンスと優れた価格/パフォーマンスを実現するために重要です。私たちは、Databricks SQLのパフォーマンスを向上させるとともに、AIを活用することで手作業によるチューニングの必要性を低減させるために努力してきました。

AIに最適化されたパフォーマンス

最新のデータウェアハウスは、新しいデータ、より多くのユーザー、または新しいユースケースが入ってくるたびに、知識豊富な管理者が継続的に手動で調整する必要があるワークロード固有の構成で満たされています。これらの"ノブ" は、データの物理的な保存方法から、コンピュータの利用方法やスケーリング方法まで多岐にわたります。この1年間、私たちはDatabricksのデータインテリジェンスプラットフォームのビジョンに沿って、これらのパフォーマンスや管理上のつまみを取り除くためにAIを適用してきました：

サーバーレスコンピュート（Serverless Compute）は、Databricks SQLの基盤であり、コストを削減し、インフラストラクチャの管理よりもビジネスに最大の価値を提供することに集中できる、即時かつ弾力的なコンピュートで最高のパフォーマンスを提供します。
Predictive I/Oは、ニューラルネットワークを使用してインテリジェントにデータをプリフェッチすることにより、インデックスのようなパフォーマンスチューニングを排除します。また、パフォーマンスを犠牲にすることなく、マージ・オン・リード技術を使用してより高速な書き込みを実現します。初期の顧客は、ポイント・ルックアップの効率が35倍向上し、MERGE操作で2～6倍、DELETE操作で2～10倍という驚異的なパフォーマンス向上の恩恵を受けています。
自動データレイアウトは、クエリパターンに基づいてファイルサイズをインテリジェントに最適化し、自動的に最高のパフォーマンスを提供します。これにより、コストとパフォーマンスが自己管理されます。
リザルトキャッシュは、ワークスペース内のすべてのサーバーレスウェアハウスでローカルキャッシュと永続的なリモートキャッシュの2層システムを使用することで、クエリ結果のキャッシュを改善します。これらのキャッシュメカニズムは、クエリ要件と利用可能なリソースに基づいて自動的に管理されます。
Predictive Optimization（パブリックプレビュー、ブログ） Databricksは、OPTIMIZE、VACUUM、ANALYZE、CLUSTERINGコマンドを実行することで、ファイルサイズとクラスタリングをシームレスに最適化します。この機能により、Anker Innovationsはクエリ性能を2.2倍に高めると同時に、ストレージコストを50%削減しました。
リキッドクラスタリング（パブリックプレビュー、ブログ）：クラスタリングキーに基づき、新しいデータが入ってくると自動的にインテリジェントにデータレイアウトを調整します。これにより、発生する可能性のあるパーティショニングの過不足問題を回避し、Zオーダーと比較して最大2.5倍の高速クラスタリングを実現します。

このような技術革新により、ユーザーの複雑さやコストを増加させることなく、性能を大幅に向上させることが可能になりました。

ETLワークロードのクラス最高のパフォーマンスとコスト効率を継続的に実現

Databricks SQLは、ETLワークロードのパフォーマンスとコスト効率において、長い間トップランナーでした。 Predictive I/OのようなAIを活用した機能への投資は、データ量が増加し続ける中で、リーダーとしての地位を維持し、コスト優位性を高めるのに役立ちます。これは、Databricks SQLが業界をリードする競合製品に比べて最大9倍のコスト優位性を持つETLワークロードの処理において明らかです（以下のベンチマークを参照）。

業界をリードする同時実行性でBIに低レイテンシ・パフォーマンスを提供

Databricks SQLは、同時接続ユーザー数が少ない場合（< 100）には、業界をリードする競合他社に匹敵する低レイテンシのクエリパフォーマンスを発揮し、同時接続ユーザー数が1000人以上に増加すると、パフォーマンスが9倍向上します（以下のベンチマークを参照）。サーバーレス・コンピューティングはまた、必要なときに数秒で倉庫を開始するため、クラスタを常時稼働させたり、手動でシャットダウンしたりする必要がなく、大幅なコスト削減を実現します。ワークロードの需要が低下すると、SQL Serverlessは自動的にクラスタを縮小したり、ウェアハウスをシャットダウンしてコストを抑えます。

AIに最適化されたデータウェアハウスの進むべき道

Databricks SQLは、統一されたガバナンス、お気に入りのツールの豊富なエコシステム、ロックインを避けるためのオープンなフォーマットとAPIを備えています。 SQLワークロードをコスト最適化、ハイパフォーマンス、サーバーレス、シームレスに統合されたモダンアーキテクチャに移行したいのであれば、Databricks SQLがソリューションです。 Databricks の担当者に相談して、今すぐ概念実証を開始し、その利点を直接体験してください。 Databricks SQLがお客様のデータ革新のスピードアップに最適かどうか、私たちのチームがお手伝いいたします。

AI主導の最適化を使用してDatabricks SQLでクラス最高のパフォーマンスを達成する方法については、Reynold Xinの基調講演とDatabricks SQL Serverless Under the Hood: How We Use ML to Get the Best Price/Performancefrom the Data+AI Summitをご覧ください。

次は何ですか？

January 10, 2025/2分で読めます

Databricksにコレーション機能が登場！

January 31, 2025/1分未満

AIに最適化されたパフォーマンス

ETLワークロードのクラス最高のパフォーマンスとコスト効率を継続的に実現

業界をリードする同時実行性でBIに低レイテンシ・パフォーマンスを提供

AIに最適化されたデータウェアハウスの進むべき道

Databricksの投稿を見逃さないようにしましょう

Sign up

次は何ですか？

Databricksにコレーション機能が登場！

DeepSeek R1 on Databricks