メインコンテンツへジャンプ

予測型最適化でクエリが高速化&TCO削減を自動で実現!

Unity Catalog マネージドテーブルでクエリ速度が最大20倍高速化、ストレージコストが半減になります。
Share this post

 

予測型最適化(Predictive Optimization, PO)は、データレイアウトをインテリジェントに最適化することで、Unity Catalogマネージドテーブルのパフォーマンスを向上させ、クエリ速度の大幅な改善とストレージコストの削減を実現します。一般提供開始以来、2,400社以上の顧客がPOを活用し、標準でデータレイアウトの自動最適化を実現しています。その成果は驚くべきものです。POは約14PBのデータを圧縮し、130PB以上のデータを効果的にクリーンアップ(バキューム)しました。この実績は、大規模なデータボリュームを効率的に管理・最適化できる能力を証明しています。

レイクハウスアーキテクチャにおける予測型最適化が、ストレージコストを2倍削減し、クエリパフォーマンスを最大20倍向上させる方法をご覧ください。

予測型最適化: レイクハウス向け初のデータインテリジェンスメンテナンスソリューション

Databricksの予測型最適化(Predictive Optimization)は、Unity Catalogとデータインテリジェンスプラットフォームを活用し、テーブル管理を自動化します。この革新的な機能は、現在以下の最適化をUnity Catalogマネージドテーブル向けに実行しています:

  • コンパクション – ファイルサイズを最適化し、効率的なデータ取得を可能にすることでクエリ性能を向上。
  • リキッドクラスタリング – 取り込まれるデータを段階的にクラスタリングし、最適なデータレイアウトと効率的なデータスキップを実現。
  • VACUUM – 不要なファイルをストレージから削除することでコストを削減。

これまで、これらの最適化機能は従来型データウェアハウスのクローズドなファイルフォーマットに限定されていました。予測型最適化は、オープンなテーブルフォーマットに対してテーブルメンテナンスを提供する初のマネージドソリューションとして、手作業で繰り返される最適化タスクを排除します。レイクハウスアーキテクチャ専用に設計されたPOは、データチームがテーブル最適化の負担から解放され、データからアクション可能な洞察を得ることに集中できるようにします。

AI駆動型のパフォーマンス向上機能は、クエリパターン、データレイアウト、テーブルプロパティ、パフォーマンス要因を分析し、最も効果的な最適化を特定します。予測型最適化は各操作を慎重に評価し、費用対効果の高いメリットを提供するものだけを実行します。

予測型最適化が顧客のワークロードに与えるパフォーマンス効果

典型的な顧客ワークロードを見てみましょう。顧客がデータをテーブルに取り込んだ後、POはそのデータに対するクエリパターンを学習し、テーブルに最適化を適用します。

以下では、予測型最適化がこれらのワークロードに与える影響について詳しく解説します。

クエリ速度の向上: クエリ遅延が20倍短縮!

予測最適化が有効化されたときのクエリパフォーマンスの20倍の改善を示すグラフ

選択的クエリは顧客のテーブルで20倍高速化され、大規模なテーブルスキャンは平均で68%改善されました。

このパフォーマンス向上は、予測型最適化がデータを最適化されたファイルサイズに保ちながら、新しいデータを段階的にクラスタリングすることで実現されています。顧客のテーブルはDelta Lakeのリキッドクラスタリングを使用して保存されており、データスキップを向上させるための最適化されたデータレイアウトを提供します。Liquid Clusteringは柔軟で革新的なデータ管理手法であり、データレイアウトに関する調整作業を簡素化し、最適なクエリパフォーマンスを得るための細かいチューニングが不要になります。

コスト削減:ストレージコストを2倍削減

予測最適化が有効になると、ストレージコストが2倍改善します。

 

予測型最適化(Predictive Optimization)は、顧客のテーブルでストレージコストを自動的に2倍削減し、手作業によるテーブルメンテナンスを不要にしました。例えば、POは不要なファイルをインテリジェントに検出してガベージコレクションを行い、コストを大幅に削減しながらストレージ効率を自動的に向上させます。

価値を最大化しながらTCO(総所有コスト)を最小化

グラフはDatabricks予測最適化のライフサイクルを示しています。テーブルデータとクエリパターンに基づくテレメトリーがモデル評価に使用され、最適なパフォーマンスを決定し、それらの最適化が実行されます。

 

今日から予測型最適化を有効にして、TCOを削減しましょう

これらのインテリジェンスと最適化機能は、取り込みコストのわずか5%未満で利用可能です。

今後の展望

私たちは、Unity Catalogマネージドテーブル向けの予測型最適化をさらに向上させるため、新機能を継続的に開発しています。

予測型最適化には、インテリジェントな統計収集機能とそのメンテナンスが追加されます。POでは、サポートされている書き込み操作中に統計が収集され、自動化されたANALYZEタスクを使用して更新されます。特にDelta統計では、最初の32列だけではなく、最適な32列を選択して統計を収集します。統計は、最適なクエリプランを生成し、ファイルスキッピングを可能にする重要な要素です。

インテリジェントな統計収集を備えたPOは、現在、限定公開のパブリックプレビュー中です。
登録をご希望の方は、こちらのフォームにご記入ください。

いますぐ始めましょう

すでにDatabricksアカウントをお持ちの場合は、アカウントコンソールの Settings > Feature enablement の「Predictive Optimization」の横にある「Enabled」を選択して、今すぐ始めてください。

スクリーンショットは、設定 > 機能有効化で予測最適化を有効にできる項目を示しています

ワンクリックで、予測型最適化のインテリジェンスエンジンがあなたのデータをより高速かつコスト効率の良いものに変え始めます。詳細はドキュメンテーションをご覧ください。

Databricksが初めての方へ:
2024年11月11日以降、Databricksは新規アカウントに予測型最適化をデフォルトで有効化しており、すべてのUnity Catalogマネージドテーブルで最適化が自動的に実行されるようになっています。

つまりどういうことか?
予測型最適化を有効にすれば、手間をかけることなくクエリ速度が向上し、総所有コスト(TCO)が削減されます!

 

Databricks 無料トライアル

関連記事

Predictive Optimization (予測最適化) の一般提供開始を発表!

Translation Review by saki.kitaoka Databricks Predictive Optimization (予測最適化) の一般提供開始をお知らせできることを嬉しく思います! この機能は、テーブルデータのレイアウトをインテリジェントに最適化し、クエリの高速化とストレージコストの削減を実現します。 Predictive Optimizationは Unity Catalog を活用し、データインテリジェンスエンジンによって最適なデータ操作を自動的に実行することで、サーバーレスインフラ上で動作します。 従来はデータチームが手動で管理していたメンテナンス操作を、 Databricks Data Intelligence Platform が自動化することで、管理の複雑さを軽減し、パフォーマンスとコスト効率を向上させます。 今すぐアカウントコンソールから Predictive...

リキッドクラスタリングの一般提供開始のお知らせ

Databricks データインテリジェンスプラットフォームで Delta Lake リキッドクラスタリングが一般提供されることをお知らせします。リキッドクラスタリングは、テーブル パーティショニングと ZORDER に代わる革新的なデータ管理手法であり、データ レイアウトを微調整することなく、 最適 なクエリ パフォーマンスを実現できます 。 リキッドクラスタリングは、 データ レイアウト関連の決定を大幅に簡素化し 、 データを書き換えずにクラスタリング キーを再定義する 柔軟性を提供します 。 これにより、時間の経過とともに分析ニーズに合わせてデータ レイアウトを進化させることができます。これは、...

統計の予測最適化を発表

統計の予測最適化のゲーテッドパブリックプレビューを発表できることを嬉しく思います。Data + AI Summitで発表された 予測最適化 ( Predictive Optimization ) は、最適化プロセスを効率化するためのAI駆動のアプローチとして一般提供されています。予測最適化は現在、 重要なデータ レイアウトとクリーンアップ タスクをサポートしており、ユーザーからの早期フィードバックでは、日常的なデータ メンテナンスを大幅に簡素化する効果が高く評価されています。 自動統計管理の追加により、予測最適化は次のような進歩を通じて顧客に価値を提供し、操作を簡素化します。 データスキップ統計のインテリジェントな選択により、列順序管理の必要性が排除されます クエリ最適化統計の自動収集により、データロード後にANALYZEを実行する必要がなくなります 収集された統計情報はクエリ実行戦略に役立ち、平均してパフォーマンスの向上とコストの削減につながります 統計の影響 最新の統計情報を利用することで、パフォーマンスと総
プラットフォームブログ一覧へ