予測型最適化(Predictive Optimization, PO)は、データレイアウトをインテリジェントに最適化することで、Unity Catalogマネージドテーブルのパフォーマンスを向上させ、クエリ速度の大幅な改善とストレージコストの削減を実現します。一般提供開始以来、2,400社以上の顧客がPOを活用し、標準でデータレイアウトの自動最適化を実現しています。その成果は驚くべきものです。POは約14PBのデータを圧縮し、130PB以上のデータを効果的にクリーンアップ(バキューム)しました。この実績は、大規模なデータボリュームを効率的に管理・最適化できる能力を証明しています。
レイクハウスアーキテクチャにおける予測型最適化が、ストレージコストを2倍削減し、クエリパフォーマンスを最大20倍向上させる方法をご覧ください。
予測型最適化: レイクハウス向け初のデータインテリジェンスメンテナンスソリューション
Databricksの予測型最適化(Predictive Optimization)は、Unity Catalogとデータインテリジェンスプラットフォームを活用し、テーブル管理を自動化します。この革新的な機能は、現在以下の最適化をUnity Catalogマネージドテーブル向けに実行しています:
- コンパクション – ファイルサイズを最適化し、効率的なデータ取得を可能にすることでクエリ性能を向上。
- リキッドクラスタリング – 取り込まれるデータを段階的にクラスタリングし、最適なデータレイアウトと効率的なデータスキップを実現。
- VACUUM – 不要なファイルをストレージから削除することでコストを削減。
これまで、これらの最適化機能は従来型データウェアハウスのクローズドなファイルフォーマットに限定されていました。予測型最適化は、オープンなテーブルフォーマットに対してテーブルメンテナンスを提供する初のマネージドソリューションとして、手作業で繰り返される最適化タスクを排除します。レイクハウスアーキテクチャ専用に設計されたPOは、データチームがテーブル最適化の負担から解放され、データからアクション可能な洞察を得ることに集中できるようにします。
AI駆動型のパフォーマンス向上機能は、クエリパターン、データレイアウト、テーブルプロパティ、パフォーマンス要因を分析し、最も効果的な最適化を特定します。予測型最適化は各操作を慎重に評価し、費用対効果の高いメリットを提供するものだけを実行します。
予測型最適化が顧客のワークロードに与えるパフォーマンス効果
典型的な顧客ワークロードを見てみましょう。顧客がデータをテーブルに取り込んだ後、POはそのデータに対するクエリパターンを学習し、テーブルに最適化を適用します。
以下では、予測型最適化がこれらのワークロードに与える影響について詳しく解説します。
クエリ速度の向上: クエリ遅延が20倍短縮!
選択的クエリは顧客のテーブルで20倍高速化され、大規模なテーブルスキャンは平均で68%改善されました。
このパフォーマンス向上は、予測型最適化がデータを最適化されたファイルサイズに保ちながら、新しいデータを段階的にクラスタリングすることで実現されています。顧客のテーブルはDelta Lakeのリキッドクラスタリングを使用して保存されており、データスキップを向上させるための最適化されたデータレイアウトを提供します。Liquid Clusteringは柔軟で革新的なデータ管理手法であり、データレイアウトに関する調整作業を簡素化し、最適なクエリパフォーマンスを得るための細かいチューニングが不要になります。
コスト削減:ストレージコストを2倍削減
予測型最適化(Predictive Optimization)は、顧客のテーブルでストレージコストを自動的に2倍削減し、手作業によるテーブルメンテナンスを不要にしました。例えば、POは不要なファイルをインテリジェントに検出してガベージコレクションを行い、コストを大幅に削減しながらストレージ効率を自動的に向上させます。
価値を最大化しながらTCO(総所有コスト)を最小化
今日から予測型最適化を有効にして、TCOを削減しましょう
これらのインテリジェンスと最適化機能は、取り込みコストのわずか5%未満で利用可能です。
今後の展望
私たちは、Unity Catalogマネージドテーブル向けの予測型最適化をさらに向上させるため、新機能を継続的に開発しています。
予測型最適化には、インテリジェントな統計収集機能とそのメンテナンスが追加されます。POでは、サポートされている書き込み操作中に統計が収集され、自動化されたANALYZEタスクを使用して更新されます。特にDelta統計では、最初の32列だけではなく、最適な32列を選択して統計を収集します。統計は、最適なクエリプランを生成し、ファイルスキッピングを可能にする重要な要素です。
インテリジェントな統計収集を備えたPOは、現在、限定公開のパブリックプレビュー中です。
登録をご希望の方は、こちらのフォームにご記入ください。
いますぐ始めましょう
すでにDatabricksアカウントをお持ちの場合は、アカウントコンソールの Settings > Feature enablement の「Predictive Optimization」の横にある「Enabled」を選択して、今すぐ始めてください。
ワンクリックで、予測型最適化のインテリジェンスエンジンがあなたのデータをより高速かつコスト効率の良いものに変え始めます。詳細はドキュメンテーションをご覧ください。
Databricksが初めての方へ:
2024年11月11日以降、Databricksは新規アカウントに予測型最適化をデフォルトで有効化しており、すべてのUnity Catalogマネージドテーブルで最適化が自動的に実行されるようになっています。
つまりどういうことか?
予測型最適化を有効にすれば、手間をかけることなくクエリ速度が向上し、総所有コスト(TCO)が削減されます!