メインコンテンツへジャンプ

Databricks SQLの最新情報 ~2024年10月~

2024年8月から10月にかけて発表した新機能の概要 ~AI/BI、SQL編集、パフォーマンスアップデートなど~
イナ・フェルスハイム
ガウラヴ・サラフ
ミランダ・ルナ
ケン・ウォン
Share this post

私たちは、Databricks SQLをこれまで以上にシンプルで、高速で、手頃な価格にする最新の機能とパフォーマンスの改善をお知らせできることを嬉しく思います。Databricks SQLは、Databricks Data Intelligence Platform内のインテリジェントなデータウェアハウスで、レイクハウスアーキテクチャ上に構築されています。実際、Databricks SQLは現在8,000以上の顧客に使用頂いています!

このブログでは、AI/BI、インテリジェントな体験、予測的最適化について詳しく説明します。また、強力な新しい価格/パフォーマンス機能も備えています。過去3ヶ月間の革新的な機能を皆様にご紹介できることを嬉しく思います。

Databricks SQLの2024年第3四半期の新機能について

 

AI/BI

2024年のData + AI Summit (DAIS)でAI/BIを発表して以来、多くのエキサイティングな機能強化を追加してきました。まだAI/BIを試していない方は、ぜひお試しください。追加ライセンス不要で、すべてのDatabricks SQLユーザーがご利用いただけます。AI/BIは、Databricks SQLにネイティブで、新しいタイプのAIファーストのビジネスインテリジェンス製品です。組織の全員が分析と洞察を活用できるように設計されています。

もしお見逃しの方は、「2024年秋のAI/BIダッシュボードの新機能」ブログを公開したばかりです。新しいAI/BI Genie、マルチページレポート、インタラクティブなポイントマップなど、多くの新機能を紹介しています。これらの機能は、夏以降に追加された多くの新機能リスト(次世代のインタラクティブ性Databricksワークスペース外でのダッシュボード共有ダッシュボードの埋め込みなど)に加わります。AI/BI Genieについては、Genieのベンチマークとレビューのリクエスト機能を通じて、生成される回答への信頼性を高めることに焦点を当ててきました。

今年はさらに多くの新機能が登場予定です!詳細はAI/BIリリースノートをご覧ください。

SharePointに埋め込まれたAI/BIダッシュボードの例
Example AI/BI Dashboard embedded in SharePoint

 

インテリジェントな体験

私たちは、自動化によってより付加価値の高い作業に集中できるよう、製品全体にMLとAIを組み込んでいます。また、このインテリジェンス機能は、お客様の特定のビジネスとデータに基づいて構築された自然言語体験を組み込むことで、データとAIへのアクセスを民主化するのに役立ちます。

SQLの開発機能を強化

SQLは皆様の親友です。新しいSQLエディタは、プラットフォームの最高の側面を統合し、合理化されたSQL作成体験を提供します。また、複数のステートメント結果、リアルタイムコラボレーション、Databricks Assistantとの強化された統合、エディタの生産性機能など、いくつかの改善された機能を提供し、SQLの開発を次のレベルに引き上げます。新しいSQLエディタの詳細についてはこちらをご覧ください。

SQLエディターの複数ステートメントレビュー
Multiple statement results in the SQL editor

 

また、名前付きパラメータマーカー構文(SQLエディタ、ノートブック、AI/BIダッシュボード全体で使用可能)など、SQLの構築を支援する追加の改善も行いました。

 

AIによるコメント生成

適切にコメントされたSQLは、コラボレーションとメンテナンスに必要不可欠です。ゼロから始める代わりに、カタログ、スキーマ、ボリューム、モデル、関数に対してAI生成コメントを使用できます。インラインチャットにAssistantを使用してコメントを編集することもできます。

 

新機能と改善

最後に、体験をよりスムーズにする小さな改善点が多数あります。詳細なリストについては、Databricks SQLリリースノートをご確認ください。

 

プラットフォームの予測最適化機能

私たちは、すべてのワークロードを継続的に最適化するよう努めています。その一つの方法は、AI/MLを使用して一部の詳細を自動的に処理することです。いくつかの新機能をご紹介します。

 

自動統計

クエリ計画は統計を使用することでよりスマートになりますが、そのためにはANALYZEコマンドの実行方法を知る必要があります。しかし、ANALYZEを実行しているのは5%未満のお客様に留まります。また、テーブルには数百以上の列がある可能性があり、クエリパターンは時間とともに変化するため、ワークロードを最適に実行するのが難しい場合があります。

具体的には、以下のような状況があります:

  • データエンジニアが統計を維持するための「最適化」ジョブを管理する必要がある
  • データエンジニアがどのテーブルの統計を更新する必要があるか、およびその頻度を決定する必要がある
  • データエンジニアが主要な列を最初の32列に含める必要がある
  • クエリパターンが変更されたり新しい列が追加されたりした場合、データエンジニアがテーブルを再構築する必要がある可能性がある

この新しいインテリジェント統計が有効な場合、統計は2つのフェーズで管理されます。まず、Photon対応コンピュートで書き込まれたすべての新しいデータに対して統計が収集されます。これは、データを1回だけ読み取るため(取り込み後にANALYZEを実行する場合と比較して)、より高速で安価です。次に、統計が古くなると(UPDATEおよびDELETE文による)、このプロセスはバックグラウンドでANALYZEを実行して、統計が常に最新であることを確認します。

統計の予測最適化の申請性パブリック プレビューにサインアップするには、このフォームを使用ください。

 

クエリプロファイラー

また、クエリ履歴とプロファイラーの新機能を導入しました。これらはプライベートプレビューで利用可能です。Databricks SQLのマテリアライズドビューとストリーミングテーブルは、より良いプランとクエリの洞察を提供します。

クエリ履歴クエリプロファイルは現在、DLTパイプラインを通じて実行されたクエリをカバーしています。さらに、Databricks SQLのマテリアライズドビュー(MV)とストリーミングテーブル(ST)のクエリインサイトが改善されました。これらのクエリは、SQLウェアハウスやサーバーレスコンピュートで実行されたクエリと並んでクエリ履歴ページに表示されます。また、パイプラインUI、ノートブック、SQLエディターのコンテキストでもリストされます。

 

ワールドクラスの価格性能

クエリエンジンは、データ量に対してコンピュートコストがほぼ線形にスケールするよう、継続的に最適化されています。私たちの目標は、並行性が増加し続ける世界で、レイテンシーを減少させながら、より良いパフォーマンスを実現することです。

パフォーマンスの更新

過去5ヶ月間で、パフォーマンスを向上させ、総保有コスト(TCO)を削減する新しい進歩をDatabricks SQLに導入しました。パフォーマンスがシームレスなユーザー体験とコスト最適化にとって最も重要であることを理解しています。2024年のData and AI Summit (DAIS)で、2022年のDatabricks SQLローンチ以来、同じインタラクティブBIクエリのパフォーマンスを73%向上させたことを発表しました。これは4倍速くなったということです!5ヶ月強が経過した現在、Databricks Performance Index (DPI)の計算によると、77%高速化を達成したことを発表できることを嬉しく思います! 

 

これらはベンチマークだけではありません。時間とともに繰り返し実行される何百万もの実際の顧客クエリを追跡しています。これらの類似したワークロードを分析することで、継続的な最適化の累積的な影響を反映した77%の速度向上を観察できます。予告:Extract, Transform, Load (ETL)ワークロードを9%より効率的に、BIワークロードを14%よりパフォーマントに、探索的ワークロードを13%より高速にしました。詳細についてはパフォーマンスの更新ブログをご確認ください。

2024年10月までのDatabricks SQLのパフォーマンス数値
Databricks Performance Index is derived statistically from repeating workloads, accounting for changes irrelevant to the engine, and computed against billions of production queries. Higher is better.

 

システムテーブル

システムテーブルは、コスト情報、データアクセス、ワークロードパフォーマンスなど、Databricksアカウントに関する重要な詳細を観察するための推奨される方法です。具体的には、通常低レイテンシーで様々な場所からアクセスできるDatabricks所有のテーブルです。

 

Databricksシステムテーブルプラットフォームは、system.billing.usageおよびsystem.billing.list_priceテーブルを含め、現在一般提供されています。billingスキーマはすべてのメタストアで自動的に有効になります。課金システムテーブルは、1年間の無料保持期間を含め、クラウド全体で追加コストなしで引き続き利用可能です。

 

システムテーブルを使用して使用状況を監視する方法を 学びましょう

 

Databricks SQL サーバーレスウェアハウス

Databricks SQLサーバーレスウェアハウスの可用性、コンプライアンス、その他の機能を引き続き拡大しています。Databricks SQLウェアハウスは、インスタントで弾力的なコンピュート(ストレージから分離)を備えたサーバーレスウェアハウスです。コンピュートはDatabricksによって管理されます。

  • 新しいリージョン:
    • Google Cloud Platform (GCP)は、既存の7つのリージョンで利用可能
    • AWS はロンドンのeu-west-2を追加
    • Azure はフランス中部、スウェーデン中部、ドイツ西部中央、UAE北部の4つのリージョンを追加
  • HIPAA:HIPAAのコンプライアンスは、すべてのリージョンとすべてのクラウド(Azure、AWS、GCP)で利用可能です。HIPAAコンプライアンスは、AWSのus-east-1とap-southeast-2にも追加されました。
  • Private Link:プライベートリンクは、ユーザーからデータへ、そして再びユーザーへのプライベートネットワークの使用を支援します。現在、一般提供されています。
  • Secure Egress:サーバーレスのネットワーク上のエグレス制御を行う機能です。Secure Egressは現在パブリックプレビューで利用可能です。
  • コンプライアンスセキュリティプロファイル:コンプライアンスセキュリティプロファイルを持つサーバーレスSQLウェアハウスのサポートが利用可能になりました。この機能がサポートされている地域では、コンプライアンスセキュリティプロファイルが有効になっているワークスペースは、デフォルトのウェアハウスタイプとしてサーバーレスSQLウェアハウスを使用します。どの計算リソースが強化されたセキュリティを得るかとサーバーレス計算機能の利用可能性をご覧ください。
  • サーバーレスデフォルト:スターターウェアハウスは現在、デフォルトでサーバーレスです。この設定の変更により、ITがリソースをプロビジョニングするのを待つ代わりに、すぐに始めることができます。

 

AI/BIによって強化されたコストと使用状況のダッシュボード

Databricksのコストを理解し、高コストのワークロードを特定するために、AI/BIを活用した新しいコストと使用状況ダッシュボードを立ち上げました。このダッシュボードを使用すると、支出のコンテキストを確認し、コストがどのプロジェクトから発生しているかを理解できます。最後に、最もコストのかかるジョブ、クラスター、エンドポイントを見つけることができます。

AI/BIによるコストと使用状況のダッシュボード
Cost and usage dashboard example, powered by AI/BI

 

ダッシュボードを使用するには、アカウントコンソールで設定します。ダッシュボードはAWS GovCloud以外のリージョン、Azure、GCPで利用可能です。ダッシュボードはあなたが所有し管理するので、ビジネスに合わせてカスタマイズしてください。これらのダッシュボードについての詳細は、パブリックプレビューで、ドキュメンテーションをご覧ください

 

マテリアライズドビューとストリーミングテーブル

マテリアライズドビューとストリーミングテーブルについては、コストを削減し、クエリのレイテンシを改善するための優れた方法であるため、しばらく話題にしてきました。(豆知識:マテリアライズドビューは、Delta Live Tablesのローンチ時に初めてDatabricksでサポートされました)これらの機能は現在一般提供されていますが、さらに新機能を追加し、可観測性、スケジューリング、コスト割り当てを改善しました。

  • 可観測性:カタログエクスプローラーには、マテリアライズドビューとストリーミングテーブルのステータスとスケジュールに関するコンテキスト情報とリアルタイム情報が含まれています。
  • スケジューリング: EVERY構文が、マテリアライズドビューとストリーミングテーブルのリフレッシュをDDLを使用してスケジュールするために利用可能になりました。
  • コスト割り当て:システムテーブルを使用すると、誰がマテリアライズドビューとストリーミングテーブルを更新しているかを表示できます。
MVとSTの更新スケジュールと統計を確認します
Refreshing schedule and viewing status of materialized views and streaming tables


マテリアライズドビューとストリーミングテーブルについて詳しく知りたい方は、Databricks SQLでのマテリアライズドビューとストリーミングテーブルの一般提供を発表するブログをご覧ください。 

 

Power BIへの公開

これで、Databricksのテーブル/スキーマからセマンティックモデルを作成し、それらをすべて直接Power BIサービスに公開することができます。テーブルの列に対するコメントは、Power BIの対応する列の説明にコピーされます。

PowerBIナビゲーターでのDatabricks SQLクエリデータ
Select the Databricks data to query from the Power BI Navigator

 

始めるには、「Azure DatabricksからPower BI Onlineに公開する」をご覧ください。

 

データインテリジェンスプラットフォームとの統合

これらの機能はDatabricks SQLの一部であり、Databricks Data Intelligence Platformの一部です。Databricks SQLは、プラットフォームのシンプルさ、統一されたガバナンス、そしてレイクハウスアーキテクチャのオープン性の能力を活用しています。以下は、Databricks SQLに特に役立つ新しいプラットフォーム機能のいくつかです。

 

コンピュート予算ポリシー

コンピュート予算ポリシーを使用して、対話型ワークロード、スケジュールされたジョブ、またはイベントDelta Liveテーブルに関係なく、コンピュートのコスト割り当てのベストプラクティスを管理し、強制することができます。

 

Databricks SQLでのVector Searchのネイティブサポート

ベクトルデータベースとベクトル検索の使用例は増えています。Q3に、Databricks SQLのVector Searchサポートのためのゲーテッドパブリックプレビューを開始しました。この統合により、SQLから直接Databricks MosaicML Vector Searchを呼び出すことができます。今では、誰でもベクトル検索を使用してRAGアプリケーションを構築し、検索推奨を生成したり、非構造化データの分析を強化したりすることができます。

vector_search()は、Mosaic AI Vector Searchがサポートされている地域でパブリックプレビューが利用可能になりました。詳細は、vector_search関数をご覧ください。

 

新たな革新についての詳細

Databricks SQLの新しい革新をお楽しみいただけることを願っています。過去3ヶ月間の新機能についてはいつでもこちらのWhat’s New投稿をご覧いただけます。以下に、過去四半期にブログで紹介したローンチの完全なリストを示します:

 

いつものように、さらに多くのクールな機能を提供するために努力を続けています。 四半期ロードマップウェビナーに注目して、データウェアハウジングとAI/BIの将来に何が控えているかを学んでください。データと共に働くのはエキサイティングな時期であり、データアーキテクト、アナリスト、BIアナリストなどとパートナーシップを組んで、組織内でのデータとAIの民主化を進めることを楽しみにしています!

Databricks SQLについて詳しく知りたい場合は、私たちの ウェブサイトを訪れるか、ドキュメンテーションを読んでください。また、 Databricks SQLの製品ツアーもチェックしてみてください。既存のウェアハウスを高性能で、サーバーレスのデータウェアハウスに移行したいと考えている場合、素晴らしいユーザーエクスペリエンスと低総コストを提供するDatabricks SQLが解決策です。 無料で試してみてください

プライベートプレビューやゲート付きパブリックプレビューに参加するには、Databricksのアカウントチームに連絡してください。

Databricks 無料トライアル

関連記事

AI/BIダッシュボード最新情報 ~2024年秋~

November 8, 2024 Richard Tomlinson による投稿 in
イントロダクション Databricksの AI/BI ダッシュボードは、一般提供開始以来、大きな進化を遂げました。Databricks SQLを基盤とし、データインテリジェンスにより強化されたAI/BIダッシュボードは、インタラクティブなデータビジュアライゼーション、ダッシュボード、レポートを通じて企業データから洞察を生成する簡単でシームレスな方法を提供します。データと分析を1つの統合プラットフォームに集約することで、ビジネスインテリジェンスを効率化し、組織全体にわたるデータ主導の意思決定を推進します。 AI/BIダッシュボードは3,000以上の企業と30,000人以上のユーザーに毎週利用されるほどの広がりを見せており、その採用率は驚異的です。 Databricks SQLのユーザーで、まだAI/BIを利用していない方は、この機能を見逃しています。 AI/BIダッシュボードは追加のライセンスなしで利用でき、今日からすぐに使用を開始できます。お客様は、データのすぐ隣にある最新のAIを活用したBIソリューションを利

Databricks SQLの新機能をチェック!

Databricks SQLがさらにシンプルに、速く、コストダウン!最新の新機能とパフォーマンス向上をお届けします。すでに7,000社以上の顧客がデータウェアハウスとして利用しており、Databricks史上最も急成長しているプロダクトです! データウェアハウスの決定版 「レイクハウス」 Databricks SQLは、私たちが 2020年初頭 に提唱した レイクハウスアーキテクチャ に基づいて構築されています。このアプローチにより、コストが高く、独自仕様のデータウェアハウスはレガシーシステムになると予測し、実際に MIT Technology Insightsレポート では、74%の企業がすでにレイクハウスアーキテクチャを採用していることが示されています。多くの企業が利用するレイクハウスベースのデータプラットフォームは、最近発表された Forrester Wave for Data Lakehouses レポートでもレビューされ、Databricksは、現在の提供内容と戦略の両カテゴリで最高スコアを獲得し、リー
プラットフォームブログ一覧へ