Databricks Data Intelligence Platformのためのセキュリティベストプラクティス
Databricksでは、データが最も価値のある資産の一つであることを理解しています。当社の製品とセキュリティチームは協力して、セキュリティリスクに対抗し、コンプライアンスの義務を満たすことができるエンタープライズグレードのデータインテリジェンスプラットフォームを提供します。過去1年間で、Azure Private Link for Databricks SQL Serverlessによるデータアクセスの保護、Azure firewall support for Workspace storageによるデータのプライバシー保護、Azure confidential computingによる使用中のデータ保護、FedRAMP High Agency ATO on AWS GovCloudの達成、Databricks AI Security Frameworkの公開、そしてResponsible AIへのアプローチの詳細を共有するなど、新たな機能とリソースを提供してきました。
2024 Verizon Data Breach Investigations Reportによると、データ侵害の件数は昨年から30%増加しています。私たちは、あなたが私たちのセキュリティ機能を理解し、適切に利用し、推奨されるセキュリティベストプラクティスを採用することが、データ侵害リスクを効果的に軽減するために重要であると考えています。
このブログでは、プラットフォームの主要なコントロールと最近リリースされたセキュリティ機能を活用して、データとAI資産を保護する堅牢な防御深化姿勢を確立する方法を説明します。また、迅速に始められるように、私たちのセキュリティベストプラクティスリソースの概要も提供します。
Databricks Data Intelligence Platform上のデータとAIワークロードを保護します
Databricksプラットフォームは、各アクセスポイントでアカウントの乗っ取りとデータの外部への流出のリスクに対抗するためのセキュリティガードレールを提供します。下の画像では、Databricks上の典型的なレイクハウスアーキテクチャを3つのセキュアな面で概説しています:
- あなたのクライアント、ユーザー、アプリケーションがDatabricksに接続する
- Databricksサービス(API)に接続するワークロード
- あなたのデータがDatabricksのワークロードからアクセスされる
では、Databricksの各接続ポイントにおける、デフォルトで有効化されているか、またはユーザーがオンにできる主なセキュリティ制御と新機能を高レベルで見ていきましょう。異なる脅威モデルに基づいた完全な推奨事項は、セキュリティベストプラクティスガイドに記載されています。
Databricksへのユーザーおよびアプリケーション接続 (1)
アクセスに関連するリスクから保護するためには、Databricksへのユーザーおよびアプリケーションの認証と認可に複数の要素を使用することが推奨されます。パスワードのみの使用は、盗難、フィッシング、管理の不備に対する脆弱性があるため不十分です。実際、2024年7月10日をもって、Databricks管理のパスワードはサポート終了となり、UIおよびAPI認証での使用ができなくなります。このデフォルトのセキュリティ強化に加えて、以下のコントロールを実装することをお勧めします:
- シングルサインオンで認証: すべてのユーザーアクセスのアカウントレベルで(AWS、SSOはAzure/GCPで自動的に有効化されます)
- マルチファクター認証を活用する: あなたのIDPが提供するマルチファクター認証を使用して、Databricksにアクセスするすべてのユーザーとアプリケーションを確認します(AWS、Azure、GCP)
- 統一ログインを有効にする: すべてのワークスペースで単一のアカウントレベルのSSOを使用し、SSO緊急アクセスをMFAで設定することで、効率的かつ安全なアクセス管理を実現します(AWS、DatabricksはAzure/GCPの組み込みIDプロバイダーと統合)
- フロントエンドのプライベートリンクを使用する: ワークスペースで、信頼できるプライベートネットワークへのアクセスを制限します(AWS、Azure、GCP)
- IPアクセスリストの設定: ワークスペースやアカウントに対して行い、信頼できるネットワークロケーション(例えば、あなたの企業ネットワーク)からのみのアクセスを許可します(AWS、Azure、GCP)
あなたのワークロードをDatabricksサービスに接続する (2)
ワークロードのなりすましを防ぐために、Databricksはクラスタのライフサイクル中に複数の認証情報を使用してワークロードを認証します。私たちの推奨事項と利用可能なコントロールは、あなたのデプロイメントアーキテクチャに依存します。
高レベルで見ると:
- クラシッククラスターについてあなたのネットワーク上で動作する場合、計算プレーンと制御プレーンの間にバックエンドプライベートリンクを設定することをお勧めします。バックエンドのプライベートリンクを設定することで、クラスタは専用のプライベートチャネルを介してのみ認証できるようになります。
- Serverlessの場合、Databricksは自動的にアプリケーションレベルの認証情報、mTLSクライアント証明書、プライベートリンクの組み合わせを使用して、ワークスペースのなりすましリスクに対する防御深度のセキュリティ姿勢を提供します。
Databricksからあなたのストレージやデータソースへの接続(3)
データが正しいユーザーとワークロード によってのみアクセスされ、ワークロードが許可されたストレージ場所にのみ書き込むことができるようにするために、以下の機能を活用することをお勧めします:
- データへのアクセスを管理するためのUnity Catalogの使用: Unity Catalogは、細かいアクセス制御や、デフォルトで信頼されたコードからのみアクセス可能な時間制限付きのスコープダウンされた資格情報など、いくつかの保護層を提供します。
- Mosaic AI Gatewayを活用する: 現在パブリックプレビュー中のMosaic AI Gatewayを使用すると、エンタープライズ全体で外部モデルとDatabricksにホストされたモデルの使用を監視し、制御することができます。
- 認証されたネットワークからのアクセスを設定: AWSのS3バケットポリシー、Azureのストレージファイアウォール、GCPのVPCサービスコントロールを使用してアクセスポリシーを設定することができます。
- クラシッククラスタを使用すると、上記のコントロールを通じてネットワークへのアクセスを制限することができます。
- Serverlessを使用すると、Serverlessネットワークへのアクセスを制限することができます(AWS、Azure)ま たはAzureの専用のプライベートエンドポイントへのアクセスを制限することができます。Azureでは、ワークスペースストレージのストレージファイアウォール(DBFSルート)アカウントを有効にすることができます。
- Databricks外部のリソース、例えば外部モデルやストレージアカウントなどは、専用のプライベート接続で設定することができます。こちらは、最もリクエストが多いシナリオの一つであるAzure OpenAIへのアクセスのためのデプロイメントガイドです。
- 許可されていないストレージへのアクセスを防ぐためのイーグレス制御の設定:Classicクラスタでは、ネットワーク上でイーグレス制御を設定できます。SQL Serverlessの場合、DatabricksはPython UDFなどの信頼されていないコードからのインターネットアクセスを許可していません。より多くのServerless製品を採用する際に、どのようにイーグレス制御を強化しているかについて学ぶためには、こちらのフォームに記入してプレビューに参加してください。
以下の図は、Databricks Serverless製品を導入する際に、データ処理のためのプライベートで安全な環境をどのように設定するかを概説しています。上記のように、複数の保護層がこの環境へのすべてのアクセスを保護することができます。
業界最先端のセキュリティベストプラクティスであなたのデータとAIワークロードを定義、デプロイ、監視します
ここで、利用可能な主要なコントロールのセットを概説したので、おそらくこれらをどのように迅速にビジネスに適用できるかを考えているでしょう。Databricksのセキュリティチームは、彼らが何百もの顧客との経験から開発したリソースを使用して、「定義、デプロイ、モニタリング」のアプローチを取ることを推奨しています。
- 定義: あなたの組織特有のリスクとともに、私たちのベストプラクティスを見直してDatabricks環境を設定するべきです。私たちは、すべての主要なクラウド上でのDatabricksのデプロイメントに対する包括的なベストプラクティスガイドを作成しました。これらのドキュメントは、私たちのエンタープライズエンゲージメントから洗練されたセキュリティプラクティス、脅威モデル、パターンのチェックリストを提供します。
- デプロイ: Terraformテンプレートを使用すると、セキュアなDatabricksワークスペースのデプロイが簡単になります。公式の Databricks Terraform プロバイダを利用して、ワークスペースと必要なクラウドインフラをプログラムでデプロイできます。これらの統 合された Terraform テンプレートは、セキュリティを最重要視するお客さま向けに強化されたセキュリティ設定であらかじめ設定されています。私たちのGitHubを見てください。AWS、Azure、GCPで始めるための情報があります。
- モニター:セキュリティ分析ツール(SAT)は、Databricksワークスペースでのセキュリティベストプラクティスへの遵守を継続的に監視するために使用できます。最近、SATをアップグレードしてセットアップを効率化し、チェックを強化し、それらをDatabricks AIセキュリティフレームワーク(DASF)に合わせてAIセキュリティリスクのカバレッジを改善しました。
データとAIのセキュリティで先を行きましょう
Databricksデータインテリジェンスプラットフォームは、データとAI資産を保護するためのエンタープライズグレードの防御深度アプローチを提供します。セキュリティリスクの軽減についての推奨事項は、選択したクラウドに対するセキュリティベストプラクティスガイドを参照してください。不正アクセスに関連するコントロールの要約チェックリストについては、このドキュメントを参照してください。
私たちは、お客様 のフィードバック、進化する業界標準、新たに出現するセキュリティ脅威に基づいて、プラットフォームを継続的に強化しています。これにより、お客様のニーズをより良く満たし、潜在的なリスクに先んじることができます。最新情報を得るために、セキュリティと信頼のブログをブックマークし、YouTubeチャンネルをチェックし、Databricksセキュリティと信頼センターを訪れてください。