セキュリティ&トラストセンター

データ保護は Databricks の最優先事項です

背景

Databricks では、お客様にとっての貴重な資産であるデータが常に保護されるよう、レイクハウスプラットフォームの全レイヤーにセキュリティを組み込んでいます。また、プラットフォーム利用におけるコンプライアンスを確実にし、お客様に対する透明性を維持することで、お客様に安心して利用していただけるサービスの提供に努めています。

Databricks のセキュリティをお客様にセルフサービスでレビューしていただけるよう、コンプライアンス関連資料をご用意しています。 
 
アクセンチュア
Wehkamp Logo
Wehkamp Logo
「Databricks のプラットフォームは運用とガバナンスの管理がシンプルで、組織全体のデータドリブンな意思決定が促進されています。容易なユーザー追加機能、主要なクラウドプロバイダとのネイティブなセキュリティ統合、充実した API により、データとツールを社員が効率よく利用できるようになりました。」

Wehkamp 社 リードデータサイエンティスト
トム・ムルダー(Tom Mulder) 氏

Adren Street Labs
Wehkamp Logo
Wehkamp Logo
「Azure Databricks を基盤として 10 件ほどのソリューションを構築しました。Azure Databricks を利用したことで、データのセキュリティとコンピュートのスケーラビリティを確保すると同時に、ラボから実運用までの時間を短縮できるようになりました。」

Arden Street Labs 社 CTO ジェフ・フェルドマン(Jeff Feldman)氏

クレディ・スイス
Wehkamp Logo
Wehkamp Logo
“Despite the increasing embrace of big data and AI, most financial services companies still experience significant challenges around data types, privacy and scale. Credit Suisse is overcoming these obstacles by standardizing on open, cloud-based platforms, including Azure Databricks, to increase the speed and scale of operations and ML across the organization.”

— Credit Suise case study

背景

トラスト

トラストを重視した Databricks のプラットフォームには、ソフトウェアの開発から提供に至るまでのライフサイクル全体にセキュリティが組み込まれています。Databricks は、ペネトレーションテスト、脆弱性テスト、内部アクセス制御など、運用における厳格なセキュリティ慣行に従っています。透明性が信頼を得るカギであるという考えのもと、運用に関する情報を公開し、お客様やパートナーと緊密に連携してセキュリティ要件に対応します。

契約上の要件

セキュリティ&トラストセンターでご覧いただけるドキュメントやベストプラクティスに加えて、セキュリティに対する契約上の要件を全てのお客様に提供しています。この要件は、顧客契約の一部である「セキュリティに関する補足条項」に記載されています。「セキュリティに関する補足条項」には、お客様のデータをセキュアに保護するセキュリティ対策と実践のリストを明記しています。

脆弱性の管理

脆弱性のあるソフトウェアの検出と迅速な修正は、その脆弱性がコードに存在するか、依存しているソフトウェアに存在するかに関わらず、ソフトウェアやサービス提供者の極めて重要な責任です。Databricks は、この責任を重く受け止めており、修正スケジュールに関する情報を「セキュリティに関する補足条項」に記載しています。

Databricks の社内においては、主要なセキュリティスキャンツールを使用し、プラットフォーム内の脆弱性を特定しています。また、サードパーティーのサービスを利用して、自社の一般公開インターネットサイトの分析、潜在的なリスクの特定を行っています。悪用リスクが高いゼロデイ脆弱性のような深刻度の極めて高い「重大度 0 」の脆弱性は、最優先で修正が行われます。

ペネトレーションテストとバグバウンティ

Databrcisk では、社内の攻撃検証セキュリティチーム、資格を有するサードパーティーのペネトレーションテスター、および通年の公開バグバウンティ(バグ報奨金プログラム)を組み合わせ、ペネトレーションテストを実施しています。サードパーティーによる外部ペネトレーションテストは通常、年間 8~10 回、内部ペネトレーションテストは 15~20 回実施し、デューデリジェンスパッケージの一部として、プラットフォーム全体のサードパーティーのテストレポートを一般公開しています。

私たちは、お客様が安心して Databricks 上でワークロードを実行できるよう全力でサポートします。Databricks に対するペネトレーションテストの実施においては、次のことを推奨しています。

  • クラウドサービスプロバイダのアカウントにあるデータプレーンシステム内での脆弱性スキャンの実行。
  • 独自のコードに対してのテストの実行。ただし、これらのテストは、お使いのクラウドサービスプロバイダのアカウントにあるデータプレーン(またはその他のシステム)内で、お客様独自のコントロールを評価する場合に限ります。
  • バグ報奨金プログラムへの参加。

HackerOne が運営する Databricks バグ報奨金プログラムに参加すると、Databricks の一般公開されていないデプロイメントにアクセスできます。

内部アクセス

本番稼働システム、顧客環境、顧客データへの社員のアクセスについては、厳格なポリシーと制御を適用しています。

AWS、GCP、Azure などのクラウドサービスプロバイダのコンソールなど、コアインフラのコンソールにアクセスする際には、多要素認証が必要です。Databricks では、ポリシーと手順を定め、パスワードや API キーなどの明示的な認証情報の使用は可能な限り回避しています。例えば、新しい AWS の IAM プリンシパルまたはポリシーの例外リクエストを処理できるのは、指定されたセキュリティメンバーのみです。

Databricks の社員が本番稼働システムにアクセスできるのは、極めて特殊な状況下においてのみです。いかなるアクセスでも、Databricks が構築したシステムによる認証が必要であり、アクセスの正当性の確認、ポリシーのチェックが行われます。社員によるアクセスは、 Databricks の VPN の利用が条件であり、シングルサインオンソリューションでは多要素認証が必要です。
詳しく見る→

Databricks 社内のセキュリティ基準では、可能な限り職務分離(SoD)を実施しています。例えば、クラウド ID プロバイダの認証および認可プロセスを一元化し、アクセスの承認申請をする社員と許可する社員を分離しています。

社内システムおよび本番稼働システムへのアクセスは、必要最小限の権限によるアクセスを適用しています。最小権限は、内部ポリシーに明確に組み込まれ、手順に反映されています。例えば、ほとんどのお客様は、Databricks 社員によるワークスペースへのアクセスを制御できます。アクセスを許可する前に自動的に多数のチェックを実行し、制限時間後に自動的にアクセス権限を取り消すことが可能です。
詳しく見る→

セキュアなソフトウェア開発ライフサイクル

Databricks には、ソフトウェア開発ライフサイクル(SDLC)があり、機能の要求から本番環境の監視まで全てのステップにセキュリティが組み込まれています。ライフサイクルを通じて機能を追跡するように設計されたツールでサポートされています。システム、ライブラリ、コードの自動セキュリティスキャンや、自動の脆弱性追跡機能を備えています。

Databricks では、顧客と社員の両者が投稿でき、機能に関する要求を追跡するアイデアポータルを活用しています。機能設計プロセスには、プライバシーとセキュリティの設計が含まれています。初期評価の後、影響の大きい機能は、エンジニアリングのセキュリティ専門スタッフによるセキュリティ設計レビューが実施され、脅威モデルやその他のセキュリティ特有のチェックが行われます。

Databricks ではアジャイル開発手法を用い、新たな機能を複数のスプリントに分割しています。Databricks プラットフォームの開発は外部委託をしておらず、開発者には全員、入社時およびその後毎年、OWASP Top 10 を含むセキュアなソフトウェア開発トレーニングを受けることを義務付けています。本番データおよび本番環境は、開発環境、QA 環境、ステージング環境から分離されています。コードは全て、きめ細かな権限が設定された多要素認証によるシングルサインオンを必要とするソース管理システムに照合されます。コードのマージには、影響を受ける各領域の機能エンジニアの所有者の承認を必要とし、全てのコードをピアレビューしています。

コードマージ時、コードマージ後、リリース時、本番稼働時など、SDLC プロセスの複数の段階で、ユニットテストやエンドツーエンドテストなどの品質チェックを実施します。テストには、ポジティブテスト、回帰テスト、ネガティブテストが含まれます。デプロイ後は、広範な監視で障害を特定し、ユーザーはステータスページを通じてシステムの可用性に関するアラートを受け取ることができます。P0 または P1 の問題が発生した場合は、Databricks が自動的に原因分析のための「なぜなぜ分析(5 whys)」をトリガーし、レビューの担当者をアサインし、問題解決にあたります。

Databricks では、ベストオブブリードのツールを使用して、脆弱性のあるパッケージやコードを特定しています。本番前の環境における自動化では、認証済みホストとコンテナに対して、オペレーティングシステムとインストールされたパッケージの脆弱性スキャン、および動的・静的コード分析スキャンを実行します。脆弱性が確認された場合は、エンジニアリングチケットが自動的に作成され、関連チームに割り当てられます。また、製品のセキュリティチームは、Databricks アーキテクチャにおける重要な脆弱性をトリアージし、その深刻度を評価しています。

Databricks には、正式なリリース管理プロセスがあり、コードをリリースする前に決行か中止かの判断を行います。変更におけるテストには、回帰の回避、新機能の現実的なワークロードにおけるテストの認証が含まれます。さらに、監視を行いながら段階的な展開を実施し、早期に問題を特定します。職務分離に則り、デプロイメント管理システムのみが変更を本番環境にリリースでき、全てのデプロイメントには複数人による承認が必要です。

Databricks では、イミューダブルインフラストラクチャのモデルに従い、パッチではなくシステムを入れ替えることで、設定のドリフトリスクを回避し、信頼性と安全性を向上させています。新規のシステムイメージやアプリケーションコードの展開時には、新たなコードでワークロードを新たなインスタンスに移行します。これは、コントロールプレーンとデータプレーンの両方に当てはまります。(Databricks アーキテクチャについて詳しくは、セキュリティ機能のセクションを参照してください。)コードが本番稼動すると、検証プロセスで、アーティファクトが追加、削除、変更されていないことを確認します。

SDLC プロセスの最後のフェーズは、顧客向けのドキュメント作成です。Databricks のドキュメントは、コードと同様に管理され、ドキュメントは同じソース管理システム内に保存されます。重要な変更については、公開前の技術レビューとドキュメントチームのレビューを徹底させています。
ドキュメントを見る →

背景
ネットワークアクセス クラウド

お客様が管理およびセキュリティ保護する VPC/VNet への展開オプション(既定では、データプレーンへのインバウンドネットワーク接続はありません)

AWSAzure

ユーザーやクライアントから Databricks のコントロールプレーン UI および API へのプライベートアクセス (またはプライベートリンク)

AWSAzure

従来のデータプレーンから Databricks のコントロールプレーンへのプライベートアクセス(またはプライベートリンク)

AWSAzure

従来のデータプレーンからクラウドプラットフォーム上のデータへのプライベートアクセス(またはプライベートリンク)

AWSAzure

IP アクセスリストによる Databricks のコントロールプレーンの UI や API へのインターネット経由のアクセス制御

AWSAzureGCP

ホストベースの自動ファイアウォールによる通信制限

AWSAzureGCP

ユーザーおよびグループの管理 クラウド

クラウドのサービスプロバイダの ID 管理を利用したクラウドリソースとのシームレスな統合

AWSAzureGCP

Azure Active Directory の条件付きアクセスポリシーのサポート

Azure(AWS、GCP は対象外)

SCIM プロビジョニングによるユーザー ID およびグループ管理

AWSAzureGCP

ID プロバイダの統合によるシングルサインオン (ID プロバイダ経由で MFA を有効化できます)

Azure(AWS、GCP は対象外*)

サービスプリンシパルまたはサービスアカウントによる自動化されたアプリケーション ID の管理

AWSAzureGCP

Databricks へのユーザーアクセスを一時的に無効にするユーザーアカウントのロック

Azure(AWS、GCP は対象外*)

パスワード権限を使用したローカルパスワードの無効化

Azure(AWS、GCP は対象外*)

アクセス管理 クラウド

ワークスペース、ジョブ、Notebook、SQL など Databricks の全てのオブジェクトに対するきめ細かな権限ベースのアクセス制御

AWSAzureGCP

権限管理を使用した個人アクセストークンによるセキュアな API アクセス

AWSAzureGCP

OAuth トークンのサポート

AzureGCP

複数ワークスペースの異なるセキュリティプロファイルを持つユーザー、ワークロード、データのセグメント化

AWSAzureGCP

データセキュリティ クラウド

保存コントロールプレーンデータの暗号化

AWSAzure, GCP

カスタマーマネージドキーの暗号化

AWSAzure

コントロールプレーンとデータプレーン間の全ての送受信データの暗号化

AWSAzureGCP

送受信時におけるクラスタ内のスパークの暗号化、またはプラットフォームに最適化された暗号化

AWSAzure

ダイナミックビューによるきめ細やかなデータセキュリティとマスキング

AWSAzureGCP

Unity カタログによるきめ細やかなデータガバナンス

近日更新予定

データ流出リスクを抑制する管理者コントロール

AWSAzureGCP

ワークロードセキュリティ クラウド

Repos を使用した効率的なコードのバージョン管理

AWSAzureGCP

コード内での認証情報のハードコーディングを回避する組み込みのシークレット管理

AWSAzureGCP

バッチ、セキュリティスキャン、基本的なハードニングにより定期的に更新されるマネージドデータプレーンのマシンイメージ

AWSAzure(GCP は対象外)

クラスタポリシーによるコスト抑制、セキュリティと検証ニーズの強化

AWSAzureGCP

構成のドリフトを回避する短命のイミューダブルインフラストラクチャ

AWSAzure GCP

監査とロギング クラウド

Databricks ユーザーのアクティビティに関する包括的で構成可能な監査ロギング

AWSAzureGCP

Databricks SQL コマンド履歴のロギング

AWSAzure

Databricks によるクラスタのロギング

AWSAzure

セキュリティ検証(コンプライアンス) クラウド

ISO 27001、27017、27018 への準拠

AWSAzureGCP

SOC 2 Type Ⅱ レポートあり

AWSAzureGCP

GDPR/CCPA への準拠

AWSAzureGCP

PCI DSS 要件に準拠したデプロイメント

AWS(シングルテナントのみ)

FedRAMP(中レベル)への準拠

AWS で近日対応予定Azure

FedRAMP(高レベル)への準拠

Azure

HIPAA 要件に準拠したデプロイメント

AWSAzure

HITRUST

Azure

* Azure Databricks は Azure Active Directory と統合されており、Databricks on GCP は Google Identity と統合されています。Databricks での設定はできませんが、必要に応じて Azure Active Directory または Google Identity を設定できます。

Security Best Practices

Databricks has worked with thousands of customers to securely deploy the Databricks platform, with the security features that meet their architecture requirements. This document provides a checklist of security practices, considerations and patterns that you can apply to your deployment, learned from our enterprise engagements.

View document for AWS

Databricks Security & Trust Overview Whitepaper

The Security Overview Whitepaper is designed to provide a summary of all aspects of Databricks for security teams to quickly review.

View document

Databricks Security Documentation

Databricks includes documentation on how to operate our security features and best practices to help our customers deploy quickly and securely. The documentation is targeted primarily at teams that deploy or use Databricks.

Access documentation for AWS, GCP, or Azure

プラットフォームのアーキテクチャ

Databricks のレイクハウスアーキテクチャは 2 つのプレーンに分割され、権限設定の簡素化、データの重複の回避、リスクの軽減を実現します。コントロールプレーンは、Databricks がワークスペースアプリケーションの実行や、ノートブック、構成、クラスタなどを管理する管理プレーンです。サーバーレスコンピューティングを選択しない限り、データプレーンはユーザーのクラウドサービスプロバイダのアカウント内で実行し、アカウントからデータを取り出すことなく処理します。顧客管理の VPC/VNet や、エクスポートを無効にする管理コンソールオプションなどの機能を使用して、Databricks をデータ漏出保護アーキテクチャに組み込むことができます。

ノートブック、構成、ログ、ユーザー情報などの特定のデータがコントロールプレーン内に存在しても、その情報は、コントロールプレーン内では保存データ暗号化で、コントロールプレーン間の通信では送受信データの暗号化によって保護されます。また、特定のデータの保存場所を選択できます。データテーブルに関する独自のメタデータストア(Hive メタストア)のホストや、クエリ結果をユーザーのクラウドサービスプロバイダのアカウントに格納してから Databricks Secret API の使用を決定することも可能です。

Kafka の未加工データを正規化されたデータセットに変換し、Amazon S3 や Azure Data Lake Storage などのストレージに送信するためのノートブックをデータエンジニアが Databricks で作成するとします。その際の流れは次のようになります。

  1. ユーザー認証:データエンジニアをシームレスに認証し、Databricks アカウントでホストされているコントロールプレーンの Databricks Web UI へのアクセスを可能にする(シングルサインオンも選択可能)。
  2. コードの送信:データエンジニアが記述したコードは、 Web ブラウザからコントロールプレーンに送信される。JDBC/ODBC リクエストも同じパスをたどり、認証にはトークンが使用される。
  3. クラスタの作成:コントロールプレーンは、クラウドサービスプロバイダの API を使用し、データプレーンの新しいインスタンスで構成される Databricks クラスタを CSP アカウントに作成する。管理者は、セキュリティプロファイルを強制するためにクラスタポリシーを適用できる。
  4. クラスタへのコード送信:インスタンスの起動後、クラスタマネージャーによってデータエンジニアのコードがクラスタに送信される。
  5. 書き込み:クラスタが、ユーザーのアカウントの Kafka からデータを取得し、変換して、ストレージへの書き込みを行う。
  6. ステータスの通知:クラスタから、ステータスとアウトプットがクラスタマネージャーにレポートされる。

データエンジニアはコードを記述するだけです。Databricks が上記の全ステップを実行します。

コンプライアンス

Databricks は、規制の厳しい業界をはじめとするあらゆる業界のコンプライアンス要件に対応し、機密性の高いものを含む重要なデータを扱う多くのお客様に信頼されています。

デューデリジェンスパッケージ

Databricks のセキュリティをお客様にセルフサービスでレビューしていただけるよう、デューデリジェンスパッケージをご用意しています。このパッケージには、ISO 認証や年次ペネトレーションテストの確認書など、一般的なコンプライアンス関連のドキュメントが含まれています。エンタープライズセキュリティガイドおよび SOC 2 Type II レポートについては、Databricks のアカウントチームにお問い合わせください。

ダウンロード

認証・規格

背景

概要

Databricks では、プライバシーを重要視しています。Databricks を利用して分析するデータは、お客様の組織およびビジネスにおいて極めて重要であり、さまざまなプライバシーに関する法律や規制の対象となる可能性があることを理解しています。

お客様に関連するプライバシー要件に対する Databricks の取り組みについては、下記の資料で詳しく説明しています。

背景

Databricks ワークスペースのセキュリティインシデントの調査にご協力ください

ワークスペースのデータが漏えいしたおそれがある場合、データの不整合などの問題が発生した場合は、速やかに Databricks までご連絡ください。

Databricks から発信されたスパムや不審な通信

Databricks から、スパムメールその他の不審なメッセージ、不適切なコンテンツやマルウェアなど受信された場合は、速やかに Databricks までご連絡ください。

Databricks 製品の内部脆弱性スキャンレポート

脆弱性スキャンレポートの解釈に関するご質問については、Databricks サポートチャネルを通じてサポートリクエストを発行してください。その際に、スキャンの対象となった製品・バージョン、構成、生成されたレポート、スキャンの実施方法についての情報をあわせてご提供ください。

CVE が Databricks のワークスペースまたはランタイムに与える影響

サードパーティまたは Databricks の CVE の影響に関する情報が必要な場合は、Databricks のサポートチャネルを通じてサポートリクエストを発行してください。その際に、脆弱性情報データベース(NVD)に記載されている CVE の説明、重大度、リファレンスをあわせてご提供ください。

Databricks の製品・サービスに関するバグレポート

Databricks 製品における再現可能な脆弱性を発見された場合は、解決のため、情報のご提供をお願いいたします。HackerOne が運営する Databricks のバグバウンティ(公開バグ報奨金プログラム)にご参加ください。

背景

HIPAA

HIPAAは、保護されるべき健康情報に対するさまざまな保護を含む米国の法規制です。Databricks には HIPAA 準拠のデプロイメントオプションがあります。

対応クラウド

リージョン

Azure マルチテナント - 全てのリージョン

AWS シングルテナント- 全てのリージョン

AWS マルチテナント - us-east-1、us-east-2、ca-central-1、us-west-2