メインコンテンツへジャンプ

サイバーセキュリティアプリケーション向けDatabricks Lakehouseプラットフォーム

サイバーセキュリティ業界で最も秘密にされていること
Lipyeow Lim
デビッド・ウェルズ
アンナ・キュイジア
Share this post

翻訳: Masahiko Kitamura 

具体的なコードはIOCマッチングのソリューションアクセラレータのGitHub reoを参照ください。また、本ソリューションのPOC・トライアルについては[email protected] までご連絡ください。

 

金融機関、医療機関、政府機関がデータをクラウドに移行し、IoTセンサーや相互接続されたデバイスが増加しているため、サイバーセキュリティは依然として重要なデータ課題となっています。地政学的な脅威が続く中、企業は、大量のデータの処理、複雑なデータ処理タスク(人工知能や機械学習などの高度な分析機能を含む)のサポート、費用対効果の高い拡張が可能なDatabricks Lakehouseプラットフォームをサイバー業務に採用しています。Databricks Lakehouseプラットフォームは、データ、アナリティクス、AIを単一のプラットフォームで統合した、サイバーセキュリティ業界の隠れた標準基盤になっています。

企業やサイバーセキュリティベンダーは、Lakehouseのプラットフォーム上にサイバー製品やサービスを構築し、グローバルシステムインテグレーター(GSI)やパートナーは、Lakehouseの上にサイバーセキュリティソリューションを構築しています。

このブログでは、すべてのレイクハウスのお客様が活用できる、レイクハウス上でサイバーセキュリティのアプリケーションやソリューションを構築しているパートナーやお客様を紹介します。

Databricksでは、OptivDeloitteKPMGSlalomAccentureBooz AllenErnst & Youngといったグローバルなシステムインテグレーターやパートナーと提携し、レイクハウスのお客様がサイバーセキュリティソリューションを構築できるように支援しています。また、Lakehouseのお客様に革新的なアプリケーションを提供するために、主要なサイバーセキュリティISVと提携しています。Databricksは、SOCプラットフォームのHunters、AI/MLモデルのセキュリティのためのHiddenLayerAIShield、全文検索のためのMach5、GPUアクセラレーションのグラフ可視化とAIのためのGraphistry、データインジェストのためのMonad、 Cribl、クラウドデータセキュリティ用のTheomImmutaSecuritiPrivacera、セキュリティオーケストレーション、自動化および応答(SOAR)機能用のSplunkと提携しています。

Cybersecurity Ecosystem powered by Databricks

なぜお客様やパートナーはDatabricks Lakehouseを構築するのか?

#1 RCS(Retention-Cost-Scale)のトライアングル

現代のセキュリティ脅威の滞留時間がロングテール分布であることを考えると、サイバーセキュリティの防御者は、より長いセキュリティデータのウィンドウを分析する必要があるため、少なくとも1年間のデータ保持が必要です(SolarWindsのハッキングが良い例です)。長期保存されたセキュリティ・データに対するクエリ・パフォーマンスは、コストをかけずに高速である必要があります。従来のセキュリティツールは、RCSの三角形の3つの要件のうち、多くても2つを扱うことができますが、3つすべてを管理することはできません。Databricks Lakehouseプラットフォームは、ストレージとコンピューティングを分離することで、管理者の負担や追加インフラへの投資を必要とせず、長期保存クエリの作業負荷の増加に対応できるため、サイバーセキュリティアプリケーションにとって非常に費用対効果の高いプラットフォームとなっています。

例えば、HSBCはLakehouseを活用することで、総所有コストを下げながら、リテンションを拡大し、脅威ハンターが3倍以上の狩りを行えるようにしました。

#2 包括的で安全なビッグデータ・プラットフォーム

Databricks Lakehouseプラットフォームは、包括的で安全なビッグデータプラットフォームとして統一されています:

  1. バッチ処理とリアルタイムのストリーム処理
  2. 構造化データ、半構造化データ、非構造化データ
  3. アナリティクスとAI/機械学習

サイバーセキュリティISVのお客様は、脅威検出のレイテンシーについて厳しいサービスレベル契約(SLA)を結ばれていることが多く、リアルタイムのストリーム処理に依存する必要がある。しかし、脅威を発見するアプリケーションやコンプライアンスアプリケーションでは、コストを抑制するためにバッチ処理を活用することがあります。Databricks Lakehouseプラットフォームは、複雑なラムダアーキテクチャを使用せずに、バッチ処理とストリーム処理の両方をサポートします。例えば、アカマイのようなサイバーセキュリティISVは、Databricks Lakehouseプラットフォームのストリーミング機能を活用して、1秒間に10GBのイベントを選別し、顧客の安全を確保しています

Databricksがサイバーセキュリティに選ばれるもう一つの理由は、構造化、半構造化、非構造化など、あらゆるタイプのデータを扱えることです。サイバーセキュリティでは、半構造化JSONログ、非構造化テキスト、バイナリデータなどが多く扱われます。電子メール・セキュリティでは、構造化されていない電子メール・データを扱うことがよくあります。エンドポイントセキュリティでは、バイナリの実行ファイルやマルウェアを扱うことが多い。ネットワークセキュリティでは、バイナリパケットキャプチャ(「PCAP」)データを扱うことが多い。Databricks Lakehouseプラットフォームは、これら3種類のデータを大規模に保存、処理、分析することができる統合ビッグデータプラットフォームです。HSBCのような企業顧客は、脅威ハンティングやその他のサイバーセキュリティのユースケースのために、Databricks Lakehouseプラットフォームを使用して3種類のサイバーセキュリティデータをすべて保存、処理、解析しています。

Lakehouseの登場以前は、組織はデータをアナリティクス用のデータウェアハウスとAI/ML用のデータレイクに分けることを余儀なくされていました。Databricks Lakehouseにより、顧客は2つのテクノロジースタックを必要としません。サイバーセキュリティのようなビッグデータの問題では、数ペタバイトのデータの複数のコピーを維持する必要性を回避することで、AI/MLによるイノベーションを引き出すことができます。Databricksの機械学習機能は、潜在的なサイバーセキュリティの脅威を事前に特定するのに役立つ予測モデルの構築に使用することができます。これらのモデルは、大量のデータに対して学習させることができ、セキュリティ侵害やその他のセキュリティ問題を示す可能性のあるパターンや異常を特定することができます。AbnormalSecurityBarracuda NetworksなどのサイバーセキュリティISVは、Databricksを活用して、電子メールの脅威検出のための高度なAI/MLを開発しています。

上記のような包括的な機能を実現するためには、プラットフォームのセキュリティが必要です。Databricksはセキュリティに多層的なアプローチを採用し、ネットワークセキュリティ、データセキュリティ、アクセスコントロールを組み合わせて、お客様のデータの保護とプライバシーを可能にすることを支援しています。ネットワークセキュリティには、VPCとVNetの分離、ユーザーとデータのためのプライベートリンク接続、機密データの流出を防ぐためのIPベースのアクセスコントロールが含まれます。データセキュリティは、静止状態のデータにはSHA-256暗号化、転送中のデータにはTLS 1.2+を使用してサポートされています。

Unity Catalogは、ファイル、テーブル、機械学習モデル、ダッシュボードなど、Lakehouse内のデータとAI資産に対して、あらゆるクラウド環境での統一されたガバナンスを実現します。さらに、Databricksは、ロールベースアクセスコントロール(RBAC)やシークレット管理などのきめ細かなアクセスコントロールを採用し、ユーザーがデータにアクセスする際に適切な権限を持つことを保証しています。最後に、DatabricksはPCI DSS、HIPAA、HITRUST、FedRAMP、IL5の各サービスを通じて規制やコンプライアンスに対応し、厳しいセキュリティ基準への準拠を簡素化します。

#3 マルチクラウド、マルチリージョン

今日、ほとんどの企業は複数のクラウドやリージョンを利用しており、複数のクラウドやリージョンにあるリソースのサイバーセキュリティ監視が必要です。クラウドへのアクセスコストやデータ主権に関する規制により、必要なすべてのサイバーセキュリティデータを1つの中央ロケーションに統合することができないことがよくあります。お客様は、Databricks Lakehouseプラットフォームのマルチクラウド機能を活用して、各クラウドや各地域のDatabricksワークスペースでローカルに脅威検出を行いながら、すべてのDatabricksワークスペースを一つの論理データストアとしてクエリできる機能を提供するようになっています。Databricks Lakehouseプラットフォームはクラウドにとらわれず、複数のクラウドや地域のデータソースのフェデレーションを可能にすることで、イグレスコストを最小限に抑え、データ主権規制を遵守することができます。

Databricks Lakehouse プラットフォームのシンプルさ

防御的なサイバーセキュリティを向上させるためには「ベスト・オブ・ブリード」アプローチが最適であるという考え方もありますが、Databricks Lakehouseプラットフォームはそれとは異なるアプローチをとっています。Lakehouseのシンプルさは、ストリーミングとバッチ、構造化から非構造化、分析-AI/ML、複数のクラウドと地域、保持-コスト規模を統一することで、お客様の開発・イノベーションの速度を加速しています。当社のサイバーセキュリティISVパートナーは、新機能をより早く革新し、その機能を市場に投入するまでの時間を短縮し、競争上の優位性を持って市場に参入することができます。当社の企業顧客は、Databricks Lakehouseによって、急速に変化する脅威の状況に対応し、先手を打つことで、より俊敏に行動できるようになります。

サイバーセキュリティのためのDatabricksパートナーエコシステム

Databricksは、他のISVやSIと幅広く提携し、Databricks lakehouseパターンをサイバーセキュリティに採用するお客様の旅をサポートします。私たちのお客様の中には、Databricks Lakehouse上でサイバーセキュリティアプリケーションを自ら構築できる方もいます。当社のお客様の中には、支援を必要とし、OptivDeloitteKPMGSlalomAccentureBooz AllenErnst & YoungなどのSIパートナーに実装を依頼することも可能です。

AI&MLでDatabricks Lakehouseを利用されるお客様が多いので、提携させていただいています:

HiddenLayerBosch AIShield は、敵対的MLを含むAI/MLの脅威から保護する機能を提供します。

脅威の状況における複雑な関係を理解する必要があるため、グラフの可視化と分析は、サイバーセキュリティのアプリケーションとの関連性が高まっています。私たちは、GPUで加速されたグラフの可視化とAIのために、Graphistryと提携しています。

サイバーセキュリティの調査には、フルテキスト検索が欠かせません。私たちは、Delta Lakeのデータをフルテキストインデックス化し、KibanaなどのOpenSearch API互換ツールを使ってLakehouseのデータを検索できるようMach5と提携しています。

お客様が様々なサイバーセキュリティデータをLakehouseに取り込むために、MonadHuntersCriblと提携しています。

お客様がデータ不動産全体を管理・保護するために、TheomImmutaSecuritiPrivaceraと提携しています。

各組織の脅威情報を安全かつ非公開で共有・連携するために、クリーンルーム技術を持つHeliosDataと提携しています。

セキュリティのオーケストレーション、オートメーション、レスポンス(SOAR)機能については、SplunkTinesと提携しています。

セキュリティオペレーションについては、Huntersと提携し、完全なSOCプラットフォームソリューションを提供しています。Huntersは、お客様がDatabricksのワークスペースを持ち込むことができる、当社初のサイバーセキュリティISVパートナーです。Huntersの製品は、お客様が所有するLakehouseの上で動作することになります。このモデルのオープン性により、お客様はサイバーセキュリティデータを完全に所有し、コントロールすることができます。Lakehouse内のサイバーセキュリティデータを活用して、お客様がイノベーションを起こし、ビジネスをさらに保護する可能性を解き放つのです。

Databricksは、Databricks Marketplaceに脅威インテリジェンス・フィードを導入します。SlientPushTegoCyberは、データマーケットプレイスにおける最初の脅威インテリジェンスデータプロバイダーです。Databricksの顧客は、Delta Sharingを使用して、Databricksのレイクハウス内で脅威インテリジェンスフィードを簡単に活用できます。これらのフィードは、サイバーセキュリティのログ、テレメトリ、およびアラートを強化することができます。また、サイバーセキュリティのログを取り込む際にIoC(indicator-of-compromise)マッチングを行い、悪意のある活動を早期に検出することができます。

サイバーテックスタックを未来につなげる秘伝のタレをテストする準備が整いました

組織のサイバーセキュリティ状況を包括的に可視化することが、リーズナブルなコストで可能であるという秘密が明らかになりました。Databricks Lakehouseプラットフォームは、レガシーなサイバーセキュリティツールよりも低いTCOでリテンションコストスケールを提供できるため、可視性と態勢を向上させることができます。さらに、ジェネレーティブAIとLLMの台頭により、Lakehouseパラダイムはサイバーセキュリティのテクノロジースタックを将来にわたって保護することができます。Databricks DollyモデルのようなLLMテクノロジーは、業界におけるサイバーセキュリティの人手不足を緩和できるサイバーセキュリティの副操縦士機能で、サイバーセキュリティのオペレーションに革命を起こすことができます。

Databricks Lakehouseプラットフォームをサイバーセキュリティのためにテストすることができます。Databricksワークスペースをセットアップしたら、IOCマッチングソリューションアクセラレータのGitHubレポをクローンしてノートブックを実行します。お客様と一緒にProof-of-Conceptに取り組みたいと思いますので、ご質問があれば、[email protected] までご連絡ください。

Databricks 無料トライアル

関連記事

Hunting for IOCs Without Knowing Table Names or Field Labels

July 15, 2022 Monzy MerzaLipyeow Lim による投稿 in
There is a breach! You are an infosec incident responder and you get called in to investigate. You show up and start asking...

Security Operations on the Data Lakehouse: Hunters SOC Platform is now available for Databricks customers

March 27, 2023 Lipyeow LimGuy Yasoor による投稿 in
Cybersecurity is a big data problem: The growing volume and complexity of data flowing in and out of enterprises have created new cybersecurity...

Cybersecurity in the Era of Multiple Clouds and Regions

August 30, 2022 Zafer BilalogluLipyeow Lim による投稿 in
In 2021, more than three quarters of all enterprises have infrastructure in multiple clouds . This trend shows no signs of slowdown with...
業界一覧へ