メインコンテンツへジャンプ

この4回にわたるブログ・シリーズ"Lessons learned from building Cybersecurity Lakehouses,"では、サイバーセキュリティ・データ用のレイクハウスを構築する際に、組織がデータ・エンジニアリングで直面する多くの課題について説明し、それを克服するために私たちが現場で使用したソリューション、ヒント、コツ、ベスト・プラクティスを紹介する。 このシリーズでは、サイバーセキュリティのレイクハウスを作りたいとお考えの方に、課題を学び、進むべき道を提案します。

Databricksは、サイバーログを効率的に処理し、標準化するための実用的なローコード・コンフィギュレーション・ソリューションを構築した。 当社のLakehouseプラットフォームは、データエンジニアリングを簡素化し、検索、分析、ストリーム型脅威検知への迅速な移行を促進します。 既存のSIEMやSOARシステムを補完し、不必要に複雑化することなくサイバーセキュリティ運用を強化します。

第1部では、サイバー分析エンジンの最も基本的な要素である、統一されたイベントのタイムスタンプ抽出から始めます。 正確なタイムスタンプは、セキュリティ運用とインシデント対応において最も重要な要素の一つである。 正確さがなければ、システム利用者や悪意ある行為者が起こした一連の出来事を生成することは不可能である。 このブログでは、イベントのタイムスタンプ情報を特定し、抽出し、デルタ湖に変換し、サイバーコンテキスト内で使用できるようにするために利用可能な戦略のいくつかを見ていきます。

なぜイベントの時間が重要なのか?

機械が生成したログデータは、よくても厄介だ。 特定のファイル・タイプ(JSON、YAML、CSVなど)には明確に定義された構造があるが、それらのファイルを構成するデータの内容と形式は、大部分が開発者の解釈に任されている。 時間フォーマットは存在するが(ISO 8601)、それらに準拠することは限られており、主観的である。おそらく、ログフォーマットはこれらの標準よりも前に存在したものであるか、特定のフォーマットに対する地理的バイアスがタイムスタンプの書き方を左右しているのだろう。

ログに報告される様々な時間形式にもかかわらず、私たちは、どのようなサイバーエンジンでも受信され分析されるすべてのログデータとの相互運用性を確保するために、それらを正規化する責任がある。

タイムスタンプ間の相互運用性の重要性を強調するために、典型的なセキュリティ・オペレーション・センター(SOC)が毎日答えなければならないタスクのいくつかを考えてみよう。

  • 攻撃者が最初に侵入したのはどのコンピューターか?
  • 攻撃者はどのような順序でシステムからシステムへと移動したのか?
  • 最初の足場が築かれた後、どのような活動が、どのような順序で行われたのか?

正確で統一されたタイムスタンプがなければ、これらの質問に効果的に答えるために発生した活動のタイムラインを作成することは不可能である。 以下では、いくつかの課題を検討し、それらにどのようにアプローチするかについてアドバイスする。

タイムスタンプの問題

複数列か単一列か:イベントのタイムスタンプを解析する方法を考える前に、まずそれを分離しなければならない。 これは、ログフォーマットやスパークリード操作によっては、すでに自動的に行われている場合がある。 しかし、そうでない場合もある。 例えば、カンマ区切り値(CSV)ファイルは、個々の列としてSparkによって抽出される。 もしタイムスタンプがこれらのどれかで分離されているなら、素晴らしいことだ! しかし、syslogデータを生成するマシンは、単一のカラムとしてランドされる可能性が高く、タイムスタンプは正規表現を使って分離されなければならない。

日付と時刻のフォーマット:これらはログファイルに多くの混乱を引き起こす。 例えば、「12/06/12」と「06/12/12」。 どちらの形式も有効だが、ローカルシステムのログ形式を知らなければ、日、月、年を特定するのは難しい。

タイムゾーンの特定:データと時刻のフォーマットと同様に、タイムスタンプのタイムゾーンを報告するシステムもあれば、ローカル時刻を想定してタイムゾーンをまったく表示しないシステムもある。 すべてのデータソースが同じタイムゾーン内で報告され、分析されるのであれば、これは問題ではないかもしれない。 しかし、組織は、今日の接続されたグローバルな世界では、複数のタイムゾーンから数十、数百のログソースを分析する必要がある。

イベントのタイムスタンプを識別、抽出、解析するには、ストレージシステム内で時間を一貫して効果的に表現する必要があります。 以下は、syslogスタイルのApacheウェブサーバーからタイムスタンプを抽出して解析する方法の例である。

タイムスタンプの抽出 シナリオ

次の例では、標準的なアパッチ・ウェブ・サーバーのログ・フォーマットを見てみましょう。 データはテキストレコードとして生成され、Databricksでは単一のカラム(値)として読み込まれます。 したがって、正規表現を使ってイベントのタイムスタンプを抽出する必要がある。

タイムスタンプの抽出 シナリオ

1列のデータからイベントのタイムスタンプを抽出する正規表現例:

from pyspark.sql.functions import regexp_extract
TIMESTAMP_REGEX = '^([^ ]*) [^ ]* ([^ ]*) ˶[([^]]*)˶]'
df1 = df.select(regexp_extract("value" 、 TIMESTAMP_REGEX, 3).alias('_raw_time'),"*")
display(df1)

PySparkのregexp_extract関数を使用して、イベントのタイムスタンプを持つ文字列の部分を抽出し、一致する文字で_raw_timeカラムを作成します。

結果のデータフレーム:

結果のデータフレーム

タイムスタンプの解析

イベントのタイムスタンプが新しいカラムとして抽出されたので、ISO 8601標準のタイムスタンプに正規化することができます。

タイムスタンプを正規化するには、日付/時刻フォーマット修飾子を使ってフォーマットを定義し、ISOフォーマットのタイムスタンプフォーマットに変換する前にunixスタイルのタイムスタンプに変換する必要がある。

TIMESTAMP_FORMAT ="dd/MMM/yyyy:HH:mm:ss Z"

ISO 8601フォーマットのイベントタイムスタンプへの変換例:

from pyspark.sql.functions import to_timestamp, unix_timestamp, col
TIMESTAMP_FORMAT="dd/MMM/yyyy:HH:mm:ss Z"
 df2 = df1.select()
to_timestamp(unix_timestamp(col("_raw_time"), TIMESTAMP_FORMAT).cast("timestamp"),"dd-MM-yyyy HH:mm:ss.SSSZ").alias("_event_time").
)
display(df2)

PySparkの関数unix_timestampと to_timestampを使って、新しいメタデータカラム_event_timeを生成します。

結果のデータフレーム:

結果のデータフレーム

結果のカラムはTimestamp Typeにキャストされ、一貫性とデータの整合性が確保される。

ヒントとベストプラクティス

サイバーアナリティクスで多くのお客様を支援する過程で、インジェスト体験を大幅に向上させる貴重なアドバイスやベストプラクティスをいくつか集めました。

明示的な時刻フォーマット:パーサーを構築する際、時刻フォーマットを明示的に設定することで、正確なタイムスタンプカラムを返すフォーマットを見つけるために多くのフォーマットをテストする必要があるジェネリックライブラリにカラムを渡す場合と比較して、パースタスクが大幅にスピードアップします。

カラムの命名:メタデータのカラムの前にアンダースコアを付ける。 これにより、機械が生成したデータとメタデータを簡単に区別することができ、データフレームやテーブルではデフォルトで左寄せで表示されるという特典もある。

イベント時間とインジェスト時間の比較:データ伝送に遅延が生じる。 インジェスト時間に関する新しいメタデータ・カラムを追加し、現在遅れている、あるいは欠落しているデータ・ソースを特定するための運用上の厳密性を確立する。

デフォルト:タイムスタンプの欠落や未確定に対して戦略を立てる。 物事はうまくいかないこともあるし、うまくいかないこともある。 欠落したタイムスタンプをどのように処理するかについて、判断の判断を下す。 私たちが目にした戦術のいくつかを紹介しよう:

  • 日付をゼロ(1970年01月01日)に設定し、データを特定し修正する運用の厳密さを作り出す。
  • 日付を現在のインジェスト時刻に設定し、データを識別して修正するための運用上の厳密性を作り出す。
  • パイプラインを完全に失敗させる

まとめ

サイバー脅威を調査するためにイベントシーケンスとタイムラインを生成するために、整った正確なイベントタイムスタンプは、企業のセキュリティオペレーションとインシデントレスポンスにとって非常に重要です。 すべてのデータソースにおける相互運用性がなければ、効果的なセキュリティ態勢を維持することは不可能である。 正規表現の抽出やデータソースの不一致の解析など、複雑な作業がこれを支えている。 多くの顧客がサイバーセキュリティ・レイクハウスを構築するのを支援する中で、我々はこのプロセスをスピードアップする実用的なソリューションを生み出してきた。

お問い合わせ

このブログでは、半構造化ログファイルで遭遇する可能性のあるタイムスタンプ抽出の問題を、一つの例として取り上げた。 Databricksのサイバーソリューションが、サイバー脅威を特定し、軽減するためにどのようにあなたの組織を強化できるかについてもっと知りたい場合は、[email protected]までご連絡ください。 そして、サイバーセキュリティ・アプリケーションのための新しいレイクハウスのウェブページをご覧ください。

Databricks 無料トライアル

関連記事

サイバーセキュリティアプリケーション向けDatabricks Lakehouseプラットフォーム

翻訳: Masahiko Kitamura 具体的なコードはIOCマッチングのソリューションアクセラレータの GitHub reo を参照ください。また、本ソリューションのPOC・トライアルについては [email protected] までご連絡ください。 金融機関、医療機関、政府機関がデータをクラウドに移行し、IoTセンサーや相互接続されたデバイスが増加しているため、サイバーセキュリティは依然として重要なデータ課題となっています。地政学的な脅威が続く中、企業は、大量のデータの処理、複雑なデータ処理タスク(人工知能や機械学習などの高度な分析機能を含む)のサポート、費用対効果の高い拡張が可能なDatabricks Lakehouseプラットフォームをサイバー業務に採用しています。Databricks Lakehouseプラットフォームは、データ、アナリティクス、AIを単一のプラットフォームで統合した、サイバーセキュリティ業界の隠れた標準基盤になっています。 企業やサイバーセキュリティベンダー
プラットフォームブログ一覧へ