データレイクハウスでビットコインマイナーからコンピューティングリソースを守る

Protecting Your Compute Resources From Bitcoin Miners With a Data Lakehouse

公開日: August 3, 2023

によって Anirudh Kondaveeti による投稿

Community Editionに代わり、Free Editionでは無料でより充実した機能をご利用いただけます。ぜひ今日からぜひFree Editionをお試しください。

翻訳：Junichi Maruyama. - Original Blog Link

暗号通貨、特にビットコインの人気が高まるにつれ、ビットコインのマイニング現象が起きている。通常の採掘作業はブロックチェーンの検証とセキュリティにとって重要である一方、悪意のある行為者が違法な採掘目的でクラウド・コンピューティング・リソースを悪用するという不穏な傾向も現れている。これは高価な処理リソースを浪費するだけでなく、クラウドサービスプロバイダーとそのクライアントの双方に深刻なセキュリティ上の脅威をもたらします。効果的な脅威の検知と対応は、高度な脅威検知のためのスケールや機能を提供しないサイロ化されたツールのコストと複雑さが課題となっています。

このブログでは、ビットコインマイニングの悪用に対抗するためにデータレイクハウスをどのように活用できるかを見ていきます。組織はレイクハウスを使用してペタバイト級のデータを分析し、高度な分析を適用してサイバーリスクと運用コストを削減することができます。DatabricksのLakehouseプラットフォームは、大量のデータを処理し、複雑なデータ処理タスク（人工知能や機械学習などの高度な分析機能を含む）をサポートし、コスト効率よく拡張できるため、組織はサイバー業務の悪意ある意図と戦うことができます。Databricks Lakehouseプラットフォームは、データ、アナリティクス、AIを単一のプラットフォームで統合したサイバーセキュリティのための隠れた逸品です。

Databricks Community Edition (CE)は、マイクロクラスタ、クラスタマネージャ、ノートブック環境にアクセスできるDatabricksの無料版で、教育/トレーニング目的でのみ利用できます。

無料版でのビットコインマイニングの悪用を排除する

ビットコインマイニングは、トランザクションを検証し、ビットコインブロックチェーンに追加するためにコンピューティングリソースを使用するプロセスです。悪意のある行為者は、収入を得る方法としてビットコインマイニングに従事することが多く、盗んだコンピューティングリソースを使用してこれを行います。Databricks Community Editionが提供する無料のコンピューティングパワーは、ビットコインマイナーやその他の悪用ユーザーにとって有利です[1]。

あるユーザーが、Databricksや他のクラウドプロバイダーを通じて、無料または低コストのコンピューティングリソースにアクセスできたとします。その場合、これらのリソースを使用して、自分でハードウェアを購入するよりも効率的かつ有益にビットコインをマイニングできる可能性がある。ボットやヒューマンファームが大量にサインアップしたことで、CEのリソースが不正行為に流用され、正当なユーザーがCEを利用できなくなった。これにより、サービスの中断、ユーザビリティへの悪影響、運用コストの増加が発生しています。

レイクハウスを活用した虐待撲滅のためのデータ主導型アプローチ

ビットコインマイニングに関連する不正使用を削減するための当社のアプローチは、Lakehouseプラットフォームを使用することです。Databricks Lakehouse Platformは、組織が構造化データおよび非構造化データを保存および管理できるようにする統合データプラットフォームです。レイクハウスのパワーを活用することで、組織は不正使用をより効果的に検出し、防止することができます。

CEを使用する場合、ノートブックの作成やジョブスケジューリング、クラスタの使用状況など、Databricksワークスペースの使用状況に関するデータが取得され、構造化、半構造化、非構造化などさまざまな形式でログとして保存され、脅威を検出するために分析されます。

CEの悪用に対抗するため、私たちはデータ駆動型のアプローチを採用しました。私たちのデータチームは、Lakehouse上に構築されたシステムを開発し、ログデータから特徴を計算し、さまざまな下流の機械学習モデルが不正使用を検出するために使用しています。これはすべてDatabricks上で行われます！

Databricksは、CEサービスの一環として収集および処理される個人情報のプライバシーとセキュリティの保護に努めています。

機械学習による不正使用パターンの特定

私たちのチームは、レイクハウスを使用して訓練された特定の活動や不正使用行動パターンを学習するために、機械学習手法を活用しました。このシステムは、事前に訓練された教師あり学習モデルを使用して、ユーザー・アクティビティ・データから不正行為のパターンを特定する。例えば、CEアカウントにサインアップする際に使用されるドメイン名のパターンを学習することで、不正利用者が使用する一般的なドメイン名を特定することができる。

我々は、ドメインの特徴に基づいてドメイン名を分類する教師あり学習システムを開発する。特徴量は各ドメインから抽出され、ドメインを特徴付ける。我々は数ヶ月にわたってドメインのコーパスを収集し、各ドメインは、そのドメインから悪用活動が検出されたかどうかに応じて、「悪質」または「良性」としてラベル付けされる。"gmail.com "のような特定のドメインは、不正使用にも本物の活動にも使用される可能性があり、そのようなドメインは "平均 "としてラベル付けされます。以下の図1は、いくつかのドメイン名のトレーニングデータを示しています。

Figure 1: Domain features and labels of few domain names used for training — Figure 1: トレーニングに使用したドメイン名の特徴とラベル

モデル管理のためのMLflowの使用

これらのドメイン特徴を用いて分類器を学習する。実験パラメータ、メトリクス、成果物を追跡でき、scikit-learn などの幅広い機械学習ツールと統合できるため、モデル管理には MLflow を使用します。分類器のハイパーパラメータを変化させることで、MLflowで様々な実行を個別の実験として追跡します。精度、リコール、偽陽性率などの評価指標は、各実験について記録されます。MLflow の API を使用して、異なる実験の評価指標を比較することができます。特定の評価指標に基づいて実験をフィルタリングし、ソートすることで、最もパフォーマンスの高いモデルを特定することができます。最良のモデルは、将来の使用のために MLflow のモデルレジストリに登録し、本番環境でデプロイすることができます。

このシステムはLakehouse Platformを使用してリアルタイムに展開され、悪用ユーザーを迅速に特定します。リアルタイムの監視と検知により、不正利用がコンピューティングリソースに損害を与える前に止めることができます。そのために、サインアップのプロセス中に、MLflowモデルレジストリに登録されたドメイン分類モデルを使用して、各新規ドメインが分析されます。ドメインが不正使用と判断された場合、そのドメインは今後のサインアップからブロックされます。

以下の図2は、ドメイン分類モデルのエンドツーエンドのワークフローを示しています。

Fig 2: Domain classification using MLflow

アンサンブル・アプローチによる不正検出

このシステムは、サインアップ時に疑わしいドメインをブロックすることに加え、ユーザー・ジャーニーの各段階でビットコインのマイニング活動を検出するためにアンサンブル技術を使用しています。ユーザーの行動を要約するために、データから行動特徴が生成されます。これらの特徴を分析することで、私たちのチームは、高いCPU使用率や異常なネットワーク活動など、ビットコインマイニングに関連する疑わしい活動を特定することができます。システムは異常検知アルゴリズムを採用し、不正利用ユーザーに対応する行動特徴の異常を検知する。例えば、ユーザーのコンピュート・リソースにおける不規則性は、ビットコインのマイニング活動を示唆する可能性がある。

ビットコインマイニングプールの配布サイトであるBTC.comによると、上位5つのマイニングプールがビットコインネットワーク全体のハッシュレートの60％以上を支配している。これらのプールは、ブロックを採掘して報酬を得るチャンスを増やすために協力する、複数のアカウントを持つ多数の個人マイナーで構成されています。このようなマイニング活動のクラスターを検出することは、悪意のあるアクターからコンピューティングリソースを保護するために非常に重要になります。クラスタリングは、類似したオブジェクトをグループ化するために使用される教師なし学習技術です。このシステムでは、クラスタリング・アルゴリズムを使用して、ユーザー行動の類似パターンをグループ化します。これらのクラスタが不正使用の兆候であるかどうかを判断するために評価され、不正使用クラスタを自動的に検出するためにプロセスが自動化されます。

レイクハウスを使ったモデル・パフォーマンス・モニタリング

データを監視し、不正使用アクティビティに関連するトレンドやパターンを特定するために、システムはDatabricks SQLを使用してビジュアライゼーションを作成します。例えば、使用された総コストや計算量をリアルタイムで可視化することで、突発的なスパイクに対応する不正使用関連の異常なアクティビティを特定することができます。私たちは、時系列プロット、ネットワークトラフィックの可視化、ヒートマップなど、あらゆる種類の可視化の概要を提供するダッシュボードを使用しています。

Figure 3: Time series plot of cluster uptime each day

誤検知は、検知されない実際の悪用行為から注意をそらすため、高くつきます。Databricks ワークスペースが悪用されていると判断された場合、さらなる悪用を防ぐためにそのワークスペースをキャンセルします。ワークスペースが誤ってキャンセルされると、タスクが中断され、ユーザが不幸になる可能性があります。誤検知率を低くするために、システムはMLflowを使用して、Lakehouseに保存されている最もパフォーマンスの高い機械学習モデルを比較・選択します。異なるモデルを比較し、ハイパーパラメータを調整することで、MLflowはモデルの精度を向上させ、誤検出を減らすことができます。このシステムによる誤検知は非常に少なく、システムはCEコストの持続的な減少を達成することができる。

不正使用パターンは時間とともに進化している。MLflowは、新しいデータが利用可能になると、機械学習モデルを自動的に再学習させることができます。これにより、モデルは最新のデータと不正使用パターンに対応した最新の状態に保たれます。

Databricks Lakehouseを使用してビットコインのマイニングを削減するメリットは以下の通りです：

スケーラビリティ： Databricksは大量のデータを処理できるため、多数のユーザーの不正行為を検出できます。
効率性： Databricks はデータを迅速に処理できるため、リアルタイムで不正利用を検出できます。
適応性： Databricks は、ユーザ行動の変化に適応できるため、新しいタイプの不正利用活動を検出できます。
正確性： Databricksは、モデルを微調整し、低い誤検知率を達成することで、不正利用活動をより正確に検知することができます。

まとめ

このブログでは、組織がDatabricks Lakehouse Platformを使用して膨大な量のデータを分析し、高度なアナリティクスを適用し、機械学習モデルを実装して、悪意のある意図を効果的に検出して防止する方法について説明しました。データ、アナリティクス、AIを単一のプラットフォームに統合することで、Databricksはサイバーセキュリティの課題に正面から取り組むためのシームレスなソリューションを提供します。

悪用に対する防御を強化し、クラウドコンピューティングリソースを保護する機会をお見逃しなく。Lakehouse Platformの可能性を受け入れ、データプライバシーとセキュリティの保護に特化したコミュニティに参加しましょう。私たちは共に、すべての人にとってより安全なデジタル環境を作り上げることができるのです。

References:
[1] The Economics of Bitcoin Mining, or Bitcoin in the Presence of Adversaries Joshua A. Kroll, Ian C. Davey, and Edward W. Felten, Princeton University