翻訳:Motokazu Ishikawa - Original Blog Link
このブログは、Amgen社の情報システム担当シニアマネージャーであるJaison Dominic氏と、ZS Associates社のアーキテクチャ・エンジニアリング担当ディレクターであるLakhan Prajapati氏によ って執筆されました。
世界最大の独立系バイオテクノロジー企業であるAmgenは、長い間イノベーションの代名詞でした。40年にわたり、新しい医薬品製造プロセスを開拓し、命を救う医薬品を開発し、世界中の何百万人もの人々の生活にプラスの影響を与えてきました。
データとAIは、当社の事業戦略にとって極めて重要です。当社の企業内にデータが豊富にあることを認識し、当社のビジョンは、セルフサービスのガバナンス機能を通じてデータ分析にアクセスできるデータ主導型の組織を確立することでした。モダナイゼーションを追求する中で、当社はデジタルトランスフォーメーションの旅の基盤としてDatabricks Lakehouse Platformを慎重に選択しました。この戦略的決定により、さまざまな部門にわたってデータとAIの真の可能性を引き出すことができ、業務効率の合理化と創薬の加速につながりました。制限付きデータや機密データを含む多様なドメインでデータレイクを継続的に充実させることで、当社の影響力はさらに拡大します。
さらに、当社の取り組みを補完するために、データガバナンスを強化する必要性を認識しました。当社の以前のデータガバナンス・ソリューションは、複雑で管理が難しく、きめ細かなアクセス制御ができないことが判明しました。このような障害に対処し、企業内での当社のガバナンス機能の普及 を促進するため、当社は最近、DatabricksのUnity Catalogを当社のガバナンスプロセスに統合しました。この統合は、きめ細かなアクセス制御を提供しながら、ユーザーフレンドリーで管理を簡素化する堅牢なソリューションを提供することで、データガバナンスを強化するものです。
今日、私たちは、他の人々が私たちの旅から学び、自身のビジネス戦略に適用できることを期待して、これまでの進捗と成功を共有します。
ガバナンスにIAMロールを使用するのは管理が難しく、きめ細かなアクセス制御を欠いていた
Amgenは、コンプライアンスが業務の要となる、規制の厳しい業界で事業を展開しています。私たちは、制限されたデータや機密データに対する適切なガバナンスと監査可能性の重要性を認識しています。データの民主化はエンタープライズデータレイク構想の当初の目的であり、Amgenのすべてのユーザーが利用可能なデータにアクセスできるようにすることでした。しかし、データレイクに機密データを含めることで、より強固なデータアクセスガバナンスの必要性が浮き彫りになりました。
以前は、AWS Glueをエンタープライズデータカタログとして利用し、ロールベースのアクセス制御のためにAWSのアイデンティティとアクセス管理(IAM)に依存していました。これには、独自のユースケースに対応するために、個別のIAMロールを作成し、特定のクラスタに関連付ける必要がありました。しかし、多 数のグループと関連するクラスタリソースを個別に管理することは、大きな課題でした。さらに、IAMロールはストレージへのアクセスのみを管理し、メタデータには誰でもアクセスできる状態になっていました。きめ細かなアクセス制御がないため、監査は複雑なタスクとなり、データアクセスと実行されたクエリを効率的に監査する能力を妨げていました。
このような課題に対処するため、私たちはユーザーレベルのアクセスとユーザー属性ベースのアクセス制御に移行する必要性を認識しました。例えば、ユーザーにはコストセンターなどの属性が割り当てられ、財務部内のデータは割り当てられたコストセンターに基づいて管理されます。しかし、IAMのロールを使ってユーザー属性ベースのアクセス制御を実装するには、膨大な数のロールを作成する必要があり、管理上の負担が大きいものでした。
私たちは、既製のガバナンス・ツールをいくつか評価しました。データベースレベルでのテーブル管理など、すぐに必要な要件を満たすツールもありましたが、EDW(財務)や Workday(人事)のような高度に制限されたデータ領域では不十分であることがわかりました。さらに、Databricks クラスタ上でこれらのツールをバイパスし、潜在的な脆弱性を生み出し、すべてのクラスタにまたがる包括的なカバレッジを確保し、ソリューションをスケーリングすることに懸念がありました。 さらに、選択したクラスタ上でプラグインを維持することは、スクリプトの一貫性と継続的なメンテナンスの点で課題がありました。
Unity Catalogへの移行により、アクセス管理が簡素化され、コンプライアンス違反やセキュリティインシデントを根絶
現在、当社のユースケースの90%はDatabricksを使用しています。そのため、長期的にはDatabricksネイティブのガバナンスソリューションが必要だと感じていました。その方向で動き始めるために、私たちはUnity Catalogに目を向けました。
Unity Catalogを採用したことで、いくつかのメリットがすぐに得られました。
- まず、少なくとも120以上のIAMロールを作成・管理する必要がなくなりました。Unity CatalogとUnity Catalogが提供するAPIを通じてアクセスを制御できます。すべてはアクセス制御リスト(ACL)やダイナミックビューで管理されます。その結果、数百のIAMロールから、1つか2つの主要なIAMロールだけになりました。
- 2つ目のメリットは、監査が容易になったことです。Unity Catalog ACLの編集は、IAMポリシーを解析して誰がどのアクセス権を持っているかを特定するよりもはるかに簡単です。これにより、この機能の監査作業が50%削減されました。クエリの履歴から、誰がどの時点でどのデータにアクセスしたかを確認できるようになりました。
- Unity Catalogは管理が簡単です。専用クラスタベースのアクセスから、ユーザーとロールベースのアクセス制御を備えた共有クラスタプールに移行することができ、Databricksのコストを10~20%削減できました。
- 全てが中央で統合され、部門横断のシームレスなデータ分析が可能となり、Databricksのエコシステムとの緊密な統合により、真の差別化を実現しています。
Unity Catalogには約500のオブジェクトがマッピングされ(さらに増加中)、ACLSを通じて管理されています。Unity Catalogに移行して以来、データガバナンスとコンプライアンス遵守に対する信頼性が高まりました。より多くの機能をオンボーディングするようになれば、こうしたメリットはさらに大きくなると期待しています
Databricks Unity Catalogの成功からさらに発展
これは私たちの旅の初期段階に過ぎません。私たちにはさらに大きなビジョンがあり、データ資産の大部分をAWS GlueからUnity Catalogに移行するという目標に向けて、戦略を熱心に練っています。当社のエンタープライズデータランドスケープは、多数のデータドメイン、数千のデータベース、数百万のオブジェクトを網羅しているため、Unity Catalogは当社のデフォルトカタログになる準備が整っています。この戦略的転換により、当社のデータエコシステムが合理化、統一化され、当社の広範なデータリソースのシームレスな管理と探索が可能になります。
私たちはUnity Catalogのデータリネージ機能を使用して、観測可能性を強化し、データ作成に対する信頼性を構築し、私たちのデータエステート全体で機密データの使用状況を追跡します。さらに、Unity CatalogのDelta Sharingを外部とのデータ共有に活用することにも意欲的です。現在、社内でデータを共有していますが、Delta Sharingを通じて複数のベンダーと外部データの収集と共有を積極的に検討しています。
結論として、Unity Catalogの統合により、ファイナンスやWorkdayを含むAmgenの制限付きデータセットに対して、正確かつ複雑なガバナンスポリシーを導入する能力が強化されました。この目覚ましい成果は、当社のデータエンジニアリング部門に大きな熱意を呼び起こし、Unity Catalogが中心的なメタストアおよびアクセス管理サービスとして機能することで、当社のデータプラットフォームへの投資拡大につながりました。来年を展望すると、Unity CatalogはAmgenにおけるアプリケーション・データ消費の80%以上を容易なものとし、1万人を超えるアクティブ・ユーザーの膨大なユーザー・ベースに恩恵をもたらすと予想しています。このシフトにより、当社は監査とアクセス管理において60~80%の効率改善を達成する態勢を整え、アナリティクスの提供を拡大し続ける当社の成功に向けた確固たる地位を築くことができます。
詳しくは、Data and AI Summit 2023での当社のプレゼンテーションをご覧ください。