この記事は、アムジェン(Amgen)社のプロダクトオーナー Jaison Dominic 氏と、ディスティングイッシュドソフトウェアエンジニア Kerby Johnson 氏によるゲスト執筆記事です。
世界最大の独立系バイオテクノロジー企業であるアムジェンは、長い間、イノベーションの代名詞とされてきました。40 年にわたり、新しい医薬品製造プロセスを開拓し、命を救う医薬品を開発し、世界中の何百万人もの人々の生活にプラスの影響を及ぼしてきました。患者さんに最高のサービスを提供するという使命を果たし続けるために、私たちは最近、完全なデジタル変革という新たなイノベーションのジャーニーに乗り出しました。
研究開発の生産性向上からサプライチェーンや商品化の最適化まで、ビジネス全体の成果を上げるためのデータ活用を再考する過程で、データチームが解決しようとしている問題の種類がここ数年で劇的に変化していることがすぐに明らかになりました。さらに、これらの問題は、もはやスキルセットや部門、機能によって隔離されているわけではありません。その代わりに、最も影響力のある問題は部門横断的であり、異なる独自の専門知識を持つ人々を集めて、斬新な方法で問題を解決することが必要でした。近代化を目指す私たちは、デジタル変革のジャーニーの基盤として Databricks レイクハウスプラットフォームを選びました。その結果、さまざまな組織でデータの潜在能力を引き出し、業務効率を合理化し、創薬を加速させることができました。
今日、私たちは、他の人々が私たちのジャーニーから学び、自らのビジネス戦略に活かしてくれることを願い、そのサクセスストーリーを分かち合います。
データウェアハウスからデータレイクへ ― その中の課題
アムジェン社の臨床試験、製造、商業化という 3 つ のコアバーティカルには、貴重なデータが豊富に存在します。しかし、データ量の増加により、そのデータを実際に効率的に利用することが課題となっていました。
私たちは、ビジネスのさまざまな側面を真に結びつけることができず、社内と顧客数の両方が拡大するにつれて、業務効率に影響を及ぼしていました。重要なのは、データへのアクセスと処理を容易にするだけでなく、データに対して異なる視点を持つペルソナを結び付け、部門を超えたコラボレーションを可能にするコネクテッドデータファブリックを実現することでした。もしあなたが 1 つか 2 つの視点からしか見ていないなら、他の人からの貴重なキーポイントを見逃すことになるでしょう。
例えば、次のような質問を考えてみましょう。どのように需要をきめ細かく予測すれば、必要としている患者さんに適切な量の治療薬を提供することができるでしょうか?
サプライチェーンと製造の観点から答えを見ている場合、商業販売予測データが不足しています。一方、販売予測を必要な生産量の福音と見なしたくはないでしょう。なぜなら、もし販売予測が大外れで、製造に必要な生産量を過小評価していたとしたらどうでしょう。
今日の問題を解決するために、企業は同じデータを複数のレンズから見ることができるように、 さまざまなデータの関係や接続に注目する必要があります。しかし、どうすればこれを可能にできるのでしょうか?アムジェンは、現代のデータ要件の基礎を以下のように分解しています。
- データは整理され、使いやすくなっている必要があります。
- データを共有し、自然な形で他者のデータを再利用することが必要です。
- アナリティクスは、信頼できるデータの共有ビューから操作できるようにする必要があります。
- 記述的分析(BI)から予測的分析(ML)まで、さまざまな形式の分析が、1 つのバージョンのデータで新しい発見や予測を促進するのに役立ちます。
- データは、新しい種類のものが入ってきたり、あるシステムから別のシステムに変わったり、新しいドメインが追加されたりするたびに進化していく必要がありますが、全ての核心は一貫している必要があります。
しかし、各チームがそれぞれ異なるデータを所有し、管理し、整理しているため、データを共有しようとすると別のプロジェクトが必要になるなど、直感的でないプロセスを持つ企業にとっては特に難しいことでした。私たちも、数年にわたり、使い道がないほど多くのデータを蓄積してきただけでなく、誰もが同じデータで仕事ができるようにするためのプロセスやインフラの欠如に苦労してきました。
初期のデータニーズに対応するため、数年前にレガシーテクノロジーのインフラから Hadoop ベースのデータレイクに移行しました。Hadoop データレイクでは、構造化データと非構造化データを一箇所に集めることができましたが、技術面でもプロセス、コスト、組織面でも、 データに関する大きな課題が残りました。共有クラスタは「Noisy Neighbor」問題を引き起こし、拡張が困難でコストがかかるという問題がありました。
プラットフォームのプロダクトオーナーである私の役割としては、単一の共有クラスターを管理することは悪夢でした。例えば、あるグループには高いストレージと低いコンピュート、別のグループには高いコンピュートと低いストレージというように、コストを分散して課金する方法を考えなければなりませんでした。
また、このアプローチでは、各グループのニーズを満たすためにさまざまなツールを組み合わせる必要があり、コラボレーションに大きな課題がありました。また、他の多くの企業と同様に、エンドユーザーがデータを利用する方法もさまざまでした。Jupyter Notebooks、R Studio、Spotfire、Tableau など、エンドユーザーがデータを利用する方法はさまざまで、データを必要とする人がすぐに利用できるようにすることは、複雑さと課題をさらに増やすことになったのです。
レイクハウスアーキテクチャが私たちの問題をどのように解決するか
Databricks レイクハウスプラットフォームを採用したことで、さまざまなチームやペルソナがデータをより有効に活用できるようになりました。この統一されたコラボレーションプラットフォームにより、あらゆるタイプのユーザーとその好みのツールが単一の環境で利用できるようになり、一貫したデータセットに裏打ちされたオペレーションを維持することができるようになりました。
私たちは、Delta Lake を活用して、ACIDコンプライアンス、ヒストリカルルバック、そして開発者がコーディングを始める際の障壁を下げ、データアナリストやデータサイエンティストが同様にサプライチェーンの最適化やオペレーション改善にデータを活用できるよう共通のデータレイヤーを提供しています。また、AWS Glue を利用して異なる Databricks 環境を接続することで、データが 1 つの AWS アカウントに保存されているか、10 個の異なるアカウントに保存されているかを問わず、1つのデータレイクとなります。すべてつながっているのです。
これにより、データと分析のために Apache Spark™ を標準化しながら、様々なニーズに対して十分な柔軟性を提供することができました。レイクハウス内の統一されたデータレイヤーにより、アムジェン社はあらゆる種類とサイズのデータを確実に処理することができ、同時にアプリケーションチームにはビジネスを前進させる柔軟性を提供することができます。
欲しいクラスターの大きさは?予算は?レポートを 1 時間早く出すことが重要なのか、それともコストを削減することが重要なのか?このような判断は、個々のチームでもできるようになりました。このようにツールや言語を標準化し、データサイエンティスト、アナリスト、エンジニアのためのシングル・ソース・オブ・トゥルースを実現することで、コネクテッド・チームの実現が可能になったのです。