翻訳: junichi.maruyama
本記事は、データとAIの変革イニシアチブを率いるシニアエグゼクティブと重要な洞察と戦術を共有する複数回シリーズのパート4です。シリーズのパート3はこちらでお読みいただけます。
効果的なデータおよびAIソリューションは、レポート、モデル、アルゴリズムの洗練度や複雑さよりも、利用可能な質の高いデータの量に依存しています。Googleの論文「The Unreasonable Effectiveness of Data」は、この点を実証しています。ここから得られるのは、組織は、データ市民が仕事を遂行するために、関連性の高い高品質のデータを最も幅広く利用できるようにすることに力を注ぐべきだということです。これによって、収益拡大、コスト削減、リスク低減の新たな機会が生まれる。
80/20のデータサイエンスのジレンマ
既存のデータ環境の多くは、そのデータが主に特定のビジネスユニット(BU)内の異なるオペレーションデータストアに保存されており、これがいくつかの課題を生み出しています:
- ほとんどのBUは、BU横断的な機会を活用することなく、自分たちのデータのみに基づいたユースケースを展開しています。
- スキーマは一般的に、BUや部署の外ではよく理解されておらず、データベース設計者やパワーユーザーだけがデータを効率的に利用することができるようになっています。これは「部族的知識」現象と呼ばれる。
- 承認プロセスや異なるシステムレベルのセキュリティモデルにより、データサイエンティストが必要なデータに適切にアクセスすることが難しく、時間がかかってしまう
分析を行うために、ユー ザーは複数のシステムにログインしてデータを収集することを余儀なくされています。これは、シングルノードのデータサイエンスツールを使って行われることがほとんどで、ローカルディスクドライブや各種ネットワーク共有、ユーザーが管理するクラウドストレージに保存されているデータの不要なコピーを生成します。場合によっては、本番プラットフォーム環境内の「ユーザースペース」にデータがコピーされることもある。これは、真のプロダクションワークロードの全体的なパフォーマンスを低下させる可能性が高いです。
さらに悪いことに、これらのデータのコピーは、一般的に、MLやAIワークロードで最高のモデル性能を得るために必要なフルサイズのデータセットよりもはるかに小さいものです。小さなデータセットは、探索、実験、モデル開発、モデルトレーニングの効果を低下させ、本番環境に導入してフルサイズのデータセットを使用したときに、不正確なモデルになってしまいます。
その結果、データサイエンスチームは、データセットの整理に80%の時間を費やし、分析作業の実行に20%しか時間を割けないという状況に陥っています。これは、競争力を維持し、画期的な結果を出したいと考えている組織にとって、深刻な問題です。
生産性を低下させるもう一つの要因は、エンドユーザーがデータへのアクセスを許可される方法です。セキュリティポリシーでは、通常、粗い粒度と細かい粒度の両方のデータ保護が必要です。つまり、データセットレベルでのアクセスは許可するが、データセット内の特定の行や列へのアクセスは制限する(きめ細かい)。
データアクセスロールの合理化
粗い粒度と細かい粒度のアクセスを提供する最も一般的なアプローチは、役割ベースのアクセス制御(RBAC)と呼ばれるものを使用することです。個々のユーザーは、システムレベルのアカウントにログオンするか、シングルサインオン認証およびアクセス制御ソリューションを介してログオンします。
ユーザーは、1つまたは複数のLDAP(Lightweight Directory Access Protocol)グループに追加されることで、データにアクセスすることができます。これらのグループを特定し、作成するための戦略はさまざまですが、通常はシステムごとに行われ、粗いアクセス制御と細かいアクセス制御の組み合わせごとに1対1のマッピングが行われます。データアクセスに対するこのようなアプローチは、通常、ユーザーグループの急増をもたらします。定義された職務の数ははるかに少ないにもかかわらず、大組織では数千の個別のセキュリティグループが存在することも珍しくありません。
このアプローチは、大組織におけるセキュリティ上の最大の課題の1つを生み出しています。社員が退職する場合、様々なセキュリティ・グループから削除することは非常に簡単です。しかし、組織内の異動があった場合、古いセキュリティグループの割り当てがそのまま残り、新しい職能に基づいて新しいセキュリティグループが割り当てられることがよくあります。このため、担当者は、もはや「知る必要がない」データにアクセスし続けることになります。
データ分類
すべてのデータセットが適切に管理された単一のデータレイクに保存されていることで、パーティション戦略を使用 して "知る必要性" に基づいてデータをセグメント化することが可能になります。組織によっては、どの事業部がデータを所有し、どの事業部がデータ分類を所有しているかに基づいてパーティションを作成することもあります。例えば、金融サービス企業では、クレジットカードの顧客のデータとデビットカードの顧客のデータを別々に保存し、GDPR/CCPA関連のフィールドへのアクセスは分類ラベルを使用して処理することができます。
データ分類の最もシンプルなアプローチは、3つのラベルを使用することです:
- 公共データ: 公開データ:一般に自由に公開できるデータ。年次報告書やプレスリリースなどがこれにあたる。
- 内部データ: 内部データ:セキュリティ要件は低いが、一般人や競合他社と共有すべきでないデータ。戦略説明や市場・顧客セグメンテーション調査などが該当します。
- 制限付きデータ: 顧客や社内業務に関する機密性の高いデータ。開示すると業務に悪影響を及ぼし、組織が財務的または法的なリスクにさらされる可能性がある。制限付きデータは、最高レベルのセキュリティ保護が必要です。
「ドメイン」は組織内のビジネスユニット、「エンティティ」はロールが有効な名詞、「データセット」または「データ資産」はID、「分類」は3つの値(公開、内部、制限付き)のうちの1つである。
対応する役割の割り当てがない限り、いかなるデータへのアクセスも許可しない「deny all default」ポリシーがある。ワイルドカードを使用してアクセスを許可することで、すべての組み合わせを列挙する必要をなくすことができます。
例えば、<credit-card><customers><transactions> <restricted>は、ユーザーまたはシステムに、16桁のクレジットカード番号を含む、顧客のクレジットカード取引を記述するすべてのデータフィールドへのアクセスを許可します。一方 <credit-card><customers><transactions><internal>は、ユーザーまたはシステムに、取引に関する非機密データへのアクセスのみを許可します。
このように、LDAPグループを大量に作成しなくても、ドメインの命名規則を使ってセキュリティグループを合理化し、粗い粒度と細かい粒度のアクセスを提供することができるようになります。また、特定のユーザーに対してデータへのアクセスを許可する際の管理も劇的に容易になります。
全員が同じデータビューで作業する
最新のデータスタックは、簡素化されたセキュリティグループのアプローチと堅牢なデータガバナンス手法と組み合わせることで、データにアクセスする方法を再考する機会を組織に与え、分析ユースケースの市場投入までの時間を大幅に改善します。すべての分析ワークロードは、データに対する単一の共有ビューから操作できるようになりました。
これを機密データのトークン化戦略と組み合わせることで、データサイエンティストの業務遂行を容易にし、80/20の比率を有利にすることができるようになります。NPI/PII情報の難読化と分析価値の維持を両立させたフルサイズのデータセットで作業することが容易になったのです。
データセットが完全な説明とビジネスメタデータとともにカタログに登録され、特定のデータセットのリアルなサンプルデータを表示する組 織もあるため、データの発見が容易になった。ユーザーが基礎となるデータファイルにアクセスできない場合、データが1つの物理的な場所にあることで、アクセスを許可する負担が軽減され、アクセス制御ポリシーの導入や監査ログの収集・分析が容易になり、データの使用を監視して悪者を探すことができます。
データセキュリティ、バリデーション、キュレーションを一元化
Databricks Lakehouseを使用したモダンなデータアーキテクチャにより、組織のデータを保護、検証、改善するための一貫したアプローチを取ることが容易になります。スキーマ検証、データ品質の「期待値」、パイプラインなどの組み込み機能を使用して、キュレーション中にデータガバナンスポリシーを実施することができます。Databricksは、明確に定義された状態を通してデータを移動させることができます: 生データ → 洗練されたデータ → キュレーション、またはDatabricksで言うところの「ブロンズ → シルバー → ゴールド」です。
生データは「ブロンズレベル」のデータとして知られ、重要な分析データすべての着陸地点として機能します。ブロンズデータは、下流のシステムで使用するためにデータをフィルタリング、クリーニング、増強する一連のキュレーションステップの出発点として機能します。最初の大きな精製では、データはデータレイク内の「シルバーレベル」のテーブルに保存されます。これらのテーブルは、保存にオープンなテーブルフォーマット(Delta Lakeなど)を使用することが推奨されているため、ACIDトランザクションやタイムトラベルなどの追加的な利点を提供します。プロセスの最 終段階は、組織全体からのデータセットを組み合わせたビジネスレベルのアグリゲート、つまり「ゴールドレベル」のテーブルを作成することです。これは、全製品にわたる顧客サービスの改善や、顧客維持率を高めるためのクロスセルの機会を探すために使用されるデータセットです。レガシーデータエコシステムを使用したETL作業でしばしば発生する不要なデータのコピーや作業の重複を排除することで、組織は初めてデータキュレーションとETLを真に最適化できるようになりました。この「一度解決したら何度でもアクセスできる」アプローチは、市場投入までの時間を短縮し、ユーザーエクスペリエンスを向上させ、人材の確保に貢献します。
安全なデータ共有で、データの影響力を拡大する
今日のデジタル経済において、ビジネス価値を高めるためには、データの共有が欠かせません。現在、ますます多くの組織が、信頼できるデータをパートナー/サプライヤー、社内の事業部門、または顧客と安全に共有し、コラボレーションを促進し、社内の効率を向上させ、データ収益化によって新しい収益源を生み出すことを検討しています。さらに、企業は外部データを活用して新製品のイノベーションとサービスを推進することに関心を持っています。
企業経営者は、競争優位を築くために、組織内でデータ共有の文化を確立し、推進する必要があります。
結論
データ民主化は、データおよびAIトランスフォーメーションの旅において、技術的素養に関係なく企業全体でデータ市民を実現するための重要なステップです。同時に、組織は、顧客の信頼を獲得し維持し、健全な データとプライバシーの実践を確保し、データ資産を保護するために、データガバナンスに強い姿勢を持つ必要があります。
Databricks Lakehouseプラットフォームは、すべてのデータとAI資産に対する統一されたガバナンスソリューション、データのキュレーションを効率化する組み込みのデータ品質、データチームが新しいインサイトを発見するための豊富なコラボレーション環境を提供します。さらに詳しくお知りになりたい方は、弊社までお問い合わせください。
もっと学びたいですか?当社のeBook「Transform and Scale Your Organization With Data and AI」をご覧ください。