モダンデータスタックは、データの量と複雑さが増加し続ける中で、データの収集、保存、分析の難しさに対処するために設計されています。 ビジネスの成功がデータ主導の洞察とAIに依存するようになるにつれ、効果的で信頼性の高いデータ管理が不可欠です。
では、モダンデータスタックとはどのようなもので、データ活用を最適化するためにどのように設計されているのでしょうか。 モダンデータスタックとレガシーなデータスタックの違い、あらゆる業界のビジネスにもたらすメリット、データから成功を収めるために必要なモダンデータスタックツールについて理解しましょう。 データとAIの目標を加速させる方法については、新しいエグゼクティブ・ガイドをご覧ください。
モダンデータスタックとはどういう意味ですか?
「データスタック」とは、生データを処理するさまざまなテクノロジーの集合体を指します。 モダンデータスタックは、データの取り込み、整理、保存、変換に使用されるツールで構成されています。
これらのツールは、データを「食べられないデータ」(扱えないデータ)から「食べられるデータ」(扱えるデータ)に変えるために不可欠です。 データへのアクセス、準備、分析が迅速であればあるほど、組織は意思決定のためにデータをより早く利用することができます。 したがって、効果的なモダンデータスタックアーキテクチャは、データから価値を引き出し、変化に迅速に対応することを望む組織にとって極めて重要です。
モダンデータスタックには、主に4つの機能があります:
1. ローディング
ローディング技術は、ある場所から別の場所へデータを移動させる役割を担っています。 例えば、データを利用可能な状態に変換し、価値ある洞察を得るために分析するためには、データをデータパイプラインに取り込む必要があります。
2. 保存
データパイプラインで取り込まれたデータは、どこかに保存する必要があります。 データウェアハウスとデータレイクは、一般的に使用されている2つのデータストレージ技術ですが、どちらも一定の欠点があります。 データウェアハウスが構造化データの保存に適しているのに対し、データレイクは非構造化データの保存に適しているという違いがあります。
データレイクハウス・プラットフォームは、さまざまな種類の構造化データおよび非構造化データに対応できる最新のソリューションを提供します。
クラウドベースのデータストレージソリューションは、オンプレミスのオプションではなく、モダンデータスタックに不可欠です。 ニーズの変化に容易に対応できる拡張性の高いプラットフォームで、データへの容易なアクセスを提供します。
3. 変換
モダンデータスタックは、データの変換にも使用されます。 変換プロセスは、「生」データをアナリティクスのユースケースに適した「洗練された」データに変えます。 多くの組織は、データ変換のためにデータ準備プラットフォームを使用します。
データ変換には、データをあるフォーマット、構造、または値システムから別のものに変換することが含まれます。 データ分析とデータ主導の意思決定には欠かせないプロセスです。
データに適用できるデータ変換には、次のような膨大な種類があります:
- 正規化 - データセットの値を共通の尺度に調整する
- データクリーニング - データセットから不正確なレコードや重複するレコードを修正または削除し、データ全体の精度を向上させる
- フィルタリング - 無関係なデータや不要なデータを削除する
- 集計 - データの要約またはグループ化を行う
- マージ - 異なるソースからのデータを統合し、単一のデータセットを作成する
4. 分析
データが収集され、準備されると、分析に使用する準備が整います。 モダンデータスタックツールはこのステップも処理できます。
機械学習(ML)モデルを使用してデータを分析し、計画や意思決定に使用できるパターンや傾向を特定することができます。 あるいは、加工されたデータをさまざまなアプリケーションの基盤として使用することもできます。
レガシーデータスタック
モダンデータスタックの影響と重要性を理解する鍵は、レガシーデータスタックを振り返ることです。 以前のデータスタックは、今日使用されているツールやテクノロジーへの道を開きましたが、現代のデータスタックが克服するように設計されている重要な制 限がありました。
エンタープライズデータウェアハウス
エンタープライズデータウェアハウス(EDW)は、間違いなく、データ管理のために組織で一般的に使用された最初のデータスタックです。
様々なソースから蓄積されたデータの一元的なリポジトリを提供します。 そのため、顧客関係管理(CRM)プラットフォームやリレーショナル・データベースなど、大量のデータを蓄積するようなシステムを利用している企業にとって便利です。
EDWは通常、データを管理するためにETL(抽出、変換、ロード)メカニズムに依存しています。 このような場合、データはアップロード時に事前に定義されたスキーマ(内部データベース形式)と照合され、スキーマ・オンライト方式として知られています。
EDWがデータ管理と分析の合理化に一役買ったことは間違いありませんが、人工知能(AI)やMLのユースケースへのシフトが進む中、EDWはやや時代遅れになっています。
これは主に、データウェアハウスがこれらのユースケースに必要な大量のデータを処理するのに苦労しているためです。 データウェアハウスに保存されるデータ量が増えるにつれ、データウェアハウスのコストは増大し、その非効率性も増大します。
また、データウェアハウスでは、音声、動画、テキスト文書、ソーシャルメディアへの投稿など、多くの企業にとって重要な情報となっている非構造化データを扱うことができません。 さらに、EDW構成は通常、タスク固有のデータを保存するように設計されています。 このため、収集されたすべてのデータ が利用可能であることを前提とするMLやデータサイエンスのタスクには不向きです。
データレイク
データレイクが開発された背景には、AIやMLのタスクにデータウェアハウスが不十分だったことがあります。 これらのリポジトリは、膨大な量の生データをネイティブフォーマットで保存するように設計されています。 構造化、非構造化、半構造化データを扱うことができるため、EDWよりもMLやデータサイエンスのユースケースに適しています。
データウェアハウスとは対照的に、データレイクではデータに適合するスキーマがないため、ロード前にデータを変換する必要はありません。 スキーマの検証は、スキーマ・オン・リード方式と呼ばれる、データ照会時に行われます。
このため、データレイクは一般的に、従来のデータウェアハウスよりも堅牢でコスト効率に優れていると考えられています。 しかし、だからといって他の制限がないわけではありません。
データレイクを使用する場合、SQLクエリをサポートするための追加のツールやテクニックが必要になるため、ビジネスインテリジェンスとレポーティングは困難な場合があります。
データレイクにはさまざまな種類や形式のデータが大量に保存されているため、データの品質、信頼性、整合性の低さもしばしば問題になります。 レイクに保存されたデータは無秩序になりやすく、データの正確性、セキュリティ、ガバナンスのさらなる問題につながります。
モダンデータスタックは何が違うか?
データレイクとデータウェアハウスはどちらも重要な領域で不足しているため、多くの企業はそれぞれの弱点を回避するために両方を使用しています。 例えば、ある企業が非構造化データを保存するために1つのビッグデータレイクを使用し、特定のユースケースのために複数の目的別データウェアハウスを使用することができます。
ほとんどの場合、これはデータのサイロ化、コスト増、複雑化を招き、2つのシステム間でデータの一貫性を保つ必要性が大きな課題となっています。 この問題を解決するためには、より統一されたソリューションが必要です。
モダンデータスタックの登場です。 レガシーデータスタックの課題を解決するために設計された、すべてのモダンデータスタックに含まれるべき特定のコンポーネントがあります。
オープンなクラウドベースのストレージ
モダンデータスタックとレガシーのデータスタックの最も大きな違いは、モダンデータスタックがクラウドでホストされていることでしょう。 最新のデータスタックは、物理サーバーに依存するのではなく、クラウドコンピューティングに依存し、SaaS(Software as a Service)モデルで提供されることが多くなっています。
つまり、一般的にユーザーによる技術的な設定が少なくて済みます。 その代わり、セキュリティ、メンテナンス、アップデートは、モダンデータスタック企業がサービスの一環として提供しています。 このため、モダンデータスタックは、従来のものよりも柔軟で効率的です。
また、より多くのデータプロフェッショナルが、場所に関係なくデータにアクセスできるようになるため、エンドユーザーのアクセシビリティも向上します。
また、クラウドベースのソリューションでは、ローカルサーバーのスケーリングに伴うコストや長時間のダウンタイムを発生させることなく、組織のニーズの変化に合わせて迅速に調整できるため、スケーラビリティも向上します。
多様なワークロードと膨大なデータトランザクションに対応するキャパシティ
モダンデータスタックツールは、さまざまなデータ利用ケースをサポートするだけでなく、組織が膨大なデータトランザクションを処理することを可能にします。 例えば、HadoopやSparkのようなテクノロジーは、複数のノードやクラスタにまたがるデータ処理を可能にし、大規模なデータセットや複雑なワークロードの並列処理を可能にします。
これにより、企業はインフラに新たな負担をかけることなく、複雑なデータトランザクションを実行し、より多様なワークロードに取り組むことができます。 複数のノードとクラスタを使用することで、データのパーティショニングも可能です。 これにより作業負荷が分散され、データを管理しやすい小さな塊に分割することで、より効率的なクエリや処理が可能になります。
モダンデータスタックでは、データ圧縮、カラム型ストレージフォーマット、インデックス作成などの技術も使用され、ストレージと処理効率の最適化に役立っています。 これらの技術は、大規模なデータセットに必要な物理的な記憶領域を削減し、データへのアクセスと検索のプロセスを高速化します。
モダンデータスタックでは、最適化された抽出、変換、ロード(ETL)または抽出、ロード、変換(ELT)プロセスなど、非常に効率的なデータパイ プラインも使用されます。 これにより、扱うデータ量にかかわらず、送信元から送信先へのスムーズなデータ移動が保証されます。
ビジネスインテリジェンスのサポート
モダンデータスタックは、幅広いビジネスインテリジェンスのユースケースをサポートし、企業がデータから可能な限り多くの価値を引き出せるよう支援します。 効率的なデータ分析、データの可視化、データに基づく意思決定を促進する堅牢なツールを提供します。
企業はまた、モダンデータスタックとシームレスに統合できる多様な分析およびレポートツールからも恩恵を受けることができます。 これにより、BIプラットフォームはSQLクエリ、データ可視化ツール、ダッシュボード、レポート機能を活用して、データから洞察を分析して提示することができます。 より高度な分析と意思決定を可能にするために、予測分析やMLモデルを統合することもできます。
モダンデータスタックアーキテクチャの中には、リアルタイムのデータ処理やストリーミングをサポートするものもあります。 これにより、BIツールは分刻みの洞察を提供し、リアルタイムの意思決定をサポートできるようになり、BIツールを使用する組織の俊敏性と応答性が向上します。
統合データガバナンス
統合されたデータガバナンスは、最新のデータ技術スタックの大きなメリットです。 データライフサイクルの各段階において、データの品質、コンプライアンス、セキュリティ、アクセシビリティを確保するために、さまざまなツール、プロセス、ポリシーが導入されています 。 また、メタデータを文書化して管理する高度なデータカタログツールも組み込まれています。
データソース、構造、系統、所有者、使用状況に関する情報を持つことは、最新の集中型カタログを維持するために不可欠です。 これにより、データをより発見しやすく、理解しやすくすると同時に、透明性とコンプライアンスを確保することができます。
セキュリティに関しては、役割ベースのアクセス制御(RBAC)メカニズムが、異なるデータセットにアクセスできるユーザーを管理・制御するために使用されます。 これらのメカニズムは、組織のセキュリティ・ポリシーを実施するのに役立ち、許可された担当者だけが機密データにアクセスできるようにします。
これは、銀行や医療など、機密データを多く扱う業種の企業にとって特に重要です。 モダンデータスタックは、GDPRやHIPAAなどのデータ規制の遵守にも役立ちます。 データの暗号化や監査を可能にし、プライバシーやセキュリティに関する規制の遵守を保証することで、コンプライアンスを支援する機能を備えています。
モダンデータスタックの多くには、データガバナンスに関する潜在的な問題を特定するのに役立つリアルタイムモニタリング機能も組み込まれています。 アラートメカニズムは、疑わしい活動や確立されたガバナンス基準からの逸脱について管理者に通知することができます。
モダンデータスタックツールを使用するメリットは?
一般的に、モダンデータスタックの利点は、以下の4つのカテゴリーに整理することができます。
柔軟性
第一に、モダンデータスタックはより高い レベルの柔軟性を提供します。 様々なツールは、ユーザーの特定のニーズに合わせて使用することができ、利用可能なサービスは必要に応じて追加または削除することができます。 このモジュール性により、スタックをレイヤーごとに構築し、組織が必要とする最新のデータスタックを正確に作成することができます。
さらに、さまざまなデータ形式、データベース、サードパーティのサービスとの互換性により、新しい技術を取り入れる際の相互運用性と柔軟性が確保されます。 モダンデータスタックは、オープンソースのツールやフレームワークを活用することが多く、カスタマイズやコミュニティ主導の機能拡張により、柔軟性を高めることができます。
また、リアルタイム処理とバッチ処理の両方のオプションを提供しているため、さまざまなタイプのワークロードを処理する組織では、ビジネスのさまざまなニーズに合わせてデータ処理を行うことができ、柔軟性が高まります。
効率性
モダンデータスタックはクラウドベースのソリューションであるため、データの処理速度は飛躍的に向上しています。 レガシーのデータスタックでは数時間かかる大量のデータも、数分で処理できます。
モダンデータスタックには、自動化されたデータ処理や変換ツールが組み込まれていることがよくあります。 これらのツールは、データのクレンジング、正規化、統合などの作業を合理化し、手作業の必要性を低減します。 これにより、データ処理が効率化されるだけでなく、データの正確性も向上します。
データ可視化ツールやレポーティングツールとの統合により、データを意味のある洞察に変換するプロセスがスピードアップします。 これらのツールの多くは、直感的なインターフェイスやカスタマイズ可能なダッシュボードを備えており、データのパターンや傾向をすばやく理解できるという利点もあります。
コスト
大規模なデータストアの維持にはコストがかかりますが、モダンデータスタックを利用することで、組織全体の運用コストを削減できます。 クラウドベースのため、ハードウェアや複雑なインフラに投資する必要はありません。 必要な初期投資額を削減するだけでなく、データスタックの耐用年数全体にわたって保守・運用コストも削減できます。
多くのSaaS型モダンデータスタック企業は、企業が使用したサービスに対してのみ料金を支払うことができる、消費ベースの価格設定を提供しています。 従量課金モデルで提供されるサービスは、積極的に利用されているときだけ料金を支払えばよいため、利用が少ない、あるいは利用がない期間のコストを最小限に抑えることができます。
また、モダンデータスタックは、データ処理の自動化、ダウンタイムの最小化、データパイプラインの全体的な効率の向上により、リソースの利用を継続的に最適化しています。 これにより、リソースがより効果的かつ効率的に活用され、アイドルタイムとそれに伴うコストが削減されます。
スタック自体の外では、利用可能な高度な分析とML機能は、ユーザーがコスト削減の機会を特定するのに役立ちます。 需要を予測し、リソースを最適化し、コスト削減の機会を積極的に特定することで、組織は予算を完全にコントロールすることができます。
モダンデータスタックは、データ漏洩に関連するリスクとコストを最小限に抑える役割も果たします。 強固なデータガバナンス対策を実施することで、データ漏えいのリスクを低減し、規制の不遵守の事例も減らすことができます。 これにより、企業はコンプライアンス違反に伴う罰則や法的問題を回避することができ、さらにコスト削減にも貢献します。
データ文化
データ文化とは、データに関する組織内の行動、態度、慣行を指す言葉です。 それは、データ主導の意思決定を取り巻く信念や習慣から、データに置かれる価値まで、すべてを包含することができます。 また、組織の日常業務や意思決定プロセスへのデータの統合全般も対象となります。
モダンデータスタックは、組織内のデータ文化を変革するのに役立ちます。
そもそも、モダンデータスタックツールはユーザビリティを念頭に置いて設計されています。 これにより、あらゆる技術能力を持つ従業員がデータにアクセスしやすくなります。 柔軟性があるため、ユーザーは特定のツールに縛られることなく、自分のニーズや専門レベルに合ったツールを選ぶことができます。
一方、モダンデータスタックに含まれる強固なデータガバナンス対策は、データの正確性に対する信頼を構築するために機能します。 信頼性が高く、適切に管理されたデータを提供することで、これらのスタックは意思決定プロセスにおけるデータの利用を促進します。 これにより、組織のデータを信頼する文化が生まれます。
このような信頼が得られれば、柔軟性と拡張性が発揮され、新しいデータソース、分析ツ ール、方法論を試す方法をユーザーに提供することができます。 これは、革新と探求の文化を築くのに役立ちます。
モダンデータスタックは、チーム間のコミュニケーションとコラボレーションの促進にも役立ちます。 統合されたデータカタログ、メタデータ管理、コラボレーション機能など、すべてがこれに役立ちます。 すべての利害関係者がデータ資産に対する理解を共有し、データに関連する共通のビジネス目標に向けて努力することができます。
モダンデータスタックの成功事例
さまざまな業界の組織が、モダンデータスタックを使用してデータへのアプローチに革命を起こしています。 以下はその一例です:
AT&T
AT&T社は、現在米国で事業を展開する大手通信事業者のひとつです。 これまでは、従来のオンプレミスのデータ・アーキテクチャに依存していました。 しかし、扱うデータの種類と量が増加するにつれ、より優れたソリューションが必要であることが明らかになり、レガシーアーキテクチャをDatabricksが提供するモダンデータスタックに移行しました。
これにより、技術者の派遣を最適化するために必要なリアルタイムの洞察と自動化を実現することができました。 現在では、技術者のトラブルシューティングスキルを、解決が必要な顧客の問題やその顧客の所在地に合わせることができます。 これらの3つのデータは、レガシー・システムでは単純に統一できなかったものです。
技術者派遣に対するこの新しい自動化されたアプローチは、AT&T が優れた顧客サービス体験を提供すると同時に、問 題解決にかかる試行回数を減らすことで運用コストを削減するのに役立っています。
HSBC
HSBCは世界最大級の国際銀行で、世界中で3,900万人以上のお客様にサービスを提供しています。 このような大規模な顧客ベースでは、スケーラビリティの限界は避けられませんでした。 HSBCが最新のデータ・スタックを採用するまではそうでした。
現在では、データ分析とMLを必要に応じて拡張できるため、パーソナライゼーション、レコメンデーション、ネットワークサイエンス、詐欺検出など、顧客中心のさまざまなユースケースを先導する力を得ることができます。 そして、これらすべてをビジネスニーズに合ったスピードで提供します。
「分析のためのデータ供給スピードが大幅に向上しました。以前は 6 時間かかっていた作業が、6 秒で完了します」HSBC チーフアーキテクト Alessio Basso 氏
USPS
モダンデータスタックにより、USPSは全 米の顧客に効率的にサービスを提供できるようになりました。 クラウドベースのレイクハウス・アーキテクチャーへの移行により、新たなデータ課題への迅速な対応が可能になり、イノベーションの新たな機会がもたらされます。
さらに、USPS OIGは現在、郵便業務およびプログラムの調査、監査、研究においてより有利な立場にあります。 これは、不正、浪費、乱用との闘いに役立ち、郵便サービスの効率性と完全性を今後何年にもわたって保証します。
Databricks データインテリジェンスプラットフォームでモダンデータスタックアーキテクチャを採用
モダンデータスタックアーキテクチャは、データスタックの進化における次のステップです。 拡張性、効率性、ガバナンスの強化により、あらゆる業種の企業が効率的かつ安全にデータの価値を最大限に活用できるようになります。
Databricksデータインテリジェンスプラットフォームは、データレイクとデータウェアハウスの長所を組み合わせたレイクハウスアーキテクチャに基づいて構築されており、コスト削減、生産性向上、データおよびAIイニシアチブの迅速な実現を支援するモダンデータスタックを提供します。
Databricksは、業界初のデータインテリジェンスプラットフォームを実装するために、業界をリードするソフトウェアとハードウェアの幅広い改良を取り入れることにエンジニアリングの努力を注いできました。
当社のアプローチは、Apache Spark™ フレームワークのコンピューティングの進歩と、最新のネットワーキング、ストレージ、CPUテクノロジーを活用し、 お客様のアーキテクチャを簡素化するために必要なパフォーマンスを提供します。
これらのイノベーションが組み合わさることで、組織内のすべてのデータセットを保存および処理し、重要な洞察のための幅広い分析をサポートできる単一のアーキテクチャが提供されます。
読者に次のステップを案内しましょう:より詳しい情報を得るために関連するコンテンツを提案し、マーケティングファネルに沿って進むためのリソースを提供しましょう。