メインコンテンツへジャンプ
Engineering blog

翻訳:Saki Kitaoka.  Original Blog Link

製品供給の減少や倉庫のキャパシティの低下といったサプライチェーンの混乱に加え、シームレスなオムニチャネル体験に対する消費者の期待が急速に変化していることから、小売企業は自社のオペレーションを管理するためのデータ活用方法を見直す必要に迫られています。

パンデミック(世界的大流行)以前は、小売企業の71%が、オムニチャネル目標を達成するための最大の障害として、在庫のリアルタイム可視性の欠如を挙げていました。パンデミックは、オンラインと店舗を統合したエクスペリエンスへの需要を高めるだけでなく、正確な商品の在庫状況を提示し、注文の変更を即座に管理しなければならないというプレッシャーを小売企業に与えることになりました。リアルタイムの情報へのアクセスを向上させることが、新たな時代の消費者の要求に応える鍵となります。

このブログでは、小売業におけるリアルタイムデータの必要性と、POSデータのリアルタイムストリーミングをデータレイクハウスで大規模に移行する際の課題を克服する方法について説明します。詳しくは、リアルタイムPOS分析ソリューションアクセラレータをご覧ください。

データウェアハウスの父、ビル・インモンが語る、レイクハウスが未来のデータアーキテクチャである理由については、「Rise of the Data Lakehouse」をご覧ください。

POSシステム

POS(販売時点情報管理)システムは、小売業者と顧客との間の商品やサービスのやり取りを記録する、店舗内インフラの中心的な役割を長い間担ってきました。このやり取りを維持するため、POSは一般的に商品在庫を追跡し、個数が限界レベルを下回った場合に補充を促します。POSの店舗内オペレーションにおける重要性はいくら強調してもしすぎることはありません。また、販売と在庫オペレーションの記録システムとして、そのデータへのアクセスはビジネスアナリストにとって重要な関心事です。

歴史的に、個々の店舗と企業のオフィス間の接続が限られていたため、POSシステム(その端末インターフェースだけでなく)は物理的に店舗内に存在していました。オフピークの時間帯には、これらのシステムは自宅に電話をかけてサマリーデータを送信することがあります。

Inventory availability with traditional, batch-oriented ETL patterns
図1. 従来のバッチ指向のETLパターンによる在庫の可用性


最近の接続性の向上により、一元化されたクラウドベースのPOSシステムに移行する小売業者が増えている一方、店舗内システムと企業のバックオフィスとの間でほぼリアルタイムの統合を開発する小売業者も増えています。情報がほぼリアルタイムで利用可能になるということは、小売業者が商品の在庫状況の予測を継続的に更新できることを意味します。もはや企業は、1日前の在庫状態の知識に基づいてオペレーションを管理するのではなく、現在の在庫状態の知識に基づいてアクションを取るのです。

 Inventory availability with streaming ETL patterns

 図2. ストリーミングETLパターンによる在庫状況


ニアリアルタイムの洞察


店舗の活動に関するほぼリアルタイムの洞察はインパクトがありますが、毎晩の処理から継続的な情報のストリーミングへの移行は、異なる種類のデータ処理ワークフローを設計しなければならないデータエンジニアだけでなく、情報消費者にとっても特別な課題をもたらします。この投稿では、最近この移行に着手したお客様から学んだ教訓を紹介し、レイクハウス・パターンで利用できる主要なパターンと機能がどのように成功をもたらすかを検証します。

Lesson1:範囲を慎重に検討


POSシステムは多くの場合、販売と在庫管理だけに限定されるものではありません。それどころか、決済処理、店舗クレジット管理、請求・発注、ロイヤルティプログラム管理、従業員のスケジュール管理、タイムトラッキング、さらには給与計算まで、広範な機能を提供することができ、まさに店舗内機能のスイスアーミーナイフとなっています。

その結果、POSに格納されるデータは通常、大規模で複雑なデータベース構造に分散しています。運が良ければ、POSソリューションがデータアクセスレイヤーを提供し、より解釈しやすい構造でこのデータにアクセスできるようになります。しかし、そうでない場合、データエンジニアは不透明なテーブルを整理して、何が価値があり、何が価値がないかを判断しなければなりません。

データがどのように公開されるかにかかわらず、古典的なガイダンスは真実です。つまり、ソリューションに対する説得力のあるビジネス上の正当性を特定し、それを使って最初に利用する情報資産の範囲を制限することです。このような正当化は、多くの場合、特定のビジネス上の課題に対処することを任務とし、よりタイムリーな情報の利用が成功に不可欠であると考える強力なビジネス・スポンサーから得られます。

このことを説明するために、今日多くの小売企業にとって重要な課題であるオムニチャネル・ソリューションの実現について考えてみましょう。オムニチャネル・ソリューションの実現は、オンライン購入、店舗での受け取り(BOPIS)、および店舗をまたいだ取引を可能にしますが、このようなソリューションは、店舗の在庫に関する合理的に正確な情報に依存しています。当初の範囲をこのニーズに限定すれば、モニタリングと分析システムに必要な情報は劇的に少なくなります。リアルタイムの在庫ソリューションが提供され、その価値がビジネスによって認識されれば、プロモーションのモニタリングや不正行為の検出など、他のニーズを検討するために範囲を拡大することができます。

Lesson2:データ生成のパターンと時間感受性に合わせて伝送を調整する


POSではプロセスによって生成されるデータが異なります。販売トランザクションは、関連テーブルに追加された新しいレコードの痕跡を残す可能性が高いです。返品は、過去の販売記録の更新、新しい販売記録の挿入、返品固有の構造への新しい情報の挿入を引き起こす複数の経路をたどる可能性があります。イベント固有の情報がPOS内のどこにどのように配置されているかを正確に明らかにするには、ベンダーの文書、部族の知識、さらには独自の調査作業が必要になる場合があります。

これらのパターンを理解することで、特定の種類の情報に対するデータ送信戦略を構築することができます。頻度が高く、粒度が細かく、挿入指向のパターンは、連続ストリーミングに最適かもしれません。頻度が低く、大規模なイベントは、バッチ指向のバルクデータ伝送スタイルに最適かもしれません。しかし、データ伝送のこれらのモードがスペクトルの両端を表しているとすると、POSによってキャプチャされるほとんどのイベントは、その中間に位置することがわかります。

データレイクハウスのデータアーキテクチャの優れた点は、複数のデータ送信モードを並行して採用できることです。連続伝送に適したデータには、ストリーミングを採用できます。バルク伝送に適したデータにはバッチ処理を使用します。そして、その中間に位置するデータについては、意思決定に必要なデータの適時性に焦点を当て、その決定によって進むべき道を決めることができます。これらのモードはすべて、ETL実装の一貫したアプローチで取り組むことができます。この課題は、ラムダアーキテクチャと呼ばれる初期の実装の多くを妨げていました。

データレイクハウスアプローチの優れた点は、複数のデータ転送モードを並行して採用できることです。連続伝送に適したデータにはストリーミングを。バルク伝送に適したデータにはバッチ処理を使用します。そして、その中間に位置するデータについては、意思決定に必要なデータの適時性に焦点を当て、その決定によって進むべき道を決めることができます。 これらのモードはすべて、ETLの実装に対する一貫したアプローチで取り組むことができます。
これは、ラムダアーキテクチャと呼ばれる初期の実装の多くを阻んでいた課題です。

Lesson3:段階的にデータを取り込む


店舗内のPOSシステムから届くデータは、その頻度や形式、タイムリーな入手に対する期待値が異なります。レイクハウスで一般的なブロンズ、シルバー、ゴールドのデザインパターンを活用することで、データの初期クレンジング、再フォーマット、永続化を、特定のビジネスに沿った成果物に必要な複雑な変換から分離することができます。

A lakehouse architecture for the calculation of current inventory leveraging the Bronze, Silver & Gold pattern of data persistence
図3. データ永続化のBronze、Silver、Goldパターンを活用した、現在の在庫計算のためのデータレイクハウス・アーキテクチャ


Lesson4:期待値の管理


ニアリアルタイムのアナリティクスへの移行には、組織のシフトが必要です。Gartnerは、ストリーミングデータの分析が日常業務に統合されるようになるまでのストリーミング分析成熟度モデルについて説明しています。これは一夜にして実現するものではありません。

むしろ、データエンジニアは、物理的な店舗ロケーションからクラウドベースの集中型バックオフィスへのストリーミング配信に固有の課題を認識する時間が必要です。接続性とシステムの信頼性を向上させ、より堅牢なETLワークフローと組み合わせることで、データの適時性、信頼性、一貫性を高めることができます。そのためには、システムエンジニアやアプリケーション開発者とのパートナーシップを強化し、バッチ処理のみのETLワークフローの時代には一般的でなかったレベルの統合をサポートする必要があります。

ビジネスアナリストは、継続的に更新されるデータ特有のノイズに慣れる必要があります。数秒前に実行されたクエリが少し異なる結果を返した場合など、データセットの診断と検証作業の実行方法を再学習する必要があります。また、日次集計では隠れてしまいがちなデータの問題点をより深く認識する必要があります。このような場合、分析に調整を加え、結果で検出されたシグナルに対応する必要があります。

これらすべては、成熟の最初の数段階で行われます。後の段階では、ストリーム内で意味のあるシグナルを検出する組織の能力が、より自動化されたセンスとレスポンス機能につながる可能性があります。ここで、データ・ストリームの最高レベルの価値が解き放たれます。しかし、ビジネスがこれらのテクノロジーに業務を委ねる前に、モニタリングとガバナンスを導入し、実証する必要があります。

POSストリーミングの実装


レイクハウス・アーキテクチャがPOSデータにどのように適用できるかを説明するために、私たちはほぼリアルタイムの在庫を計算するデモ・ワークフローを開発しました。このワークフローでは、2つの独立したPOSシステムが、ストリーミング在庫変更フィードの一部として、(一方のシステムで開始され、他方のシステムで実行された)オンライン購入、店舗でのピックアップ(BOPIS)トランザクションとともに、販売、再入荷、およびシュリンクデータに関連する在庫関連情報を送信することを想定しています。棚にある商品ユニットの定期的な(スナップショット)カウントは、POSによってキャプチャされ、一括送信されます。これらのデータは1ヶ月間シミュレートされ、在庫変動の可視性を高めるために10倍速で再生されます。

ETLプロセス(上の図3)は、ストリーミングとバッチの混合技術です。シルバーレイヤーに相当するデルタテーブルに取り込まれた最小限の変換データによる2段階のアプローチにより、技術的に整合した最初のETLアプローチと、現在の在庫計算に必要なビジネス的に整合したアプローチを分離しています。第二段階は、従来の構造化されたストリーミング機能を使用して実装されましたが、新しい Delta Live Tables 機能が一般的に利用できるようになるにつれて、再検討されるかもしれません。

このデモでは、データの取り込みにAzure IOT HubsとAzure Storageを使用していますが、AWSやGCPのクラウド上でも適切な技術で同様に動作します。環境のセットアップと再生可能なETLロジックの詳細については、次のノートブックを参照してください:

ソリューションアクセラレータはこちらからダウンロードできます。

Get the Solution Accelerator

Databricks 無料トライアル

関連記事

Engineering blog

データレイクハウスによるリアルタイムPOS分析

翻訳:Saki Kitaoka. Original Blog Link 製品供給の減少や倉庫のキャパシティの低下といったサプライチェーンの混乱に加え、 シームレスなオムニチャネル 体験に対する消費者の期待が急速に変化していることから、小売企業は自社のオペレーションを管理するためのデータ活用方法を見直す必要に迫られています。 パンデミック(世界的大流行)以前は、 小売企業の71% が、オムニチャネル目標を達成するための最大の障害として、在庫のリアルタイム可視性の欠如を挙げていました。パンデミックは、 オンラインと店舗を統合したエクスペリエンスへの需要を高める だけでなく、正確な商品の在庫状況を提示し、注文の変更を即座に管理しなければならないというプレッシャーを小売企業に与えることになりました。 リアルタイムの情報 へのアクセスを向上させることが、新たな時代の消費者の要求に応える鍵となります。 このブログでは、小売業におけるリアルタイムデータの必要性と、POSデータのリアルタイムストリーミングをデータレイクハウスで大
エンジニアリングのブログ一覧へ