データレイクハウスによるリアルタイムPOS分析
翻訳:Saki Kitaoka. Original Blog Link 製品供給の減少や倉庫のキャパシティの低下といったサプライチェーンの混乱に加え、 シームレスなオムニチャネル 体験に対する消費者の期待が急速に変化していることから、小売企業は自社のオペレーションを管理するためのデータ活用方法を見直す必要に迫られています。 パンデミック(世界的大流行)以前は、 小売企業の71% が、オムニチャネル目標を達成するための最大の障害として、在庫のリアルタイム可視性の欠如を挙げていました。パンデミックは、 オンラインと店舗を統合したエクスペリエンスへの需要を高める だけでなく、正確な商品の在庫状況を提示し、注文の変更を即座に管理しなければならないというプレッシャーを小売企業に与えることになりました。 リアルタイムの情報 へのアクセスを向上させることが、新たな時代の消費者の要求に応える鍵となります。 このブログでは、小売業におけるリアルタイムデータの必要性と、POSデータのリアルタイムストリーミングをデータレイクハウスで大
Databricks SQL の最新イテレーション、新たな性能、速度改善
Data+AI サミット 2020 Europe で 発表 した Databricks SQL は、マルチクラウドの レイクハウス アーキテクチャの運用を可能にし、データウェアハウスの性能とデータレイクの経済性を同時に実現します。Databricks では、レイクハウスを活用した知見の抽出および共有を容易にすることを目標に、データアナリスト向けに、最適化された SQL UI や主要な BI ツールの充実したサポート機能を含む、シンプルで使いやすいツールの提供に尽力しています。 Databricks SQL についても同様に、性能、使いやすさ、ガバナンスの向上を目指してイノベーションに日々取り組んでいます。その内容について、複数回のブログを通じてご紹介する予定です。今回は、その第一弾として、以下の各シナリオにおける Databricks SQL...
FAIR 原則に基づく効率的なデータ管理をレイクハウスで実現
科学における発見とイノベーションの原動力となるデータ。そのデータの価値は、データ管理戦略によって左右されます。データ管理戦略は、データの品質、アクセスの容易さ、結果の再現性を確保するための重要な要素であり、信頼できる科学的なエビデンスを得るうえで欠かすことがで きません。 あらゆる分野の科学者が大規模なデータセットにアクセスできるようになったことで、管理や制御の煩雑さ、再現不能なデータワークフローをはじめとするビッグデータの問題が過去 10 年間で顕著になり、解決すべき課題となっています。 これを受けて、業界の専門家は、「価値あるデジタル資産の長期的な管理」を中核とした「適切なデータ管理とスチュワードシップ」のフレームワークを策定しました。このことは、2016 年に「 Nature 」誌の記事で初めて取り上げられています。このフレームワークは現在 FAIR 原則として認知されています。FAIR 原則は、デジタル資産の Findability(検索性)、Accessibility(アクセス性)、Interoperab
外部から Databricks 上の MLflow を使用する
MLOps を効果的に実施するためのフレームワークである MLFlow はあらゆる環境での機械学習を一元的に管理することが可能です。Databricks ではこの MLflow をマネージドサービスとして提供しており、Databricks 上での機械学習はもちろん、Databricks 環境以外での機械学習についても連携することが可能です。 この記事では、 Databricks の外部環境(ローカル PC 上など)からワークスペース内の MLflow を使用する方法について説明します。 以下のステップで実行していきます Databricks ワークスペースに MLflow の experiment を作成する...
データレイクで増分 ETL のメリットを活かす - CDC の課 題など
従来のデータウェアハウスでの増分 ETL といえば、CDC(change data capture、変更データキャプチャ)を利用する方法が一般的になっています。しかし、スケーラビリティ、コスト、状態の把握や機械学習との連携が困難であることなどの問題があり、この CDC により増分 ETL を実行する方法は、必ずしも理想的とはいえません。一方、データレイクでの増分 ETL は、これまで、ビッグデータのテーブルのデータ更新や変更データの特定ができないといった理由により不可能とされてきました。しかし今日、データレイクで増分 ETL を利用することが可能になりました!増分 ETL には多くのメリットがあります。効率性やシンプルさ、データサイエンティストやデータアナリストのどちらも利用できる柔軟なデータアーキテクチャの構築などが挙げられます。このブログでは、データレイクで増分 ETL を使用するメリットと、それをサポートするデータアーキテクチャについて解説します。 増分 ETL とは? まず、増分 ETL とは何かを明らか
データレイクハウスに関する FAQ
FAQ (よくある質問) データレイクハウスとは? データレイクとは? データウェアハウスとは? データレイクハウスとデータウェアハウスの違いは何ですか? データレイクハウスとデータレイクの違いは何ですか? データアナリストは容易にデータレイクハウスを利用できますか? データレイクハウスとデータウェアハウスの価格性能の比較を教えてください。 データレイクハウスはどのようなデータガバナンス機能をサポートしていますか? データレイクハウスは一元化する必要がありますか?それともデータメッシュに分散できますか? データメッシュとデータレイクハウスとの関係は? データレイクハウスとは? データレイクハウスとは、データレイクに格納された膨大なデータに対して、効率的かつセキュアに人工知能(AI)やビジネスインテリジェンス(BI)を直接実行できるアーキテクチャです。 現在、企業ではデータの大部分をデータレイクに格納しています。 データレイク は、あらゆる種類のデータ(構造化、非構造化を問わない)を管理し、どんな処理ツールでも実行
Databricks で構築するエンドツーエンドの深層学習パイプライン
深層学習(DL)モデルは、金融サービスにおける不正検知、メディアにおけるパーソナライゼーション、ヘルスケアにおける画像認識など、あらゆる業界のユースケースに適用されています。このような応用範囲の拡大により、深層学習技術の使用は、ほんの数年前に比べてはるかに容易になっています。 TensorFlow や Pytorch などよく使用される深層学習フレームワークは、精度の高いパフォーマンスを発揮できるまでに成熟しています。 マネージド MLflow を備えた Databricks のレイクハウスプラットフォームのような機械学習(ML)環境では、 Horovod や Pandas UDF などのツールを使用した深層学習の分散実行が非常に容易になりました 。 課題 現在でも引き続き残っている主要な課題の 1 つは、制御・再現可能な方法で深層学習の機械学習パイプラインを自動化し、運用を最適化することです。 Kubeflow のような技術はソリューションを提供していますが、多くの場合、深い専門知識を必要とし、利用可能なマネー
Databricks Beacons プログラムのご紹介
学術界とオープンソースコミュニティをルーツとする Databricks は、その成功が、データサイエンティスト、データエンジニア、開発者、データアーキテクト、データアナリスト、オープンソースの貢献者、データエバンジェリストなど、コミュニティによって支えられていることを理解しています。 Databricks Beacons プログラムは、データと AI のコミュニティを向上させるために尽力している方々に感謝し、その功績を称えるためのものです。 Beacons は、ハリファクス(カナダ)や、東京(日本)、チューリッヒ(スイス)、杭州(中国)など世界中に存在し、オン/オフラインの両方で、積極的な知識の共有をコミットしてくれています。 Lorenz Waltherts 氏は、Beacons への参加について「コミュニティの一員として、知識を共有したり、学ぶことができることを光栄に思います。」と述べています。 「Beacon」(灯台や標識塔)という名称は、私たちの道を照らしてくれるガイドのような存在であることから、選ばれま
BI ツールの広帯域接続を実現するには
Tableau や Microsoft Power BI などのビジネスインテリジェンス(BI)ツールは、従来のデータウェアハウスから大規模なクエリ結果を抽出するのに多くの時間を要することで知られています。これは、通常、データ転送のボトルネックとなる SQL エンドポイントを介してシングルスレッドでデータを取得するためです。Databricks の SQL エンドポイントに使用している BI ツールを接続することで、データアナリストは、Simba ドライバに統合された ODBC/JDBC プロトコルを介してテーブルのデータのクエリを実行できます。また、Databricks ランタイム 8.3 および Simba ODBC 2.6.17 ドライバでリリースした...
Hadoop からレイクハウスへの移行:成功のための 5 つのステップ
Hadoop (ハドゥープ)から レイクハウスアーキテクチャ のようなモダンなクラウドベースのアーキテクチャへの移行は、技術的な判断ではなく、ビジネス的な判断です。以前のブログ、 It’s Time to Re-evaluate Your Relationship With Hadoop では、組織がHadoop との関係を再評価する必要がある理由を解説しました。技術やデータ、ビジネスのステークホルダーが、エンタープライズの Hadoop を移行する決断をした後、移行を実行する前に 考慮すべき課題 があります。本ブログでは、実際の移行プロセスそのものに焦点を当て、移行を成功させるための重要なステップや、新たなデータドリブンなイノベーションの成功にレイクレイクハウスアーキテクチャが果たす役割を説明します。 移行のステップ 率直に言って、移行は決して容易ではありません。しかし、移行を構造化することで、リスクを最小限に抑え、ビジネスの継続性を確保し、コストを効果的に管理できます。そのためには、 Hadoop からの移行