機械学習を活用した小売業者・ブランドのためのアイテムマッチング
アイテムマッチングは、オンラインマーケットプレイスの中核的な機能です。小売業者は、最適化された顧客エクスペリエンスを提供すべく、新規/更新された商品情報を既存のリストと比較して、一貫性を確保し、重複を回避します。また、オンライン小売業者は、競合他社のリストと比較して、価格やインベントリの差異を確認します。複数のサイトで商品を提供しているサプライヤーでは、商品がどのように提示されているかを調べて、自社の基準との整合性を確保できます。 効果的なアイテムマッチングの必要性は、オンランコマースに限られたことではありません。DSR(デマンドシグナルリポジトリ)は、数十年もの間、補充オーダーのデータに POS やシンジゲートされた市場データを組み合わせて、消費財メーカーに需要の全体を把握するケイパビリティを提供してきました。しかし、メーカーが自社の製品定義と、数十もの小売店パートナーの製品説明との間の差異を埋めることができなければ、DSR の価値は制限されます。 このようなタイプのデータをまとめる際の課題は、異なるデータの照
データレイクとデータウェアハウスの違いとデータレイクハウスへの進化
このブログは、Forest Rim Technology(フォレスト・リム・テクノロジー社)のデータチームの寄稿によるものです。同社の創業者兼 CEO ビル・インモン氏、最高データ戦略責任者メアリー・レビンズ氏の貢献に感謝します。 最初の課題 ビッグデータを扱う人が最初に直面したデータの課題は、整合性でした。データの量が少なく、ソースのバリエーションも限られていた頃は、構造化データのテーブルで構成されたリレーショナルデータベース(RDB・関係データベース)の使用で事足りていましたが、アプリケーションが普及するようになると、複数のアプリケーションに同じデータが異なる値で現れ、データの整合性がとれないという課題が発生しました。どのデータが正しいかを判断するには、数あるアプリケーションの中から、どのバージョンのデータを使うべきかを見極めなくてはなりません。もしユーザーが適切なバージョンのデータを使用できなければ、判断を誤ってしまう可能性もあります。 意思決定に適切なデータを使用するために、単純なリレーショナルデータベー
データレイクハウスと機械学習の融合による再現性の強化
機械学習が組織やプロジェクトにこれまでにない価値をもたらすことが証明されています。機械学習には、イノベーションの加速、パーソナライゼーション、需要予測など、さまざまなユースケースがあります。しかし、課題もあります。それは、使用されるデータのソースが無数に存在し、ツールや依存関係のエコシステムも絶え間なく変化することから、ソリューションは流動的かつ、元の状態への再現性が低くなってしまうことです。 機械学習で構築するモデルが常に正しいとは限りません。そこで、モデルの精度を高めるために実験を繰り返します。その実験の信頼性を高めるには、モデルと結果の再現性を高める必要があります。再現性を高める機械学習実験においては、少なくとも次の項目の再現が期待されます。 データのトレーニング/検証/テスト コンピューティング 環境 モデル(関連するハイパーパラメータなど) コード しかし、機械学習での再現性の確保は、実際には非常に難しいタスクです。例えば、モデルのトレーニングに使用されたデータと同一のデータにアクセスする必要があります
Community Editionで始めるDatabricks
Databricks はあらゆるデータ・分析・データサイエンスのワークロードに対応可能なオープンかつシンプルな Lakehouse を提供しています。そして、Databricksではその機能を無償でお試しいただけるよう、2通りの方法を用意しております。 2週間の無償トライアル: Databricksのフル機能をお試しいただけます。 Community Edition: 機能が限定されますが、期限なし・無償でご利用いただけます。 このブログでは、後者のCommunity Editionを使用したDatabricksの始め方について説明します。 Community Editionの機能と制限 Community Editionでは、Databricksのフルバージョンの機能に対して以下の制限があります。 作成できるクラスターは15GB RAM, 2 Core CPUのシングルノードのみ ワークスペースに追加できるユーザー数は最大3名まで クラスターのリージョンはus-westのみ 使用できない機能 ジョブのスケジュール
Databricksで PyTorch を習得する 7 つの理由
新しい概念、言語、システムについて学ぶ場合、どのような学習方法が有効でしょうか。新しいタスクを学ぶ際に、既に習得しているスキルとの類似点を探すのではないでしょうか。 学習者に好まれる学習過程の特性として、「親しみやすさ」、「わかりやすさ」、「シンプル」、の 3 つの共通点があります。これまでに習得した知識との共通点による親しみやすさは、新たな知識の習得に対する敷居を低くします。わか りやすさにより、内容を把握する際の負担が最小限になります。そして、シンプルであるということは、未知の事柄を取り入れる際の問題が少なく、新しい概念、言語、システムの習得による成果を高めます。 Aside from being popular among researchers, gaining adoption by machine learning practitioners in production, and having a vibrant community...
地理空間クラスタリングによる金融不正の識別
本ブログで参照する Notebook にスキップできます。 For most financial service institutions (FSI), fraud prevention often implies a complex ecosystem made of various components –- a mixture...
Koalas(PySpark)がDask よりも高速な理由 – SQL クエリ最適化など
Koalas は、Apache Spark 上で pandas API を実装するデータサイエンスライブラリです。Koalas を利用することで、データサイエンティストは、使い慣れた API を介してあらゆる規模のデータセットを扱うことができます。今回私たちは、ビッグデータ分析の際によく使用される pandas API を実装した並列計算ライブラリの Dask と、PySpark の Koalas とのパフォーマンス比較を行いました。ベンチマークテストを繰り返したところ、 Koalas のパフォーマンスは、Dask と比較して、シングルノードで 4 倍、クラスタで...
ソリューションアクセラレータ: 通信業界のための顧客離脱の予測
本ブログで参照する Notebook にスキップできます。 米通信大手 T-Mobile によるキャリアフリーの導入は、単なるマーケティングキャンペーンにとどまらず、米国通信市場のダイナミクスを根本的に変えるきっかけとなりました。かつての通信業界は、安定した公益事業のように成長し、携帯電話の本体料金を無料にするための通話プランによって、利用者を 2 年間の契約で縛ってきました。しかし、次の 3 つの要因により、通信業界のビジネスの本質が変わることになります。 電話番号の継続使用:2004 年以降、キャリアを変更しても電話番号は継続使用できるようになり、利用者がプロバイダ を変更する際の最大の障壁の 1 つが解決しました。 通話プラン契約の廃止:携帯電話本体の価格の上昇により、各キャリアは本体購入料金の補助金を中止し、通話プランの契約が廃止されました。 競合企業:T-Mobileが、データプランの価格設定の積極的な変更と広告費への増額投資をおこない、市場シェアを拡大。これまで2強のシェアだった市場において、強力な第3
Hadoop(ハドゥープ)からの移行に伴う潜在価値とは
Hadoop(ハドゥープ)とは、分散処理技術(分散処理基盤)とも呼ばれ、テキストや画像、動画などの非構造化データの格納と処理ができるオープンソースのプラットフォームのことです。ファイルの管理には、分散ファイルシステム HDFS(Hadoop Distributed File System)が使用されていることが特徴です。長年にわたり、この Hadoop(ハドゥープ)はビッグデータの分析を支えるデフォルトのテクノロジーでした。しかし、時間の経過とともに、その欠点をカバーし、かつ、より優れた分析ソリューションを提供する新たなテクノロジーが登場し、Hadoop は遅れをとるようになりました。多くの企業が Hadoop 運用を続けることによるTCO(総所有コスト)を見直し、最新のクラウドベース分析プラットフォームへの移行を是認する方向に動いています。Databricks では先日、ホワイトペーパー 「The Hidden Value of Hadoop Migration」 (Hadoop からの移行に伴う潜在価値)を発
Databricks on Google Cloud を 発表しました
Databricksはこのたび、Databricks on Google Cloudの提供を開始しました。このDatabricksとGoogle Cloudの共同開発によるサービスは、データエンジニアリング、データサイエンス、分析、機械学習のためのシンプルでオープンなレイクハウスプラットフォームを提供し、これにより、Databricksのケイパビリティと、Google Cloudが提供するデータ分析ソリューションとグローバルなスケーリングの融合が実現します。 オープンなクラウドとデータプラットフォームの融合 DatabricksとGoogle Cloudの共通のビジョンは、オープンスタンダード、オープンAPI、オープンインフラを基盤とするオープンデータプラットフォームです。このパートナーシップは、企業におけるさまざまな選択と柔軟性を可能にし、クラウドおよびオンプレミス環境の双方において、必要なツールを用いたインフラ管理、データアクセスができるようになります。また、オープンなフレームワークやAPIの導入は、マネージ