データサイエンス・ML

ページ 6

集まれ！Legendary Heroes of DATA + AI !! Vol3

January 30, 2023 Hisae Inoue による投稿 in 企業概要

日本のDatabricks Championの皆様に、目指したその理由や、これからの思いについて伺う「集まれ！Legendary Heroes of DATA + AI !!」。お楽しみいただいておりますでしょうか？ Vol1、Vol 2 でご紹介した皆様からのコメントからは熱い想いが溢れていますよね。私たちにとっては本当に心強い存在であるとともに、正に、Legendary Heros of DATA + AI !! に相応しい皆様だと思います！！さて、最終回のVol.3 では、日本マイクロソフト中里浩...

データレイクハウスでコンピュータビジョンアプリケーションを実現する

December 16, 2021 パウロ・ボルヘス、Bala Amavasai、ブライアン・スミス（Bryan Smith）による投稿 in エンジニアリングのブログ

Original Blog : Enabling Computer Vision Applications With the Data Lakehouse 翻訳： junichi.maruyama ブログ「 Tackle Unseen Quality, Operations and Safety Challenges with Lakehouse...

Apache Spark™ 3.2 の概要

October 19, 2021 Gengliang Wang、Wenchen Fan、Hyukjin Kwon、Xiao Li、Reynold Xin（レイノルド・シン）による投稿 in エンジニアリングのブログ

Apache Spark™ 3.2 が、 Databricks ランタイム 10.0 の一部として Databricks 上で利用できるようになりました。Spark 3.2 のリリースにあたり、Apache Spark コミュニティの皆様の多大な貢献に感謝します。 Maven での Spark のダウンロード数が急増しています。月間のダウンロード数は 2,000万に達し、対前年比では 2 倍の成長率を示しています。Spark...

データレイクハウスによるリアルタイムPOS分析

September 8, 2021 ブライアン・スミス（Bryan Smith）、Rob Saker による投稿 in エンジニアリングのブログ

翻訳：Saki Kitaoka. Original Blog Link 製品供給の減少や倉庫のキャパシティの低下といったサプライチェーンの混乱に加え、シームレスなオムニチャネル体験に対する消費者の期待が急速に変化していることから、小売企業は自社のオペレーションを管理するためのデータ活用方法を見直す必要に迫られています。パンデミック（世界的大流行）以前は、小売企業の71% が、オムニチャネル目標を達成するための最大の障害として、在庫のリアルタイム可視性の欠如を挙げていました。パンデミックは、オンラインと店舗を統合したエクスペリエンスへの需要を高めるだけでなく、正確な商品の在庫状況を提示し、注文の変更を即座に管理しなければならないというプレッシャーを小売企業に与えることになりました。リアルタイムの情報へのアクセスを向上させることが、新たな時代の消費者の要求に応える鍵となります。このブログでは、小売業におけるリアルタイムデータの必要性と、POSデータのリアルタイムストリーミングをデータレイクハウスで大

Delta Lake で機械学習の課題を解決

July 22, 2021 Marijse van den Berg、マリア・ゼルヴォウによる投稿 in エンジニアリングのブログ

既存のデータレイクファイルストレージ上に構築されるオープンソースのストレージレイヤーである Delta Lake や機械学習の開発で使用される MLflow が話題に上る機会が増えています。しかし、多くのケースでは 2 つが別々の製品として取り上げられています。本ブログでは、機械学習の開発の際に起こりうるデータのバージョン管理や OOM エラーなどの課題において Delta Lake と MLflow の相乗効果に焦点を当て、堅牢なデータ基盤に基づく有用な機械学習結果を得るために Delta Lake をいかに活用すべきかについて解説します。データサイエンティストであれば、機械学習のモデル作成のプロセスは既に整っており、MLflow を機械学習モデルの本番環境へのデプロイに活用したことがあるでしょう。MLflow には、実験を追跡できる機能や、モデルのプロモーションに活用できる MLflow モデルレジストリが備わっています。また、コードのバージョン、クラスタのセットアップ、データの場所などの追跡機能による再現

AI と機械学習のための大規模な特徴量エンジニアリング

July 16, 2021 Li Yu、Daniel Tomes による投稿 in エンジニアリングのブログ

特徴量エンジニアリングは、機械学習のプロセスの中で最も重要なステップの 1 つであり、多くの時間を要します。データサイエンティストやアナリストは、さまざまな特徴量を組み合わせた実験を重ねてモデルを改善し、ビジネスに有益な情報を提供する BI レポートの作成を目指します。そのような状況下で、データサイエンティストが扱うデータの規模および複雑さが増大し、次のような事柄が課題となっています。特徴量をシンプルかつ一貫性のある方法で定義すること既存の特徴量の識別と再利用既存の特徴量を利用した拡張特徴量やモデルのバージョン管理特徴量定義のライフサイクルの管理特徴量の計算と保存の効率化大規模テーブル（>1000 列）の効率的な計算と永続化意思決定につながるモデルのもとになった特徴量の再現（例：監査や解釈可能性などの実証）このブログでは、大規模データの特徴量を生成する際のデザインパターンについて解説します。また、デザインパターンのリファレンス実装をダウンロード可能な Notebook で提供し、ファースト

ベイズ階層モデルによる COVID-19 疾患パラメタの推定

June 29, 2021 Srijith Rajamohan, Ph.D. による投稿 in エンジニアリングのブログ

前のブログでは、COVID-19（新型コロナウイルス感染症）疾患のダイナミクスを PyMC3 でモデル化する方法を解説しました。今回は、同じユースケースを使用して、ベイズ階層モデルによる COVID-19 疾患パラメタの推論方法および、プールモデル／非プールモデルと比較した場合のメリットについて、次のような順序で解説します。 1) SIR モデルを常微分方程式（ODE）で生成した合成データに当てはめ、 R 0 などの疾患パラメタを推論する。 2) 上記のフレームワークを実際のデータセット（国ごとの 1 日あたりの感染者数）に適用する。 3) このモデルの限界を指摘し、推論プロセスを改善する方法を考察する。なお、Coursera の専門講座「 Introduction to...

機械学習プラットフォームの選択における 3 つの原則

June 24, 2021 Joseph Bradley による投稿 in エンジニアリングのブログ

機械学習のプラットフォーム、オペレーション、ガバナンスに関するブログシリーズの第二弾です。Rafi Kurlansik によるこのシリーズの第一弾、「Need for Data-centric ML Platforms」（データセントリックな機械学習プラットフォームの必要性）はこちらからお読みいただけます。某サイバーセキュリティ企業でデータプラットフォーム部門のシニアディレクターを務めるお客様から、次のようなコメントをいただきました。「機械学習のツールは目まぐるしく進化している。将来的にも投資を無駄にしない方法はあるのだろうか？」これは多くの組織に共通する課題です。機械学習（ML）は、他の技術と比較して進化のスピードが速く、ライブラリの多くが開発後間もない段階で共有され、Databricks を含む多くのベンダーがそれぞれツールやプラットフォームを宣伝しています。会話を進めるうちに、このお客様は、データサイエンスや機械学習の取り組みへの投資を無駄にしない方法があることに気づきます。変化し続ける技術をサ

機械学習を活用した小売業者・ブランドのためのアイテムマッチング

May 24, 2021 ルーク・ビルブロ、ブライアン・スミス（Bryan Smith）、ロブ・サカー（Rob Saker）による投稿 in プラットフォーム

アイテムマッチングは、オンラインマーケットプレイスの中核的な機能です。小売業者は、最適化された顧客エクスペリエンスを提供すべく、新規／更新された商品情報を既存のリストと比較して、一貫性を確保し、重複を回避します。また、オンライン小売業者は、競合他社のリストと比較して、価格やインベントリの差異を確認します。複数のサイトで商品を提供しているサプライヤーでは、商品がどのように提示されているかを調べて、自社の基準との整合性を確保できます。効果的なアイテムマッチングの必要性は、オンランコマースに限られたことではありません。DSR（デマンドシグナルリポジトリ）は、数十年もの間、補充オーダーのデータに POS やシンジゲートされた市場データを組み合わせて、消費財メーカーに需要の全体を把握するケイパビリティを提供してきました。しかし、メーカーが自社の製品定義と、数十もの小売店パートナーの製品説明との間の差異を埋めることができなければ、DSR の価値は制限されます。このようなタイプのデータをまとめる際の課題は、異なるデータの照

データレイクハウスと機械学習の融合による再現性の強化

April 26, 2021 Mary Grace Moesta、Srijith Rajamohan, Ph.D. による投稿 in エンジニアリングのブログ

機械学習が組織やプロジェクトにこれまでにない価値をもたらすことが証明されています。機械学習には、イノベーションの加速、パーソナライゼーション、需要予測など、さまざまなユースケースがあります。しかし、課題もあります。それは、使用されるデータのソースが無数に存在し、ツールや依存関係のエコシステムも絶え間なく変化することから、ソリューションは流動的かつ、元の状態への再現性が低くなってしまうことです。機械学習で構築するモデルが常に正しいとは限りません。そこで、モデルの精度を高めるために実験を繰り返します。その実験の信頼性を高めるには、モデルと結果の再現性を高める必要があります。再現性を高める機械学習実験においては、少なくとも次の項目の再現が期待されます。データのトレーニング／検証／テストコンピューティング環境モデル（関連するハイパーパラメータなど）コードしかし、機械学習での再現性の確保は、実際には非常に難しいタスクです。例えば、モデルのトレーニングに使用されたデータと同一のデータにアクセスする必要があります