Databricks ブログ

ページ 66

ベイズ階層モデルによる COVID-19 疾患パラメタの推定

June 29, 2021 Srijith Rajamohan, Ph.D. による投稿 in エンジニアリングのブログ

前のブログでは、COVID-19（新型コロナウイルス感染症）疾患のダイナミクスを PyMC3 でモデル化する方法を解説しました。今回は、同じユースケースを使用して、ベイズ階層モデルによる COVID-19 疾患パラメタの推論方法および、プールモデル／非プールモデルと比較した場合のメリットについて、次のような順序で解説します。 1) SIR モデルを常微分方程式（ODE）で生成した合成データに当てはめ、 R 0 などの疾患パラメタを推論する。 2) 上記のフレームワークを実際のデータセット（国ごとの 1 日あたりの感染者数）に適用する。 3) このモデルの限界を指摘し、推論プロセスを改善する方法を考察する。なお、Coursera の専門講座「 Introduction to...

データ分析の目的とプロセス

June 28, 2021 Takaaki Yayoi による投稿 in チュートリアル

こちらはデータブリックスユーザー会の第一回イベントで発表された内容となります。こちらからサンプルノートブックをダウンロードできます。データ分析はビジネス上の課題を解決するための手段の 1 つです。データ分析というと予測モデル構築が脚光を浴びがちですが、データをビジネス価値につなげる長い道のりのほんの一部です。この記事では、データ分析を通じでビジネス価値創出につなげるために辿るプロセスを、実例を含めてご紹介します。データ分析の（終わり無き）長いプロセス個人的経験を踏まえたものですが、データ分析プロジェクトは以下のフローになるかと思います。最後までたどり着けないプロジェクトもたくさんありました。ビジネス課題の特定データ分析における仮説の立案データ分析アプローチの検討データソースの調査、分析データの入手分析データの読み込み探索的データ分析（EDA: Exploratory Data Analysis）分析データの前処理分析アルゴリズムの検討...

機械学習プラットフォームの選択における 3 つの原則

June 24, 2021 Joseph Bradley による投稿 in エンジニアリングのブログ

機械学習のプラットフォーム、オペレーション、ガバナンスに関するブログシリーズの第二弾です。Rafi Kurlansik によるこのシリーズの第一弾、「Need for Data-centric ML Platforms」（データセントリックな機械学習プラットフォームの必要性）はこちらからお読みいただけます。某サイバーセキュリティ企業でデータプラットフォーム部門のシニアディレクターを務めるお客様から、次のようなコメントをいただきました。「機械学習のツールは目まぐるしく進化している。将来的にも投資を無駄にしない方法はあるのだろうか？」これは多くの組織に共通する課題です。機械学習（ML）は、他の技術と比較して進化のスピードが速く、ライブラリの多くが開発後間もない段階で共有され、Databricks を含む多くのベンダーがそれぞれツールやプラットフォームを宣伝しています。会話を進めるうちに、このお客様は、データサイエンスや機械学習の取り組みへの投資を無駄にしない方法があることに気づきます。変化し続ける技術をサ

Databricksのファイルシステム

June 16, 2021 Takaaki Yayoi による投稿 in ソリューション

こちらからサンプルノートブックをダウンロードできます。 Databricksでファイルを取り扱う際には、Databricks File System (DBFS) を理解する必要があります。本記事では、DBFSの概要をご説明するとともに、具体的な使用例をご説明します。 Databricks File System (DBFS) Databricks File System (DBFS) はDatabricksのワークスペースにマウントされる分散ファイルシステムです。Databricksクラスターから利用することができます。DBFSはクラウドのオブジェクトストレージを抽象化するものであり、以下のメリットをもたらします：オブジェクトストレージ(S3/Azure Blob Storageなど)追加の認証情報なしにオブジェクトストレージにアクセスすることができます。ストレージURLではなく、ディレクトリ、ファイルの文法に従ってファイルにアクセスできます。ファイルはオブジェクトストレージで永続化されるので、クラス

機械学習を活用した小売業者・ブランドのためのアイテムマッチング

May 24, 2021 ルーク・ビルブロ、ブライアン・スミス（Bryan Smith）、ロブ・サカー（Rob Saker）による投稿 in プラットフォーム

アイテムマッチングは、オンラインマーケットプレイスの中核的な機能です。小売業者は、最適化された顧客エクスペリエンスを提供すべく、新規／更新された商品情報を既存のリストと比較して、一貫性を確保し、重複を回避します。また、オンライン小売業者は、競合他社のリストと比較して、価格やインベントリの差異を確認します。複数のサイトで商品を提供しているサプライヤーでは、商品がどのように提示されているかを調べて、自社の基準との整合性を確保できます。効果的なアイテムマッチングの必要性は、オンランコマースに限られたことではありません。DSR（デマンドシグナルリポジトリ）は、数十年もの間、補充オーダーのデータに POS やシンジゲートされた市場データを組み合わせて、消費財メーカーに需要の全体を把握するケイパビリティを提供してきました。しかし、メーカーが自社の製品定義と、数十もの小売店パートナーの製品説明との間の差異を埋めることができなければ、DSR の価値は制限されます。このようなタイプのデータをまとめる際の課題は、異なるデータの照

データレイクとデータウェアハウスの違いとデータレイクハウスへの進化

May 19, 2021 Bill Inmon、Mary Levins による投稿 in データ戦略

このブログは、Forest Rim Technology（フォレスト・リム・テクノロジー社）のデータチームの寄稿によるものです。同社の創業者兼 CEO ビル・インモン氏、最高データ戦略責任者メアリー・レビンズ氏の貢献に感謝します。最初の課題ビッグデータを扱う人が最初に直面したデータの課題は、整合性でした。データの量が少なく、ソースのバリエーションも限られていた頃は、構造化データのテーブルで構成されたリレーショナルデータベース（RDB・関係データベース）の使用で事足りていましたが、アプリケーションが普及するようになると、複数のアプリケーションに同じデータが異なる値で現れ、データの整合性がとれないという課題が発生しました。どのデータが正しいかを判断するには、数あるアプリケーションの中から、どのバージョンのデータを使うべきかを見極めなくてはなりません。もしユーザーが適切なバージョンのデータを使用できなければ、判断を誤ってしまう可能性もあります。意思決定に適切なデータを使用するために、単純なリレーショナルデータベー

データレイクハウスと機械学習の融合による再現性の強化

April 26, 2021 Mary Grace Moesta、Srijith Rajamohan, Ph.D. による投稿 in エンジニアリングのブログ

機械学習が組織やプロジェクトにこれまでにない価値をもたらすことが証明されています。機械学習には、イノベーションの加速、パーソナライゼーション、需要予測など、さまざまなユースケースがあります。しかし、課題もあります。それは、使用されるデータのソースが無数に存在し、ツールや依存関係のエコシステムも絶え間なく変化することから、ソリューションは流動的かつ、元の状態への再現性が低くなってしまうことです。機械学習で構築するモデルが常に正しいとは限りません。そこで、モデルの精度を高めるために実験を繰り返します。その実験の信頼性を高めるには、モデルと結果の再現性を高める必要があります。再現性を高める機械学習実験においては、少なくとも次の項目の再現が期待されます。データのトレーニング／検証／テストコンピューティング環境モデル（関連するハイパーパラメータなど）コードしかし、機械学習での再現性の確保は、実際には非常に難しいタスクです。例えば、モデルのトレーニングに使用されたデータと同一のデータにアクセスする必要があります

Community Editionで始めるDatabricks

April 22, 2021 Masahiko Kitamura による投稿 in チュートリアル

Databricksはあらゆるデータ・分析・データサイエンスのワークロードに対応可能なオープンかつシンプルな Lakehouse を提供しています。そして、Databricksではその機能を無償でお試しいただけるよう、2通りの方法を用意しております。 2週間の無償トライアル: Databricksのフル機能をお試しいただけます。 Community Edition: 機能が限定されますが、期限なし・無償でご利用いただけます。このブログでは、後者のCommunity Editionを使用したDatabricksの始め方について説明します。 Community Editionの機能と制限 Community Editionでは、Databricksのフルバージョンの機能に対して以下の制限があります。作成できるクラスターは15GB RAM, 2 Core CPUのシングルノードのみワークスペースに追加できるユーザー数は最大3名までクラスターのリージョンはus-westのみ使用できない機能ジョブのスケジュール

Databricksで PyTorch を習得する 7 つの理由

April 14, 2021 Jules Damji による投稿 in エンジニアリングのブログ

新しい概念、言語、システムについて学ぶ場合、どのような学習方法が有効でしょうか。新しいタスクを学ぶ際に、既に習得しているスキルとの類似点を探すのではないでしょうか。学習者に好まれる学習過程の特性として、「親しみやすさ」、「わかりやすさ」、「シンプル」、の 3 つの共通点があります。これまでに習得した知識との共通点による親しみやすさは、新たな知識の習得に対する敷居を低くします。わかりやすさにより、内容を把握する際の負担が最小限になります。そして、シンプルであるということは、未知の事柄を取り入れる際の問題が少なく、新しい概念、言語、システムの習得による成果を高めます。 Aside from being popular among researchers, gaining adoption by machine learning practitioners in production, and having a vibrant community...

地理空間クラスタリングによる金融不正の識別

April 13, 2021 アントワーヌ・アメンド（Antoine Amend）による投稿 in エンジニアリングのブログ

本ブログで参照する Notebook にスキップできます。 For most financial service institutions (FSI), fraud prevention often implies a complex ecosystem made of various components –- a mixture...