メインコンテンツへジャンプ
ページ 1
>

Databricks上で高度にスケーラブルなディープ推薦システムを訓練する(パート1)

推薦システム(RecSys)は、さまざまなプラットフォームでパーソナライズされたコンテンツの提案を支える現代のデジタル体験の不可欠な部分となっています。これらの洗練されたシステムとアルゴリズムは、ユーザーの行動、好み、アイテムの特性を分析し、興味のあるアイテムを予測し、推奨します。ビッグデータと機械学習の時代において、推薦システムは単純な協調フィルタリングのアプローチから、深層学習技術を活用する複雑なモデルへと進化しています。 これらの推薦システムをスケールすることは、特に何百万人ものユーザーや何千もの製品を扱う場合には、困難な場合があります。これを行うには、コスト、効率、精度のバランスを見つける必要があります。 このスケーラビリティの問題に対処する一般的なアプローチは、2段階のプロセスを含みます:初期の効率的な「広範な検索」に続いて、最も関連性の高いアイテムに対するより計算的に集中的な「狭範な検索」です。例えば、映画の推薦では、効果的なモデルはまず検索空間を数千からユーザーごとに約100項目に絞り込み、その後、

Databricks、Brickbuilderプログラムを拡張してUnity Catalog Acceleratorsを追加

本日、Brickbuilder Unity Catalog Acceleratorsを発表いたします。 この プログラム は、システムインテグレーターやコンサルティングパートナーの専門知識と、実績のあるフレームワークや構築済みのコードを組み合わせて、企業が特定の方法論や Databricksデータインテリジェンスプラットフォーム の機能を迅速に実装できるように支援するものです。 パートナーソリューションとアクセラレータで構成されるBrickbuilderプログラムは、 業界と 移行ソリューションに 焦点を当てて始まり、あらゆる規模の顧客が数ヶ月ではなく数週間でDatabricksデータインテリジェンスプラットフォームを使用してレイクハウスアーキテクチャーをセットアップし、充実させることを支援するアクセラレーターを含むように急速に拡大しました。 今日、Databricksは、生産性を向上させ、価値を最適化するために、顧客のあらゆる段階に適合するアクセラレーターを開発するために、トップパートナーとの協力と投資を続けて

AIを用いた、マイグレーションのための新たなBrickbuilderソリューションを追加しました!

February 14, 2024 クリスティーヌ・ゴーティエ による投稿 in
過去2年間、Databricksは業界、マイグレーション、データおよびAIのユースケースのための革新的なソリューションを構築するために、主要なコンサルティングパートナーと協力してきました。 Databricks Brickbuilder ソリューションと アクセラレータは 、お客様の導入実績を基盤として、 Databricks データインテリジェンスプラットフォームの 可能性を最大限に引き出し、生産性を向上させ、データから価値を引き出すことができるように、パートナーの経験と知識をパッケージ化したものです。 Databricksは現在までに、レガシーシステムの移行、需要予測、顧客360、リスク管理、製品パフォーマンスなど、 60のパートナーソリューションを立ち上げて います。 最新のマイグレーションBrickbuilderソリューションと、Databricksパートナーがどのようにレイクハウスアーキテクチャへのエンドツーエンドのマイグレーションプロセスを段階的アプローチで支援しているかをご覧ください。 その結果、リ

時系列予測ライブラリ Prophet と Spark との連携

1. 時系列予測と Prophet 時系列予測は、周期性や季節性変動がある事象に対して予測を行います。例えば、ある商品の毎月の売り上げを考えると、商品の特性で夏に売り上げが上がり、また、週末や休日前になると多く売れるなど、さまざまな季節性、周期性要因が売り上げに関与してきます。時系列予測では、こうした季節性、周期性要因をうまくモデル化することが求められます。 Prophet は、こうした時系列予測のためのオープンソースライブラリです。Facebook 社の Core Data Science チームが開発・リリースしており、年毎、週毎、日毎の周期性に加え、休日の影響などを考慮して非線形な傾向を持つ時系列データをシンプルにモデル化できるという特長があります。さらに、異常値や欠損データの扱いにも強く、また、人間が理解しやすいパラメタやドメイン知識などを加えることで、モデルの精度を向上させる機能も備えています。 Prophet は、R および Python で利用可能です。今回は、Python を使用した Prophe

臨床データによる腫瘍学の知見抽出に NLP を活用

このブログで参照しているソリューションアクセラレータのノートブックは、 オンライン でご参照いただくか、ノートブックを ダウンロード してお使いの Databricks アカウントにインポートすることで、すぐにご利用いただけます。 米国における 死亡原因 および疾病原因の第 1 位は悪性腫瘍(がん)です。その数は驚異的で、今年、米国では新たに診断される がん患者は約 200 万人 になると予想されています。また、米国における医療費は、悪性腫瘍(がん)に関連するものが大部分を占めており、その額は、2020 年で 2,000 億ドルを超えると推定されています。このため、バイオ医薬品業界では、がん治療のための創薬に特に注力しています。2019 年、2020 年だけでも、FDA によって およそ...

最新の Data Lakehouse で健康データの力を解き放つ

患者 1 人に対して 年間およそ 80 MB の医療データ が生成されるといわれています。数千人規模の患者の生涯に換算すると、貴重な知見の源となるペタバイト級の患者データが生成されることになります。膨大なデータから知見を抽出することで、臨床業務の効率化、創薬研究の加速、患者の転帰の改善が図れます。これを可能にするためには、データを収集するだけでなく、準備段階として、データの前処理が必要です。ダウンストリームの分析や AI で利用できるよう、収集したデータのクリーニングや構造化を行います。ヘルスケア・ライフサイエンス組織のほとんどが、この準備段階に多大な時間を消費しているのが実情です。 業界におけるデータ分析の課題 ヘルスケア・ライフサイエンス業界の組織が抱える、データ準備、分析、AI における課題には数多くの理由が存在しますが、そのほとんどは、データウェアハウス(DWH)上に構築されたレガシーなデータアーキテクチャへの投資に関係するものです。この業界における 4 つの主要な課題は次のとおりです。 課題 1 - ボ

機械学習を活用した小売業者・ブランドのためのアイテムマッチング

アイテムマッチングは、オンラインマーケットプレイスの中核的な機能です。小売業者は、最適化された顧客エクスペリエンスを提供すべく、新規/更新された商品情報を既存のリストと比較して、一貫性を確保し、重複を回避します。また、オンライン小売業者は、競合他社のリストと比較して、価格やインベントリの差異を確認します。複数のサイトで商品を提供しているサプライヤーでは、商品がどのように提示されているかを調べて、自社の基準との整合性を確保できます。 効果的なアイテムマッチングの必要性は、オンランコマースに限られたことではありません。DSR(デマンドシグナルリポジトリ)は、数十年もの間、補充オーダーのデータに POS やシンジゲートされた市場データを組み合わせて、消費財メーカーに需要の全体を把握するケイパビリティを提供してきました。しかし、メーカーが自社の製品定義と、数十もの小売店パートナーの製品説明との間の差異を埋めることができなければ、DSR の価値は制限されます。 このようなタイプのデータをまとめる際の課題は、異なるデータの照

地理空間クラスタリングによる金融不正の識別

本ブログで参照する Notebook にスキップできます。 For most financial service institutions (FSI), fraud prevention often implies a complex ecosystem made of various components –- a mixture...

ソリューションアクセラレータ: 通信業界のための顧客離脱の予測

本ブログで参照する Notebook にスキップできます。 米通信大手 T-Mobile によるキャリアフリーの導入は、単なるマーケティングキャンペーンにとどまらず、米国通信市場のダイナミクスを根本的に変えるきっかけとなりました。かつての通信業界は、安定した公益事業のように成長し、携帯電話の本体料金を無料にするための通話プランによって、利用者を 2 年間の契約で縛ってきました。しかし、次の 3 つの要因により、通信業界のビジネスの本質が変わることになります。 電話番号の継続使用:2004 年以降、キャリアを変更しても電話番号は継続使用できるようになり、利用者がプロバイダを変更する際の最大の障壁の 1 つが解決しました。 通話プラン契約の廃止:携帯電話本体の価格の上昇により、各キャリアは本体購入料金の補助金を中止し、通話プランの契約が廃止されました。 競合企業:T-Mobileが、データプランの価格設定の積極的な変更と広告費への増額投資をおこない、市場シェアを拡大。これまで2強のシェアだった市場において、強力な第3

リアルワールドデータ分析によるハイリスク患者の検知

低コストのゲノムシークエンスや AI を活用した医療用画像診断の普及により、精密医療への関心が高まっています。Databricks では、精密医療の領域において、データや AI を活用して疾患に対する最適な治療法を発見することを目指しています。精密医療は、希少疾患やがんと診断された患者の治療のアウトカムを改善してきましたが、精密医療はリアクティブ型の医療です。精密医療を受けるには、患者が病気である必要があります。 医療・ヘルスケアのコストとアウトカムの面では、糖尿病や心臓病、薬物使用障害などの慢性疾患の 予防 が、医療費と生活の質の改善に大きく影響を与えることがわかっています。米国では、死亡者の 10 人のうち 7 人が慢性疾患の患者で、医療費の 85% が慢性疾患の治療によるものです。また、 欧州 や東南アジアでも同様の傾向が見られます。非感染性疾患は、患者への教育や慢性疾患の原因となる根本的な問題に対処することで、通常は予防可能です。これらの問題には、 神経疾患の原因となる既知の遺伝的リスク などの生物学的リ