Databricks ブログ

ページ 33

大規模言語モデルを用いて常識に沿った商品レコメンデーションを行う

March 5, 2024 アビナシュ・スーリヤルチ、サム・ソーヤー、コルトン・ペルティエ、ブライアン・スミス（Bryan Smith）による投稿 in 業界

詳細とノートブックのダウンロードについては、 LLM Solution Accelerators for Retail をご覧ください。商品の推薦（レコメンデーション）は、現代の顧客体験の中核をなす機能です。ユーザーは以前利用したことのあるサイトに戻ったとき、以前の利用内容に関連するレコメンデーションが表示されることを期待します。ユーザーが特定のアイテムに興味を持ったとき、類似した関連性のある代替品が提案され、自分のニーズに合ったアイテムを見つけられることを期待します。また、商品がカートに入れられると、ユーザーは、全体的な購買体験を完成かつ向上させる追加の商品がレコメンドされることを期待します。このような商品のレコメンデーションが適切に行われれば、買い物がスムーズになるだけでなく、ユーザーは小売店によって認識され、理解されていると感じることができます。商品のレコメンデーションを生成するための様々なアプローチがありますが、現在使用されているレコメンデーションエンジンのほとんどは、小売業者固有の大規模なデ

StreamNativeとDatabricks、Pulsar-Sparkコネクターでリアルタイムデータ処理を強化

March 4, 2024 トリステン・ウェントリング、ネン・ルー、チャオキン・リー、マッテオ・メルリによる投稿 in プラットフォーム

Apache Pulsarベースのリアルタイムデータプラットフォームソリューションのリーディングプロバイダーである StreamNative と、データインテリジェンスプラットフォームである Databricks は、強化された Pulsar-Sparkコネクターを発表します。リアルタイムデータ処理がビジネスにとって益々重要になっている今、このコラボレーションは、Apache Pulsar™ と Apache Spark ™ という2つの強力なオープンソース技術の強みを組み合わせたものになります。 Apache Pulsar™ Apache Pulsar™ はオープンソース、分散型メッセージングおよびイベントストリーミングプラットフォームであり、高い耐久性、スケーラビリティ、低レイテンシのメッセージングを提供します。リアルタイムのデータストリーミングを処理するように設計されており、単純なpub/subメッセージングから複雑なイベント駆動型のマイクロサービスアーキテクチャまで、さまざまなアプリケーションに使

Databricksの検索機能へのインテリジェンスの追加

March 4, 2024 シャオレイ・シー、ジョイ・シェ、マンザル・カジ、チー・チャン、Ritendra Datta、リチャード・トムリンソン、ジャスティン・キムによる投稿 in プラットフォーム

Databricksワークスペースの検索機能が大幅に改善されました。これらの機能強化は、 Databricksプラットフォーム内のデータインテリジェンスエンジンであるDatabricksIQ を基盤としており、AIを活用したよりインテリジェントな検索エクスペリエンスを提供します。 AIが生成したメタデータを利用した検索 Databricksの検索機能の主なメリットの1つは、 Unity Catalog で管理されているデータに対して AIが生成したテーブルとカラムのコメントを利用できることです。これらのコメントにより、検索エンジンはデータの意味とセマンティクスを理解することができ、より関連性が高く、正確で、実用的な結果を生成するために必要なコンテキストを提供します。 AIが生成するコメントはDatabricksIQによって提供されます。DatabricksIQは、検索ユースケース向けに、様々な業界のスキーマ例からエンタープライズデータ向けに特別にチューニングされた大規模言語モデル（LLM）を採用

Coastal Community Bank、Databricksのデータインテリジェンスプラットフォームを用いて充実した金融エコシステムを構築

March 4, 2024 Giselle Goicochea、アンナ・キュイジアによる投稿 in 業界

Coastal Community Bank（Coastal）のSVP、Head of Technology Operations and ImplementationのBarb MacLean氏とCavallo TechnologiesのRob Cavallo社長に感謝します。ゴリアテのコミュニティ・バンクとして繁栄ある意味で、コミュニティ・バンクであることがこれほど厳しくなったことはありません。米国では現在、上位15行が業界の預金と資産の大半を支配しており、大手5行で総資産の56 ％を管理しています。さらに、中小銀行に対する規制上の要求も高まっており、大手の競争相手と同じような厳しい資本、報告、マネーロンダリング防止基準に従うことが求められています。 Coastal Community Bank（Coastal）のSVP、テクノロジー・オペレーションおよびインプリメンテーションの責任者であるBarb MacLean氏にとって、その解決策はサービスとしての銀行（BaaS）です。 CoastalがDe

よりスマートな製造：生成AIの合理化におけるガバナンスの役割

March 4, 2024 シヴ・トリサル、ケイトリン・ゴードンによる投稿 in 業界

人工知能（AI）は、企業が生産し、顧客が接するあらゆる製品やサービスに組み込まれるようになるでしょう。生成AIによって、私たちは今、あらゆる企業の競争優位に貢献するデータ & AIイニシアチブへの期待が高まる時代に突入しています。データガバナンスは、企業が競争上の優位性を生み出し、それを維持するために成功するためには、絶対に欠かせないものです。今日のダイナミックな状況において、データガバナンスの重要性を見過ごすことはできません。なぜかというと、優れたAIは優れたデータから生まれるからです。適切なガバナンスがなければ、良いデータを確保することはできません。しかし、データガバナンスには大きな問題があります。「プリンセス・ブライド」で有名なハリウッドのキャラクター、イニゴ・モントーヤから引用します。「データガバナンス...。あなたはこの言葉を使い続けています。私は、それはあなたが思っているような意味ではないと思います！」。これは、データガバナンスという用語があまりに不定形になりすぎて、それが何な

Cloudflare R2統合によるDelta Sharingのパブリックプレビューを発表

February 29, 2024 Tianyi Huang、Giselle Goicochea、フィリップ・ジョーンズ、ハーシャル・ブラムバットによる投稿 in プラットフォーム

CloudflareのシニアプロダクトマネージャーPhillip JonesとシステムエンジニアHarshal Brahmbhattに感謝します。あらゆる業界の組織は、クラウドや地域に関係なく、単一で統一された方法でデータやAI資産を共有したいと考えています。しかし、多くの企業が顧客、チーム、パートナーとのデータ共有に苦戦しており、プラットフォームの互換性の問題や制限、高いデータ送信コスト、ガバナンスとセキュリティの欠如に直面しています。 Databricks と Linux Foundation は、安全なデータ共有のための最初のオープンなアプローチとして Delta Sharing を開発しました。お客様は、レプリケーションを必要とせず、プラットフォーム、クラウド、地域間で簡単かつ安全にデータを共有するために、Delta Sharingを使用しています。本日、Cloudflare R2との Delta Sharing のパブリックプレビューを発表し、お客様がクラウドやリージョンを越えてデータを共有し、

Apache Spark 構造化ストリーミングにおけるステートフルパイプラインの最新パフォーマンス改善へのディープダイブ

February 28, 2024 Mojgan Mazouchi、ムリティウンジャイ・クマール、アニッシュ・シュリゴンデカー、カーティケヤン・ラマサミによる投稿 in エンジニアリングのブログ

この投稿は、ステートフル・パイプラインの最新のパフォーマンス改善に関する2部構成のシリーズの第2部です。このシリーズの最初の部分は、 Apache Spark 構造化ストリーミングにおけるステートフルパイプラインのパフォーマンス改善でカバーされています。 Project Lightspeedの更新ブログでは、ステートフルパイプラインに追加したさまざまなパフォーマンス改善の概要を紹介しました。このセクションでは、パフォーマンス分析中に観察されたさまざまな問題を掘り下げ、それらの問題に対処するために実施した具体的な機能強化の概要を説明します。 RocksDBステートストア・プロバイダの改善メモリ管理 RocksDBは主にメモリを memtables 、ブロックキャッシュ、その他のピン留めブロックに使用します。以前は、マイクロバッチ内のすべての更新は、 WriteBatchWithIndex を使用してメモリにバッファリングされていました。さらに、ユーザーは書き込みバッファとブロックキャッシュの使用に

Apache Spark 構造化ストリーミングにおけるステートフルパイプラインのパフォーマンス改善

February 27, 2024 Mojgan Mazouchi、ムリティウンジャイ・クマール、アニッシュ・シュリゴンデカー、カーティケヤン・ラマサミによる投稿 in エンジニアリングのブログ

イントロダクション Apache Spark™ の構造化ストリーミングは、Spark SQLエンジン上に構築された、スケーラビリティと耐障害性を提供する人気のオープンソースストリーム処理プラットフォームです。 Databricksレイクハウスプラットフォーム上のほとんどの増分的およびストリーミングワークロードは、 Delta Live Tables および Auto Loader を含む構造化ストリーミングを利用しています。ここ数年、あらゆる業界における多様なユースケースにおいて、構造化ストリーミングの使用と採用が飛躍的に伸びています。 Databricksでは、1週間に1,400万以上の構造化ストリーミングジョブが実行されており、その数は年間2倍以上のペースで増加しています。ほとんどの構造化ストリーミングのワークロードは、分析ワークロードと運用ワークロード...

きめ細かなヒューマンフィードバック

February 27, 2024 プリトヴィーラージ（ラージ）・アンマナブロルによる投稿 in モザイクリサーチ

このブログ投稿では、 Fine-Grained RLHF について説明します。Fine-Grained RLHFは、密度と多様性という2つの異なる方法できめ細かい報酬関数から学習とトレーニングを可能にするフレームワークです。密度とは、全てのセグメント（例えば文章）が生成された後に報酬を提供することで達成されます。多様性は、異なるフィードバックタイプ（例えば、事実誤認、無関係、情報の不完全性）に関連する複数の報酬モデルを組み込むことによって達成されます。粒度の細かい報酬とは？ RLHF におけるこれまでの研究は、言語モデル（LM）出力の全体的な品質に関する人間の嗜好を収集することに重点を置いてきました。しかし、このような全体的なフィードバックは限られた情報しか提供しません。 NeurIPS 2023で発表した論文では、人間のフィードバック（例えば、どのサブセンテンスが無関係か、どのセンテンスが真実でないか、どのセンテンスが有害か）を明示的な学習信号として導入しました。 RLHFの報酬関数とは、テ

意識不明の患者問題：ヘルスケアとライフサイエンスにおけるエンティティ解決の重要性の考察

February 27, 2024 ティム・セドラック、アーロン・ザヴォラ、ルーク・ビルブロによる投稿 in 業界

このブログは、Stardogのシニア・ソリューション・アーキテクト、ティム・セドラックとの共同執筆です。ヘルスケアとライフサイエンスでは、正確さがすべてです。エンティティの解決（同じものを参照する複数のデータソースのレコードを特定、照合、統合するプロセス）に関しては、特にそうです。医療機関やライフサイエンス企業にとって、これは複雑かつ重要な課題です。幸いなことに、Databricks データインテリジェンスプラットフォームはこのような問題にも簡単に対応できます。この革新的なソリューションはレイクハウス・アーキテクチャで構築され、セマンティック・レイヤーとしてStardog Voiceboxを使用しています。医療における実体解決の重要性を示す実例を見てみましょう。そして、今日組織が直面している課題に対する解決策についてお話します。 ERにおける患者識別-最も重要なエンティティ解決あなたが救急外来の医師だとしましょう。意識不明の患者（交通事故の被害者）が緊急治療を必要としています。相手の命を救う可