メインコンテンツへジャンプ
<
ページ 2
>

Databricks上で高度にスケーラブルなディープ推薦システムを訓練する(パート1)

推薦システム(RecSys)は、さまざまなプラットフォームでパーソナライズされたコンテンツの提案を支える現代のデジタル体験の不可欠な部分となっています。これらの洗練されたシステムとアルゴリズムは、ユーザーの行動、好み、アイテムの特性を分析し、興味のあるアイテムを予測し、推奨します。ビッグデータと機械学習の時代において、推薦システムは単純な協調フィルタリングのアプローチから、深層学習技術を活用する複雑なモデルへと進化しています。 これらの推薦システムをスケールすることは、特に何百万人ものユーザーや何千もの製品を扱う場合には、困難な場合があります。これを行うには、コスト、効率、精度のバランスを見つける必要があります。 このスケーラビリティの問題に対処する一般的なアプローチは、2段階のプロセスを含みます:初期の効率的な「広範な検索」に続いて、最も関連性の高いアイテムに対するより計算的に集中的な「狭範な検索」です。例えば、映画の推薦では、効果的なモデルはまず検索空間を数千からユーザーごとに約100項目に絞り込み、その後、

Twelve Labs + Databricks Mosaic AIを用いた高度なビデオ理解のためのマルチモーダルAIの習得

Twelve Labs Embed API は、開発者がセマンティックビデオ検索やデータキュレーションからコンテンツ推奨やビデオRAGシステムまでの高度なビデオ理解ユースケースを支えるマルチモーダル埋め込みを取得することを可能にします。 Twelve Labsを使用すると、ビデオ内の視覚的表現、ボディランゲージ、話された言葉、全体的なコンテキストの関係を捉えた文脈的なベクトル表現を生成することができます。Databricks Mosaic AI Vector Search は、高次元ベクトルのインデックス作成とクエリに堅牢でスケーラブルなインフラストラクチャを提供します。このブログ記事では、これらの補完的な技術を活用して、ビデオAIアプリケーションで新たな可能性を引き出す方法をガイドします。 なぜTwelve Labs + Databricks Mosaic AIなのか? Twelve Labs Embed APIをDatabricks Mosaic...

Mosaic AI Vector Searchのハイブリッド検索の一般提供を開始

Mosaic AI Vector Searchにおけるハイブリッド検索の一般提供開始を発表することを嬉しく思います。ハイブリッド検索は、事前に訓練された埋め込みモデルの強みとキーワード検索の柔軟性を組み合わせた強力な機能です。このブログ投稿では、ハイブリッド検索がなぜ重要で、どのように機能し、どのようにして検索結果を改善するためにそれを使用できるかを説明します。 ハイブリッド検索の理由は何ですか? 事前学習済みの埋め込みモデルは、非構造化データを表現する強力な方法であり、意味を圧縮し、簡単に検索可能な形式で捉えます。しかし、それは外部データを使用して訓練されており、あなたのデータについての明確な知識はありません。ハイブリッド検索は、ベクトル検索インデックスの上に学習したキーワード検索インデックスを追加します。キーワード検索インデックスはあなたのデータで訓練されており、そのため、あなたの検索状況に重要な名前、製品キー、その他の識別子についての知識を持っています。 ハイブリッド検索を選ぶタイミング ハイブリッド検索は

「Generative AI World Cup」の発表:Databricksによるグローバルハッカソン

ようこそ、 Generative AI World Cup へ、これは参加者が実世界の問題を解決する革新的な生成AIアプリケーションを開発するためのグローバルハッカソンです。参加者は、総額50,000ドル以上の賞金、トロフィー、およびData + AI Summit 2025のパスを競います。参加者はまた、ハッカソンの過程で生成AIのスキルアップに役立つ資料も入手できます。参加して勝つ方法を学びましょう! 誰が参加できますか? Generative AI World Cupの参加資格は以下の通りです: 参加者は、所属組織内でデータまたはAIに関する役割を担っている必要があります 登録には法人のメールアドレスが必要です チームは2人から4人で構成される必要があります Databricksのスタッフ、パートナー、コンサルタント、学生は対象外です 参加者は20歳以上で、 こちらにリストアップされている対象国 のいずれかに居住している必要があります 何を作るか...

ロールスロイスの画像生成に Databricks Mosaic AI のパワーを活用する

ロールス・ロイスは、様々なAIプロジェクトにおいて Databricksデータインテリジェンスプラットフォーム の変革的な力を目の当たりにしてきました。その一例として、ロールス・ロイスとDatabricksの協力プロジェクトがあります。このプロジェクトは条件付き敵対的生成ネットワーク(cGAN)の学習プロセスの最適化に焦点を当てており、 Databricks Mosaic AIツール を使用することの多くの利点を実証しています。 このcGAN学習最適化の共同プロジェクトでは、チームは数値、テキスト、画像データの使用を検討しました。主な目標は、ロールス・ロイスの設計空間探索能力を向上させ、パラメトリックモデルの限界を克服することでした。これは、従来の形状モデリングとシミュレーションプロセスを必要とせずに、特定の設計条件を満たす革新的な設計コンセプトの識別と評価を推進するために、過去のシミュレーションデータを再利用できるようにすることで達成されました。 ビデオを見る: ロールスロイスがクラウドベースの生成AI を使用

「Photon」で特徴量エンジニアリングを加速せよ!

August 2, 2024 チェン・インXiao Zhu による投稿 in
高品質な機械学習モデルの訓練には、慎重なデータと特徴量の準備が必要です。Databricksにテーブルとして保存された生データをフルに活用するためには、ETLパイプラインの実行や特徴量エンジニアリングが必要となり、生データを有用な特徴量テーブルに変換することが求められます。テーブルが大きい場合、このステップは非常に時間がかかることがあります。今回、Databricks Machine Learning RuntimeでPhoton Engineを有効にできることを発表できることを嬉しく思います。 これにより、Sparkジョブや特徴量エンジニアリングのワークロードを2倍以上高速化することが可能になります。 「Photonを有効にし、新しいPITジョインを使用することで、私たちのフィーチャーストアを使用してトレーニングデータセットを生成するための時間が20倍以上短縮されました。」 - Sem Sinchenko, Advanced Analytics Expert Data Engineer, Raiffeisen

Patronus AI x Databricks: 幻覚(ハルシネーション)検出のためのトレーニングモデル

大規模言語モデル (LLM) における幻覚は、モデルが実際の現実や提供されたコンテキストと一致しない応答を生成するときに発生します。 この問題は、LLM 出力がユーザー提供のドキュメントにアクセスできる RAG アプリケーションを開発する LLM 実践者にとって課題となります。 たとえば、金融に関する質問への回答や医療診断に使用されている LLM がソース ドキュメントから逸脱した応答を生成すると、ユーザーは誤った情報にさらされ、重大な悪影響が生じます。 LLM-as-a-judge パラダイムは、その柔軟性と使いやすさにより、生成 AI アプリケーションの応答における不正確さを検出するために人気が高まっています。 しかし、GPT-4 のようなトップクラスのパフォーマンスを誇るモデルを使用している場合でも、LLM をジャッジとして使用すると、複雑な推論タスクに対する応答を正確に評価できないことがよくあります。 さらに、クローズドソースの LLM の品質、透明性、コストについても懸念があります。...

Santalucía Seguros: 顧客サービスとエージェントの生産性を向上させるエンタープライズレベルの RAG を構築する

Translation Review by Akihiro.Kuwano 保険業界では、顧客は自分のニーズに応える、パーソナライズされた、迅速で効率的なサービスを求めています。 一方、保険代理店は、複数の場所からさまざまな形式で大量のドキュメントにアクセスする必要があります。 100 年以上家族をサポートしてきたスペインの企業 Santalucía Seguros は、顧客サービスとエージェントの生産性を向上させるために、製品、補償範囲、手順などに関するエージェントの問い合わせをサポートできる GenAI ベースの仮想アシスタント (VA) を実装しました。 VA は Microsoft Teams 内でアクセスされ、あらゆるモバイル デバイス、タブレット、コンピューターから、エージェントの質問に自然言語でリアルタイムに、24 時間 365...

DatabricksとMLflowを活用して、FactSetが企業向け生成AIプラットフォームを実現した方法

「FactSetの使命は、クライアントがデータに基づいた意思決定を行い、ワークフローと生産性を向上させることです。私たちは、プラットフォーム全体でAI駆動のソリューションを提供するために、自社の開発者およびクライアントの企業の開発者が効率的かつ効果的に革新を進めることを支援しています。Databricksはこの革新の重要な要素であり、データとAIを中心としたソリューションを構築するための柔軟なプラットフォームを提供することで、価値を創出しています。」 - Kate Stepp, CTO, FactSet 私たちの企業と主要な取り組み 2024年には、特にAIの応用を通じてクライアントのワークフローを改善し、検索やさまざまなクライアントチャットボット体験における提供内容を強化することに焦点を当てています。AIをさまざまなサービスに統合することで、より個別化された効率的なクライアント体験を提供し、成長を促進することを目指しています。これらのAI駆動の強化は、ファクトセット投資家向けの財務提案の生成からポートフォリオの

大手ベンチャーキャピタル会社が Databricks で GenAI を構築する方法

May 15, 2024 コルトン・ペルチェ による投稿 in
GenAI アプリケーションをうまく構築するには、最先端の最新モデルを活用するだけでは不十分です。 データ、モデル、インフラストラクチャを柔軟かつスケーラブルに統合し、本番運用に対応した 複合AIシステム を開発する必要 があります。これには、オープンソース モデルと独自モデルの両方、ベクター データベースへのアクセス、モデルの微調整、構造化データのクエリ、エンドポイントの作成、データの準備、コストの管理、ソリューションの監視を行う機能が必要です。 このブログでは、 Databricksへの投資も行っている大手ベンチャーキャピタル会社 (このブログでは「VC」と表記) の GenAI 変革について見ていきます。この VC は、社内でイノベーションを推進するだけでなく、将来の投資を導く GenAI アプリケーションを構築する機会をより深く理解したいと考えていました。この VC は、構造化ファンド データから「 Databricksにいくら投資したか、現在の価値はいくらか」などの情報を照会する Q&A...