データサイエンス・ML

ページ 2

重機メンテナンスへの洞察を革新するGenAI

September 5, 2024 Trevor Giannetti (Kubrick)、ヤヒヤ・ラディワラ（Kubrick）、ジャロン・ホルム（Kubrick）、神戸陳（キューブリック）、ヤレド・グデタによる投稿 in 生成 AI

重機械資産、例えば油田、農業用コンバイン、車両のフリートのメンテナンスは、グローバル企業にとって非常に複雑な課題をもたらします。これらの資産はしばしば世界中に広がっており、そのメンテナンススケジュールやライフサイクルは通常、企業全体のレベルで決定されます。主要なコンポーネントの故障は、1日あたり数百万ドルの収益損失をもたらすだけでなく、顧客への下流への影響も生じます。そのため、多くの企業が、これらの資産が毎日生成するテラバイト単位のデータから洞察を得るために、生成的AIに頼っています。これらの洞察は、停電を予測し、メンテナンス、修理、運用（MRO）のワークフローを改善することで、大幅な時間とコストの節約を実現するのに役立ちます。 Kubrick は、 Databricksのコンサルティングパートナーとして、業界を問わずクライアントと協力して、重機械のメンテナンス要件を予測し対応する能力を革新しています。これらの組織は、KubrickとDatabricksの技術と専門知識を活用することで、価値チェーン全体のビジネ

Databricksがエージェント評価の組み込みLLM判断に大幅な改善を発表

September 5, 2024 Max Marion、アルナヴ・シンヴィ、Samraj Moorjani、アヴェシュ・シン、マイケル・カービン、アルキス・ポリゾティスによる投稿 in 生成 AI

エージェント評価における改良された回答正確性判断機能エージェント評価は、Databricksの顧客がGenAIアプリケーションの品質を定義し、測定し、改善する方法を理解するのを可能にします。顧客データを扱う業界特有の文脈でのGenAIアプリケーションのML出力の品質を測定することは、新たな複雑さの次元を持っています：入力は複雑なオープンエンドの質問を含むことがあり、出力は文字列マッチングメトリクスを使用して参照回答と簡単に比較できない長い形式の回答になることがあります。エージェント評価は、2つの補完的なメカニズムでこの問題を解決します。最初の一つは、組み込みのレビューUI で、人間の専門家がアプリケーションの異なるバージョンとチャットして生成されたレスポンスにフィードバックを提供することができます。二つ目は、組み込みのLLMジャッジのスイートで、自動的なフィードバックを提供し、評価プロセスを大量のテストケースにスケールアップすることができます。組み込みのLLMジャッジは、生成された回答が参照回答に対し

Databricks上で高度にスケーラブルなディープ推薦システムを訓練する（パート1）

September 4, 2024 リスウィック・エディガ・ラカムサニ、アスファンディヤール・クレシ、Karan Jariwala、リン・ユアン、ル・ワン（モザイクAI）、Saaketh Narayan、Ning Wang による投稿 in 生成 AI

推薦システム（RecSys）は、さまざまなプラットフォームでパーソナライズされたコンテンツの提案を支える現代のデジタル体験の不可欠な部分となっています。これらの洗練されたシステムとアルゴリズムは、ユーザーの行動、好み、アイテムの特性を分析し、興味のあるアイテムを予測し、推奨します。ビッグデータと機械学習の時代において、推薦システムは単純な協調フィルタリングのアプローチから、深層学習技術を活用する複雑なモデルへと進化しています。これらの推薦システムをスケールすることは、特に何百万人ものユーザーや何千もの製品を扱う場合には、困難な場合があります。これを行うには、コスト、効率、精度のバランスを見つける必要があります。このスケーラビリティの問題に対処する一般的なアプローチは、2段階のプロセスを含みます：初期の効率的な「広範な検索」に続いて、最も関連性の高いアイテムに対するより計算的に集中的な「狭範な検索」です。例えば、映画の推薦では、効果的なモデルはまず検索空間を数千からユーザーごとに約100項目に絞り込み、その後、

Mosaic AI Vector Searchのハイブリッド検索の一般提供を開始

August 26, 2024 セルゲイ・ツァレフ、エリック・リンドグレンによる投稿 in 生成 AI

Mosaic AI Vector Searchにおけるハイブリッド検索の一般提供開始を発表することを嬉しく思います。ハイブリッド検索は、事前に訓練された埋め込みモデルの強みとキーワード検索の柔軟性を組み合わせた強力な機能です。このブログ投稿では、ハイブリッド検索がなぜ重要で、どのように機能し、どのようにして検索結果を改善するためにそれを使用できるかを説明します。ハイブリッド検索の理由は何ですか？事前学習済みの埋め込みモデルは、非構造化データを表現する強力な方法であり、意味を圧縮し、簡単に検索可能な形式で捉えます。しかし、それは外部データを使用して訓練されており、あなたのデータについての明確な知識はありません。ハイブリッド検索は、ベクトル検索インデックスの上に学習したキーワード検索インデックスを追加します。キーワード検索インデックスはあなたのデータで訓練されており、そのため、あなたの検索状況に重要な名前、製品キー、その他の識別子についての知識を持っています。ハイブリッド検索を選ぶタイミングハイブリッド検索は

ロールスロイスの画像生成に Databricks Mosaic AI のパワーを活用する

August 7, 2024 ジャック・ケレハー、マージョリー・アドリアンセンズ、プネート・ジャインによる投稿 in 生成 AI

ロールス・ロイスは、様々なAIプロジェクトにおいて Databricksデータインテリジェンスプラットフォームの変革的な力を目の当たりにしてきました。その一例として、ロールス・ロイスとDatabricksの協力プロジェクトがあります。このプロジェクトは条件付き敵対的生成ネットワーク（cGAN）の学習プロセスの最適化に焦点を当てており、 Databricks Mosaic AIツールを使用することの多くの利点を実証しています。このcGAN学習最適化の共同プロジェクトでは、チームは数値、テキスト、画像データの使用を検討しました。主な目標は、ロールス・ロイスの設計空間探索能力を向上させ、パラメトリックモデルの限界を克服することでした。これは、従来の形状モデリングとシミュレーションプロセスを必要とせずに、特定の設計条件を満たす革新的な設計コンセプトの識別と評価を推進するために、過去のシミュレーションデータを再利用できるようにすることで達成されました。ビデオを見る：ロールスロイスがクラウドベースの生成AI を使用

「Photon」で特徴量エンジニアリングを加速せよ！

August 2, 2024 チェン・イン、Xiao Zhu による投稿 in 生成 AI

高品質な機械学習モデルの訓練には、慎重なデータと特徴量の準備が必要です。Databricksにテーブルとして保存された生データをフルに活用するためには、ETLパイプラインの実行や特徴量エンジニアリングが必要となり、生データを有用な特徴量テーブルに変換することが求められます。テーブルが大きい場合、このステップは非常に時間がかかることがあります。今回、Databricks Machine Learning RuntimeでPhoton Engineを有効にできることを発表できることを嬉しく思います。これにより、Sparkジョブや特徴量エンジニアリングのワークロードを2倍以上高速化することが可能になります。「Photonを有効にし、新しいPITジョインを使用することで、私たちのフィーチャーストアを使用してトレーニングデータセットを生成するための時間が20倍以上短縮されました。」 - Sem Sinchenko, Advanced Analytics Expert Data Engineer, Raiffeisen

生成AIモデルのファインチューニングが簡単に！Mosaic AI Model Trainingが登場

July 22, 2024 ダニエル・キング、ナンシー・ハン、Kasey Uhlenhuth による投稿 in 生成 AI

本日、Mosaic AIモデルトレーニングによる生成AIモデルの微調整サポートがパブリックプレビューで利用可能になったことをお知らせできることを嬉しく思います。Databricksでは、汎用LLM（大規模言語モデル）の知能と企業データの知識を結びつけること、すなわち「データインテリジェンス」が高品質な生成AI システムを構築する鍵であると考えています。ファインチューニングにより、モデルは特定のタスクやビジネスコンテキスト、専門知識に特化でき、RAG（再利用可能な生成）と組み合わせることで、より正確なアプリケーションが可能になります。これにより、企業データを取り入れて生成AIを独自のニーズに適応させるための重要な柱となる「データインテリジェンスプラットフォーム戦略」が形成されます。モデルトレーニング私たちの顧客は昨年、20万以上のカスタムAIモデルをトレーニングしており、その経験を基にMosaic AI Model Trainingという完全マネージドサービスを開発しました。Llama 3、Mistral

Mosaic AI Agent Framework および Agent Evaluation の発表

July 2, 2024 エリック・ピーター、アキル・グプタ、マニ・パルケ、アルキス・ポリゾティス、チェネン・リャン、マヘーシュワラン・ヴェンカタチャラム、マイケル・カービン、ニール・タービットによる投稿 in 生成 AI

Databricks は、Data + AI Summit 2024 で、生成 AI クックブックとともに、Mosaic AI Agent Framework および Agent Evaluation のパブリックプレビューを発表...

Mosaic AI：本番運用のための複合AIシステムの構築とデプロイ

June 12, 2024 Patrick Wendell（パトリック・ウェンデル）、ナヴィーン・ラオによる投稿 in 生成 AI

Translation Review by saki.kitaoka 過去1年間で、一般知識タスクにおける優れた推論能力を示す商用およびオープンソースの基礎モデルの急増を目の当たりにしました。一般モデルは重要な構成要素ですが、実際のAIアプリケーションは、調整されたモデル、検索、ツールの使用、および推論エージェントなど、複数のコンポーネントを活用する複合AIシステムが採用されることが多くなっています。AIシステムは基礎モデルを強化し、品質を大幅に向上させることで、顧客がこれらの生成AIアプリケーションを自信を持って運用に導入できるようにします。本日、Data and AI Summitで、Databricks Mosaic AIが本格的なAIシステムを構築するための最良のプラットフォームとなる新機能を発表しました。これらの機能は、数千の企業と協力してAI駆動アプリケーションを運用に投入してきた経験に基づいています。本日の発表には、基礎モデルのファインチューニングのサポート、AIツールのエンタープライズカタ

DatabricksでのMosaic AI Vector Searchの一般提供開始を発表

May 21, 2024 セルゲイ・ツァレフ、オリバー・チウによる投稿 in データサイエンス・ML

検索拡張生成（RAG）用のツールスイートに関する発表に続き、本日、 Databricks での Mosaic AI Vector Search （ベクトル検索）の一般提供を発表できることを嬉しく思います。 Mosaic AI Vector Search とは何か? Vector Search を使用すると、開発者は PDF、Office ドキュメント、Wiki などの非構造化ドキュメントの類似性検索を通じて、検索拡張生成（RAG）...