AIエージェント評価が進化!新たな合成データ機能で効率アップ
私たちのお客様は、汎用モデルを用いた大規模プロンプトから、ROIを向上させるために必要な品質を達成する専門的なエージェントシステムへと移行し続けています。今年初め、私たちは Mosaic AI Agent Framework と Agent Evaluation をリリースしました。これらは現在、多くの企業で、企業データを活用した複雑な推論や、サポートチケットの作成、メール対応などのタスクを実行するエージェントシステムの構築に利用されています。 本日、Agent Evaluationにおける大幅な強化として、合成データ生成APIを発表します。合成データ生成とは、実世界のデータを模倣した人工的なデータセットを作成することを指しますが、これは「架空の情報」を作ることではありません。私たちのAPIは、顧客独自のデータを活用し、それに基づいて評価セットを生成します。この評価セットは、顧客のユースケースに特化したものであり、ソフトウェアエンジニアリングにおけるテストスイートや、従来の機械学習における検証データのような役割を
Databricksがエージェント評価の組み込みLLM判断に大幅な改善を発表
エージェント評価における改良された回答正確性判断機能 エージェント評価 は、Databricksの顧客がGenAIアプリケーションの品質を定義し、測定し、改善する方法を理解するのを可能にします。顧客データを扱う業界特有の文脈でのGenAIアプリケーションのML出力の品質を測定することは、新たな複雑さの次元を持っています:入力は複雑なオープンエンドの質問を含むことがあり、出力は文字列マッチングメトリクスを使用して参照回答と簡単に比較できない長い形式の回答になることがあります。 エージェント評価は、2つの補完的なメカニズムでこの問題を解決します。最初の一つは、 組み込みのレビューUI で、人間の専門家がアプリケーションの異なるバージョンとチャットして生成されたレスポンスにフィードバックを提供することができます。二つ目は、 組み込みのLLMジャッジ のスイートで、自動的なフィードバックを提供し、評価プロセスを大量のテストケースにスケールアップすることができます。組み込みのLLMジャッジは、生成された回答が参照回答に対し
Mosaic AI Agent Framework および Agent Evaluation の発表
Databricks は 、Data + AI Summit 2024 で、 生成 AI クックブック とともに、Mosaic AI Agent Framework および Agent Evaluation の パブリック プレビュー を 発表...
レイクハウス・モニタリング: データとAIの品質監視のための統合ソリューション
はじめに Databricks Lakehouse Monitoring (レイクハウス・モニタリング)を使用すると、データからフィーチャー、MLモデルまで、すべてのデータパイプラインを追加のツールや複雑な操作なしに監視できます。 Unity Catalog に組み込まれているため、ガバナンスと並行して品質を追跡し、データとAI資産のパフォーマンスについて深い洞察を得ることができます。Lakehouse Monitoringは完全にサーバーレスなので、インフラストラクチャやコンピュート構成のチューニングを心配する必要はありません。 Lakehouseのモニタリングに対する統一されたアプローチにより、 Databricks Data Intelligence Platform で直接、品質の追跡、エラーの診断、ソリューションの検索が簡単に行えます。Lakehouse Monitoringを最大限に活用する方法を本記事ではご紹介します。 なぜレイクハウス・モニタリングなのか? データパイプラインは順調に動いているよう
「推論テーブル」の発表: AIモデルのモニタリングと診断を簡素化
翻訳:Saki Kitaoka. - Original Blog Link AIモデルを導入してみたものの、実世界で予想外の結果が出たという経験はありませんか? モデルのモニタリングは、そのデプロイと同じくらい重要です。そこで、AIモデルのモニタリングと診断を簡素化するInference Tablesをご紹介します。Inference Tablesを使用すると、 Databricks Model Serving エンドポイントからの入力と予測を継続的にキャプチャし、Unity Catalog Delta Tableに記録することができます。その後、Lakehouse Monitoringなどの既存のデータツールを活用して、AIモデルを監視、デバッグ、最適化できます。 推論テーブルは、LakehouseプラットフォームでAIを実行する際に得られる価値の素晴らしい例です。複雑さやコストを追加することなく、デプロイされたすべてのモデルでモニタリングを有効にすることができます。これにより、問題 を早期に検出し、再トレーニン