メインコンテンツへジャンプ
ページ 1

AIエージェント評価が進化!新たな合成データ機能で効率アップ

私たちのお客様は、汎用モデルを用いた大規模プロンプトから、ROIを向上させるために必要な品質を達成する専門的なエージェントシステムへと移行し続けています。今年初め、私たちは Mosaic AI Agent Framework と Agent Evaluation をリリースしました。これらは現在、多くの企業で、企業データを活用した複雑な推論や、サポートチケットの作成、メール対応などのタスクを実行するエージェントシステムの構築に利用されています。 本日、Agent Evaluationにおける大幅な強化として、合成データ生成APIを発表します。合成データ生成とは、実世界のデータを模倣した人工的なデータセットを作成することを指しますが、これは「架空の情報」を作ることではありません。私たちのAPIは、顧客独自のデータを活用し、それに基づいて評価セットを生成します。この評価セットは、顧客のユースケースに特化したものであり、ソフトウェアエンジニアリングにおけるテストスイートや、従来の機械学習における検証データのような役割を

Databricksがエージェント評価の組み込みLLM判断に大幅な改善を発表

エージェント評価における改良された回答正確性判断機能 エージェント評価 は、Databricksの顧客がGenAIアプリケーションの品質を定義し、測定し、改善する方法を理解するのを可能にします。顧客データを扱う業界特有の文脈でのGenAIアプリケーションのML出力の品質を測定することは、新たな複雑さの次元を持っています:入力は複雑なオープンエンドの質問を含むことがあり、出力は文字列マッチングメトリクスを使用して参照回答と簡単に比較できない長い形式の回答になることがあります。 エージェント評価は、2つの補完的なメカニズムでこの問題を解決します。最初の一つは、 組み込みのレビューUI で、人間の専門家がアプリケーションの異なるバージョンとチャットして生成されたレスポンスにフィードバックを提供することができます。二つ目は、 組み込みのLLMジャッジ のスイートで、自動的なフィードバックを提供し、評価プロセスを大量のテストケースにスケールアップすることができます。組み込みのLLMジャッジは、生成された回答が参照回答に対し

レイクハウスAIがリアルタイム計算でモデルの精度を向上させる方法

機械学習モデルの予測品質は、モデルの訓練と使用に使用されるデータの品質に直接反映される。 通常、特徴量、つまりモデルへの入力データは事前に計算され、保存された後、推論のために検索され、モデルに提供される。 モデルの性能は、特徴計算に使用するデータの鮮度と直接相関することが多いため、これらの特徴を事前に計算できない場合に課題が生じる。 オンデマンド・フィーチャー・コンピュテーションを発表することで、このようなフィーチャー・クラスのサービスを簡素化することができる。 レコメンデーション、セキュリティシステム、不正検知などのユースケースでは、これらのモデルのスコアリング時にオンデマンドで機能を計算する必要がある。 シナリオは以下の通り: 特徴量の入力データがモデル提供時にしか得られない場合。 例えば、 distance_from_restaurantは 、モバイル機器によって決定されたユーザーの最後の既知の位置を必要とする。 ある機能の価値が、それが使われる文脈によって変化する状況。 デバイスの種類がデスク トップと