Databricksがエージェント評価の組み込みLLM判断に大幅な改善を発表
エージェント評価における改良された回答正確性判断機能 エージェント評価 は、Databricksの顧客がGenAIアプリケーションの品質を定義し、測定し、改善する方法を理解するのを可能にします。顧客データを扱う業界特有の文脈でのGenAIアプリケーションのML出力の品質を測定することは、新たな複雑さの次元を持っています:入力は複雑なオープンエンドの質問を含むことがあり、出力は文字列マッチングメトリクスを使用して参照回答と簡単に比較できない長い形式の回答になることがあります。 エージェント評価は、2つの補完的なメカニズムでこの問題を解決します。最初の一つは、 組み込みのレビューUI で、人間の専門家がアプリケーションの異なるバージョンとチャットして生成されたレスポンスにフィードバックを提供することができます。二つ目は、 組み込みのLLMジャッジ のスイートで、自動的なフィードバックを提供し、評価プロセスを大量のテストケースにスケールアップすることができます。組み込みのLLMジャッジは、生成された回答が参照回答に対し
DSPyでDatabricksのLLMパイプラインを最適化しましょう!
過去 1 年間、業界レベルのLLMテクノロジーの世界をフォローしてきた方なら、本番運用におけるフレームワークやツールの多さに気付いているでしょう。スタートアップ企業は、 検索拡張生成 (RAG) 自動化からカスタム ファインチューニング サービスまで、あらゆるものを構築しています。Langchain は 、おそらくこれらすべての新しいフレームワークの中で最も有名で、2023 年春以降、連鎖言語モデル コンポーネントの簡単なプロトタイプ作成を可能にしています。ただし、最近の重要な開発は、スタートアップ企業からではなく、学術界から生まれました。 2023年10月、Databricksの共同創設者であるMatei Zahariaのスタンフォード研究室の研究者たちが、宣言型の言語モデルコールを自己改善型パイプラインにコンパイルするためのライブラリである DSPy を発表しました。DSPyの主要な要素は自己改善型パイプラインです。例えば、ChatGPTは単一の入力-出力インターフェースとして見えますが、実際には単一のLLM
DatabricksでDSPyを活用しよう!
大規模言語モデル(LLM)は、プロンプト技術を最適化することで効果的な人間とAIの対話に注目を集めています。「プロンプトエンジニアリング」は、モデルの出力を調整するための成長中の方法論であり、検索拡張生成(RAG)などの高度な技術は、関連情報を取得して応答することでLLMの生成能力を強化します。 スタンフォードNLPグループが開発したDSPyは、「プロンプトではなくプログラミングで基盤モデルを構築する」ためのフレームワークとして登場しました。現在、DSPyはDatabricksの開発者エンドポイントとの統合をサポートしており、 Model Serving や Vector Search が可能です。 複合AIのエンジニアリング これらのプロンプト技術は、AI開発者がLLM、リトリーバルモデル(RM)、その他のコンポーネントを組み込んで 複合AIシステム を開発する際に、複雑な「プロンプトパイプライン」へのシフトを示しています。 プロンプトではなくプログラミング: DSPy DSPyは、下流タスクのメトリクスに向け