オフラインLLM評価:Databricks上での段階的なGenAIアプリケーション評価
背景 RAG(Retrieval-Augmented Generation)がAIを駆使したアプリケーションとの関わり方に革命をもたらす時代において、これらのシステムの効率性と有効性を確保することは、かつてないほど不可欠なことである。DatabricksとMLflowはこの革新の最前線にあり、GenAIアプリケーションの重要な評価のための合理化されたソリューションを提供している。 このブログポストでは、Databricks Data Intelligence Platformを活用いて、GenAIアプリケーションの3つのコアコンポーネント(プロンプト、検索システム、Foundation LLM)の品質を強化および評価し、GenAIアプリケーションの継続的な品質を確保するためのするためにシンプルで効果的なプロセスを紹介する。 ユースケース MLflowのドキュメントの質問に回答し、その結果を評価するQAチャットボットを作成する。 Databricksで外部モデルを設定する Databricksの モデルサービング
MLflow 2.4を発表:ロバストなモデル評価のためのLLMOpsツール
Original: Announcing MLflow 2.4: LLMOps Tools for Robust Model Evaluation 翻訳: junichi.maruyama LLMは、あらゆる規模の企業にとって、強力なアプリケーションを迅速に構築し、ビジネス価値を提供する大きな機会を提供します。これまでデータサイエンティストは、非常に限られたタスクを実行するために何千時間もかけてモデルのトレーニングや再トレーニングを行っていましたが、今ではSaaSやオープンソースの幅広いモデル基盤を活用して、より汎用的でインテリジェントなアプリケーションを短時間で提供できるようになりました。データサイエンティストは、プロンプトエンジニアリングのような数ショットやゼロショットの学習技術を使うことで、多様なデータセットに対する高精度の分類器、最先端の感情分析モデル、低レイテンシーの文書要約器などを迅速に構築することができます。 しかし、生産に最適なモデルを特定し、安全に配備するためには、組織は適切なツールとプロセスを
MLflow 2.3の紹介:LLMのネイティブサポートと新機能による強化
Introducing MLflow 2.3: Enhanced with Native LLM Support and New Features 翻訳: junichi.maruyama MLflow は月間 1,300 万ダウンロードを超え、エンドツーエンドの MLOps の主要なプラットフォームとしての地位を確立しており、あらゆる規模のチームがバッチおよびリアルタイム推論用のモデルを追跡、共有、パッケージ化、およびデプロイできるようにしました。MLflowは、何千もの組織で日々採用され、多様なプロダクション機械学習アプリケーションを推進しており、産業界と学界から500人以上の貢献者からなる活発なコミュニティによって活発に開発されています。 今日、私たちはこのオープンソースの機械学習プラットフォームの最新版であるMLflow 2.3を発表することができ、大規模言語モデル(LLM)の管理・導入能力を向上させる革新的な機能が満載されていることに興奮しています。この強化されたLLMサポートは 、以下のような形で提供さ