Databricks上で高度にスケーラブルなディープ推薦システムを訓練する(パート1)
推薦システム(RecSys)は、さまざまなプラットフォームでパーソナライズされたコンテンツの提案を支える現代のデジタル体験の不可欠な部分となっています。これらの洗練されたシステムとアルゴリズムは、ユーザーの行動、好み、アイテムの特性を分析し、興味のあるアイテムを予測し、推奨します。ビッグデータと機械学習の時代において、推薦システムは単純な協調フィルタリングのアプローチから、深層学習技術を活用する複雑なモデルへと進化しています。 これらの推薦システムをスケールすることは、特に何百万人ものユーザーや何千もの製品を扱う場合には、困難な場合があります。これを行うには、コスト、効率、精度のバランスを見つける必要があります。 このスケーラビリティの問題に対処する一般的なアプローチは、2段階のプロセスを含みます:初期の効率的な「広範な検索」に続いて、最も関連性の高いアイテムに対するより計算的に集中的な「狭範な検索」です。例えば、映画の推薦では、効果的なモデルはまず検索空間を数千からユーザーごとに約100項目に絞り込み、その後、
Mixtral 8x7B と Databricks モデルサーヴィングのご紹介
reviewed by saki.kitaoka 本日、Databricksは モデルサーヴィングで Mixtral 8x7Bをサポートすることを発表します。Mixtral 8x7BはスパースなMixture of Experts(MoE)オープン言語モデルで、多くの最先端モデルを凌駕するか、あるいはそれに匹敵します。最大32kトークン(約50ページのテキスト)の長いコンテキストを処理する能力を持ち、そのMoEアーキテクチャはより高速な推論を提供するため、RAG(Retrieval-Augmented Generation)やその他の企業ユースケースに理想的です。 Databricks Model Servingは、 プロダクショングレードのエンタープライズ対応プラットフォーム 上で、オンデマンド価格でMixtral 8x7Bへの即時アクセスを提供します。毎秒数千のクエリをサポートし、シームレスな ベクターストア 統合、自動化された品質 モニタリング 、統合 ガバナンス 、アップタイムのSLAを提供します。このエ
ファウンデーションモデル機能でGenAIアプリをより速く構築する方法
先週 発表した RAG( Retrieval Augmented Generation )に続き、Model Servingのメジャーアップデートを発表できることを嬉しく思います。Databricks Model Servingは 統一されたインターフェイス を提供するようになり、すべてのクラウドとプロバイダで基盤モデルの実験、カスタマイズ、プロダクション化が容易になりました。これは、組織固有のデータを安全に活用しながら、ユースケースに最適なモデルを使用して高品質のGenAIアプリを作成できることを意味します。 新しい統一インターフェースにより、Databricks上であろうと外部でホストされていようと、すべてのモデルを一箇所で管理し、単一のAPIでクエリすることができます。さらに、Llama2 や MPT モデルなどの一般的な大規模言語モデル (LLM) に Databricks 内から直接アクセスできる Foundation Model API...
LLM推論パフォーマンスエンジニアリング:ベストプラクティス
このブログポストでは、MosaicMLエンジニアリングチームが、人気のあるオープンソースの大規模言語モデル(LLM)を実運用に活用するためのベストプラクティスを紹介します。 また、これらのモデルを中心に構築された推論サービスを展開するためのガイドラインを提供し、ユーザーがモデルや展開ハードウェアを選択する際の助けとする。 これらのガイドラインは、FasterTransformers、vLLM、NVIDIAが間もなくリリースする TensorRT-LLMなどの 経験から導き出されたものです。 LLMテキスト生成を理解する 大規模言語モデル(LLM)は2段階のプロセスでテキストを生成する。"プリフィル" では入力プロンプトのトークンが並列処理され、"デコーディング" ではテキストが自己回帰的に一度に1「トークン」ずつ生成される。 生成された各トークンは入力に追加され、次のトークンを生成するためにモデルにフィードバックされる。 LLMが特別な停止トークンを出力するか、ユーザー定義の条件が満たされたとき(たとえば、トーク