翻訳:Junichi Maruyama. - Original Blog Link
本日、Meta社は最新の大規模言語モデル(LLM)であるLlama 2をオープンソースとして公開し、商用利用を開始した1。これはオープンソースAIにとって重要な進展であり、ローンチ・パートナーとしてMetaと協力できたことはエキサイティングでした。私たちは、Llama 2のモデルを事前に試すことができ、その能力とあらゆる可能性のあるアプリケーションに感銘を受けました。
今年初め、メタ社はLLaMAをリリースし、オープンソース(OSS)LLMのフロンティアを大きく前進させた。v1モデルは商用利用はできないが、生成AIとLLMの研究を大きく加速させた。AlpacaとVicunaは、高品質な指示フォローとチャットデータがあれば、LLaMAをChatGPTのように振る舞うようにファインチューニングできることを実証した。この研究結果に基づいて、Databricksはdatabricks-dolly-15k命令追跡データセットを作成し、商用利用できるようにリリースした。LLaMA-Adapterと QLoRAは、コンシューマーGPU上で低コストでLLaMAモデルをファインチューニングできる、パラメータ効率の良いファインチューニング手法を導入した。Llama.cppは、LLaMAモデルを4ビット整数量子化のMacBook上で効率的に実行できるように移植しました。
これと並行して、企業がLLMを活用できるように、LLaMAと同等かそれ以上の品質のモデルを商用利用するためのオープンソースの取り組みが複数行われてきた。MosaicMLからリリースされた MPT-7Bは、LLaMA-7Bに匹敵し、より長いコンテキストのためのALiBiのような追加機能を備えた、商業利用のための最初のOSS LLMとなった。それ以来、Falcon-7Bや40B、OpenLLaMA-3B、7B、13B、MPT-30Bのような寛容なライセンスでリリースされるOSSモデルの数が増えています。
新たにリリースされたLlama 2モデルは、LLM研究作業をさらに加速させる だけでなく、企業が独自の生成AIアプリケーションを構築することも可能にする。Llama 2には、7B、13B、70Bのモデルが含まれ、LLaMAよりも多くのトークンで学習され、さらに命令追従やチャット用にファインチューニングされたバリエーションも含まれています。
ジェネレーティブAIアプリケーションの完全な所有権
Llama 2やMPTのような最先端の商用OSSモデルは、企業がモデルを所有し、したがって生成AIアプリケーションを完全に所有するための重要な機会を提供します。OSSモデルを適切に使用すれば、プロプライエタリなSaaSモデルと比較して、いくつかの利点が得られる:
- ベンダーのロックインや強制的な非推奨スケジュールなし
- 学習済みモデルへの完全なアクセスを保持しながら、企業データを使ってファインチューニングが可能
- モデルの動作は時間とともに変化しない
- 信頼されたインフラストラクチャ内でプライベートモデルインスタンスを提供する能力
- 生成AIアプリケーションの正しさ、バイアス、パフォーマンスを厳密に制御
Databricksでは、多くのお客様がさまざまなジェネレーティブAIのユースケースにオープンソースのLLMを採用しています。OSSモデルの品質が急速に向上し続ける中、APIベースのモデルと品質、コスト、信頼性、およびセキュリティを比較するために、これらのモデルを実験するお客様が増えています。
DatabricksでLlama 2を使って開発する
Llama 2モデルは現在利用可能で、Databricks上で簡単に試すことができます。Llama 2を推論に使用する方法、Gradioアプリでラップする方法、データで効率的にファインチューニ ングする方法、モデルをMLflowに記録する方法を示すサンプルノートブックを提供します。
Serving Llama 2
ファインチューニングされ最適化されたLlama 2モデルを利用するには、このモデルを組織全体に展開したり、AIを利用したアプリケーションに統合したりする機能も必要です。
Model Serving offeringは、商用アプリケーションで可能な限り最高のレイテンシーとスループットを提供するために、GPU上でのLLMの提供をサポートしています。ファインチューニングされたLLaMAモデルをデプロイするために必要なのは、サービングエンドポイントを作成し、UnityカタログまたはモデルレジストリからMLflowモデルをエンドポイントの構成に含めることだけです。Databricks がモデルの本番環境を構築し、準備は完了です!エンドポイントはトラフィックに合わせてスケールします。
GPUを利用したModel ServingへのプレビューアクセスにSign upしてください!
Databricks はまた、OSS LLM モデルに可能な限り最高のレイテンシーとスループットを必要とする企業向けに、最適化された LLM Serving を提供しています。Llama 2 を選択した企業がクラス最高のパフォーマンスを得られるように、製品の一部として Llama 2 のサポートを追加する予定です。
1 いくつかの制限があります。詳細はLlama 2ライセンスをご覧ください。