MetaのLlama 2とDatabricksでジェネレーティブAIアプリを構築する

Building your Generative AI apps with Meta's Llama 2 and Databricks

Published: July 17, 2023

Xiangrui Meng、Patrick Wendell（パトリック・ウェンデル）、プレム・プラカシュ、ル・ワン（モザイクAI）、Ankit Mathur による投稿

翻訳：Junichi Maruyama. - Original Blog Link

本日、Meta社は最新の大規模言語モデル（LLM）であるLlama 2をオープンソースとして公開し、商用利用を開始した1。これはオープンソースAIにとって重要な進展であり、ローンチ・パートナーとしてMetaと協力できたことはエキサイティングでした。私たちは、Llama 2のモデルを事前に試すことができ、その能力とあらゆる可能性のあるアプリケーションに感銘を受けました。

今年初め、メタ社はLLaMAをリリースし、オープンソース（OSS）LLMのフロンティアを大きく前進させた。v1モデルは商用利用はできないが、生成AIとLLMの研究を大きく加速させた。AlpacaとVicunaは、高品質な指示フォローとチャットデータがあれば、LLaMAをChatGPTのように振る舞うようにファインチューニングできることを実証した。この研究結果に基づいて、Databricksはdatabricks-dolly-15k命令追跡データセットを作成し、商用利用できるようにリリースした。LLaMA-Adapterと QLoRAは、コンシューマーGPU上で低コストでLLaMAモデルをファインチューニングできる、パラメータ効率の良いファインチューニング手法を導入した。Llama.cppは、LLaMAモデルを4ビット整数量子化のMacBook上で効率的に実行できるように移植しました。

これと並行して、企業がLLMを活用できるように、LLaMAと同等かそれ以上の品質のモデルを商用利用するためのオープンソースの取り組みが複数行われてきた。MosaicMLからリリースされた MPT-7Bは、LLaMA-7Bに匹敵し、より長いコンテキストのためのALiBiのような追加機能を備えた、商業利用のための最初のOSS LLMとなった。それ以来、Falcon-7Bや40B、OpenLLaMA-3B、7B、13B、MPT-30Bのような寛容なライセンスでリリースされるOSSモデルの数が増えています。

新たにリリースされたLlama 2モデルは、LLM研究作業をさらに加速させるだけでなく、企業が独自の生成AIアプリケーションを構築することも可能にする。Llama 2には、7B、13B、70Bのモデルが含まれ、LLaMAよりも多くのトークンで学習され、さらに命令追従やチャット用にファインチューニングされたバリエーションも含まれています。

ジェネレーティブAIアプリケーションの完全な所有権

Llama 2やMPTのような最先端の商用OSSモデルは、企業がモデルを所有し、したがって生成AIアプリケーションを完全に所有するための重要な機会を提供します。OSSモデルを適切に使用すれば、プロプライエタリなSaaSモデルと比較して、いくつかの利点が得られる：

ベンダーのロックインや強制的な非推奨スケジュールなし
学習済みモデルへの完全なアクセスを保持しながら、企業データを使ってファインチューニングが可能
モデルの動作は時間とともに変化しない
信頼されたインフラストラクチャ内でプライベートモデルインスタンスを提供する能力
生成AIアプリケーションの正しさ、バイアス、パフォーマンスを厳密に制御

Databricksでは、多くのお客様がさまざまなジェネレーティブAIのユースケースにオープンソースのLLMを採用しています。OSSモデルの品質が急速に向上し続ける中、APIベースのモデルと品質、コスト、信頼性、およびセキュリティを比較するために、これらのモデルを実験するお客様が増えています。

DatabricksでLlama 2を使って開発する

Llama 2モデルは現在利用可能で、Databricks上で簡単に試すことができます。Llama 2を推論に使用する方法、Gradioアプリでラップする方法、データで効率的にファインチューニングする方法、モデルをMLflowに記録する方法を示すサンプルノートブックを提供します。

Serving Llama 2

ファインチューニングされ最適化されたLlama 2モデルを利用するには、このモデルを組織全体に展開したり、AIを利用したアプリケーションに統合したりする機能も必要です。

Model Serving offeringは、商用アプリケーションで可能な限り最高のレイテンシーとスループットを提供するために、GPU上でのLLMの提供をサポートしています。ファインチューニングされたLLaMAモデルをデプロイするために必要なのは、サービングエンドポイントを作成し、UnityカタログまたはモデルレジストリからMLflowモデルをエンドポイントの構成に含めることだけです。Databricks がモデルの本番環境を構築し、準備は完了です！エンドポイントはトラフィックに合わせてスケールします。

GPUを利用したModel ServingへのプレビューアクセスにSign upしてください！

Databricks はまた、OSS LLM モデルに可能な限り最高のレイテンシーとスループットを必要とする企業向けに、最適化された LLM Serving を提供しています。Llama 2 を選択した企業がクラス最高のパフォーマンスを得られるように、製品の一部として Llama 2 のサポートを追加する予定です。

¹いくつかの制限があります。詳細はLlama 2ライセンスをご覧ください。

次は何ですか？

January 10, 2025/2分で読めます

Databricksにコレーション機能が登場！

January 31, 2025/1分未満

ジェネレーティブAIアプリケーションの完全な所有権

DatabricksでLlama 2を使って開発する

Serving Llama 2

Databricksの投稿を見逃さないようにしましょう

Sign up

次は何ですか？

Databricksにコレーション機能が登場！

DeepSeek R1 on Databricks