概要：オープンな基盤モデルの台頭

エンタープライズAIの導入を加速させる方法

Executive Overview: The Rise of Open Foundational Models

公開日: May 3, 2024

生成 AI アプリケーションを概念実証段階から本番運用段階に移行するには、制御、信頼性、データガバナンスが必要です。組織は、モデルとトレーニングに使用するデータの両方をより厳密に管理することで、制御と出力へのより良い影響を与える能力を求めて、オープンソースの基盤モデルに注目しています。

Databricks は、何千ものお客様が生成 AI のユースケースを評価し、組織に最適なアーキテクチャを決定するのを支援してきました。

当社の顧客は、多くの場合困難でコストがかかる、本番運用品質のAIモデルの構築と展開の課題を私たちと共有しています。その結果、ほとんどの CIO はモデルを本番運用に導入することに不安を感じています。これには、制御、所有権、品質の欠如、予測不可能なパフォーマンス、これらの基本モデルのスケーリングに関連する高いコストなど、さまざまな理由があります。

私たちは顧客の行動の変化に気づきました。効率性の向上とコストの削減のために、オープンソースモデルを採用する組織が増えています。これに応えて、当社は、組織が独自のデータを活用して独自の LLM を作成できるようにする最先端のオープン LLM である DBRX を開発しました。 DBRXを使用すると、組織はデータ、モデルのセキュリティと品質を完全に制御し、コストを削減できます。

コントロールとオーナーシップの欠如

ChatGPT のようなツールは優れていますが、消費者を念頭に置いて構築されており、GPT-4 のような基盤モデルを使用すると、正確性、安全性、ガバナンスに関するさまざまな問題が発生します。また、クラウドに送信したときに独自のデータがどうなるかという問題も発生します。

DBRXとデータインテリジェンスプラットフォームを活用することで、これらの課題を解消し、自信を持って生成AIに取り組むことができます。 DBRX を使用すると、企業は独自のSaaSモデルを OSS モデルに置き換えて、組織の特定のニーズ、データ、IP に合わせてカスタマイズすることで、より優れた制御を実現し、競争上の優位性を獲得できます。機密データをクラウドや独自のツールに送信する必要がなくなります。 Databricks を使用すると、モデルとデータの両方に対して完全な所有権を持つことができます。 RAG（検索拡張生成）、ファインチューニング、事前トレーニングを通じてDBRXを拡張し、独自のカスタムLLMをゼロから構築することで、独自のデータを使用して生成AIソリューションを構築できます。 DBRX とデータインテリジェンスプラットフォームにより、本番運用品質のモデルの提供が実現します。

企業を理解するLLM

Databricks は、モデルによって生成される出力の安全性と精度を最大化することに重点を置いています。モデルがChatGPTの消費者プロンプトに幻覚を見たり、不正確な結果を提供したりするのは一つのことですが、それが企業で起こった場合、まったく異なる影響があり、市場での収益とブランドに損害を与える可能性があります。しかし、質の高い体験を確保することは複雑な問題です。 Databricks は、データ取り込みや特徴量化、モデル構築、チューニング、実稼働化など、 MLライフサイクルのあらゆる側面の管理をすべて単一のプラットフォームから処理することで、このプロセスを簡素化します。

Databricks データインテリジェンスプラットフォームには、DBRX と組み合わせて使用してモデル出力の品質と精度を確保できるツールスイートが用意されています。 RAGは、幻覚を減らし、モデルの信頼性を高めるために使用できる1つのパターンです。プロンプトが届くと、ベクトル検索を使用してそのプロンプトに関連するドキュメントを検索し、それらのドキュメントをモデルのコンテンツに取り込み、質問に対する回答を出力するのに役立ちます。

さらに、データインテリジェンスプラットフォームは、モデルの品質、幻覚、毒性などに関する DBRX モデルのモニタリングも提供します。これは出力に関して重要であり、モデルが応答を生成したら、PIIデータやフィルタリングが必要なその他のデータなどを検出するのに役立ちます。したがって、エンタープライズのコンテキストでは、これらすべてのことを行う必要があり、生の出力を生成するためだけにモデルに頼ることはできません。このモニタリングは、チェックとバランスを提供し、適切なデータを導入して、モデルの正確性と信頼性を高めます。

最後に、セキュリティとアクセス制御を確実に実施し、データにアクセスできるはずのないユーザーがデータを取得できないようにすることが重要です。また、エンドツーエンドのリネージにより、本番運用を通じてデータからモデルを監査できることを確信できます。これらすべては、DBRX 上に構築するときに Databricks によって可能になります。これらの機能により、標準化され管理された方法で、複数のモデルとユースケースを POC から本番運用に簡単に移行できます。

コスト効率の高いLLMの構築

独自のモデル（ファインチューニングまたは事前トレーニング）を構築している組織は、自社のドメインで ChatGPT と同じ品質のモデルを実現したいと考えていますが、コストは抑えたいと考えています。 Databricks使用すると、エンタープライズ組織は、 SaaSプロバイダーと同様の結果を得ながら、コスト効率の高い大規模な DBRX をトレーニングおよび導入できます。

DBRXの興味深い点は、ChatGPT（GPT-3.5）だけでなく、他のオープンソースモデルよりも優れていることです。言語理解、プログラミング、数学、論理に関する標準的なベンチマークを使用します。モデルの構築方法、トレーニング方法、ベンチマーク、Hugging Face および github のモデルへのアクセス方法の詳細については、上記のリンクをご覧ください。これらのパフォーマンスの向上により、精度が向上するだけでなく、パフォーマンスも向上します。

私たちは、大規模なモデルの構築に特化した最適化されたソフトウェアスタックを構築しました。コンピュート使用率を高めるための調整された並列処理、自動リカバリ、メモリ使用量の自動調整、リアルタイムのストリームパラメータなど、さまざまな手法を組み合わせて使用します。このプラットフォームは、コストを最大10倍削減した実績があります。

最後に、Databricks は、データを使用して拡張または微調整できる専用の小型モデルを提供することで、コストの削減にも役立ちます。これらの小規模なモデルに独自のデータを拡張することで、わずかなコストで大規模な基盤モデルと同様のパフォーマンスを実現できます。

オープンソース LLM 入門

DBRX は Databricks 内および Databricks 上に構築されているため、チームは DBRX を構築したのと同じツールとテクニックを使用して、わずかなコストで独自のモデルを作成したり、独自の高品質モデルを改善したりできます。そして、JetBlue、Block、NASDAQ、Accenture など、今日すでに多くの企業がこれを行っています。

DBRXとデータインテリジェンスプラットフォームは、チームが既存のモデルを持っているか、新しいモデルを構築したいかに関係なく、柔軟性の新たな波を先導します。モデルとデータの両方の完全な所有権を提供し、複数のユースケースにわたってより迅速で信頼性の高いデプロイを提供し、チームが低コストで大規模なLLMを構築できるようにします。そのため、多くの組織がDatabricksを使用して生成 AI ソリューションを構築しています。

Databricks Mosaic AI 基盤モデルAPI を使用すると、 Databricks で DBRX を簡単に使い始めることができます。従量課金制ですぐに使い始めることができ、 AI Playgroundチャットインターフェースからモデルをクエリできます。 DBRX をプライベートにホストするには、 Databricks Marketplaceからモデルをダウンロードし、モデルサーバー上にモデルをデプロイします。

オープンソース LLM とデータインテリジェンスプラットフォームの力を活用する方法の詳細については、Data+ AI Summitに登録してください。