データ＋AI のトレンド

データインテリジェンスとカスタム LLM の導入競争

データと AI の戦略

喫緊の課題となるデータと AI の民主化

多くの企業が、組織の変革をめざして生成 AI を活用し、データインテリジェンスを民主化したいと考えています。しかし、データと AI のプラットフォームがサイロ化されている環境では、生成 AI プロジェクトの推進は困難です。

現在、ビジネスリーダーの間では、「データと AI の活用のための最速最善の方法を見つけること」が喫緊の課題となっています。

「データ+ AI のトレンド」レポートでは、データと AI の取り組みにおける企業の優先課題の概況を解説します。フォーチュン 500 企業のうちの 300 社以上の企業を含む、1 万社を超える世界中のお客さま（Databricks データインテリジェンスプラットフォームを利用するお客さま）を対象とした調査結果を分析し、生成 AI の導入をどのように加速させているか、どのようなツールを選択しているかなど、企業の現状を把握するための詳細なインサイトや見解を提供しています。

革新的な企業がいかにして機械学習や生成 AI を活用し、変化するガバナンスにどのように対応しているか？本レポートは、進化するエンタープライズ AI の時代に求められる効果的なデータ戦略の策定にお役立てていただくことを目的としています。

今回の調査で明らかになった主なポイントは、次のとおりです。

AI の本番運用が本格化

本番運用に移行したモデルが 11 倍に増加

長い期間、企業は AI の重要な要素である機械学習（ML）の実験を行ってきました。しかし、ML モデルの本番運用には、従来、データのサイロ化や、複雑なデプロイメントワークフロー、ガバナンスなど、数多くの課題がありました。今回の調査では、ML モデルが実験段階から本番運用へ移転していることが明らかになりました。全組織を通じ、本番運用に登録されているモデルは前年比で 1,018% 増加し、今回の調査で初めて、1 年間で本番運用に登録されたモデルの増加率が、実験回数の増加率を上回っています。実験回数の増加率も依然として 134% 成長しています。

しかし、ML へのアプローチは、業界ごとに要件や目標が異なります。業界による傾向をより深く理解するために、6 つの主要な業界における記録されたモデルの数と登録されたモデルの数の比率を分析しました。この分析結果では、最も効率が高い 3 つの業界が、25% のモデルを本番運用に移行していることがわかりました。

chart-02 showing the state of data and AI in 2024 in JP

登録されたモデル数に対する記録されたモデル数の比率を分析し、各業界における ML の本番運用への移行状況を測定しました。

社内か顧客向けかを問わず、AI の真価は本番環境で発揮されます。Databricks は、ML に成功事例が増えることで、本番運用に適した高品質な生成 AI アプリケーションを構築できると考えています。

LLM のカスタマイズ

ベクトルデータベースを利用する顧客数は前年比で 377% 増加している

生成 AI の活用が普及するなか、自社の特定のニーズに応じて、自社のプライベートデータを使用して既存の LLM をカスタマイズする企業が増えています。

RAG（検索拡張生成）は、オープンソースやプロプライエタリな LLM の性能を向上させるための重要な技術です。RAG を活用することで、企業はベクトルデータベースを使って基礎モデルを自社のプライベートデータでトレーニングし、業務に高度に関連した、より正確な結果を得ることができます。

エンタープライズがカスタマイズに積極的であることは、ベクトルデータベースの利用が前年比で 377％増加したことからも明らかです。

Databricks ベクトル検索に関するレビューが公開されて以来、ベクトルデータベースカテゴリ全体は 186% 成長し、他の LLM 関連 Python ライブラリを大きく上回りました。

ベクターデータベースの急増は、企業が自社のビジネスニーズに特化した問題解決や、ビジネス機会の拡大に役立つ生成 AI の代替手段を模索していることを示しています。また、事業全体でさまざまな種類の生成 AI モデルを組み合わせて使用する可能性が高いことを示唆しています。

オープンソース LLM

小規模なオープンソースモデルが選ばれている

オープンソースの LLM の最大の利点の 1 つは、特定のユースケース（特にエンタープライズ環境）に合わせてカスタマイズできることです。モデルやモデルファミリーを試すお客さまも少なくありません。Databricks では、オープンソースモデルの2 大プレイヤーである Meta Llama と Mistral の利用状況を分析しました。

chart-07 illustrating the state of data and AI in 2024 in JP

Databricks の基盤モデル API に採用されているオープンソースモデル Mistral と Meta Llama の内訳。

各モデルには、コスト、レイテンシ、性能の間でトレードオフがあります。Meta Llama 2 モデルのうち最も小規模なモデル 7B と 13B を合わせた利用率が、最も大規模な Meta Llama 2 70B モデルの利用率よりも高い結果となりました。また、Meta Llama 2、Llama 3、Mistral のユーザーの 77% が 13B（パラメータ数 130 億）以下のモデルを選択しています。このことから、企業が特にコストとレイテンシを重視していることがわかります。

詳しくは、「データ＋AI のトレンド」調査レポートをダウンロードしてご覧ください。

レポートをダウンロード