優れた AI の秘訣は優れたデータです。 AI の導入が急増するにつれ、データ プラットフォームはあらゆる企業のテクノロジー スタックの最も重要なコンポーネントになります。
生成AI システムは単一のモノリシックなものではなく、 連携して機能する さまざまなコンポーネントの組み合わせで あることがますます明らかになっています。データは最も重要な要素の 1 つですが、企業が モデルを 実際に 現実世界に 展開する には、他にも多くの機能が必要です 。
そのため、企業がデータと AI の幅広いニーズをサポートする基盤プラットフォームの構築を検討する際には、データの収集、データの管理、データからの価値の創造という 3 つの中核的な柱を念頭に置く必要があります。
データインテリジェンスプラットフォーム
これらの柱のそれぞれを 1 つのプラットフォームで管理すると、大きなプラスの結果が得られることに企業がますます気づき始めています。私たちはこれをデータ インテリジェンス プラットフォームと呼んでいますが、まもなくエンタープライズ ソフトウェアで最も重要な市場になるでしょう。
DIプラットフォームにより、企業は次のことが可能になります。
- カスタム LLM を構築するか、組織内の誰もが SQL クエリを実行するコードを生成できるようにするかによって、データを運用化します。
- 希望する商用またはオープンソースのAIモデルを活用し、独自のデータでカスタマイズまたは微調整します。
- 自然言語プロンプトを使用して、検索エンジンを使用するのと同じように情報を照会し、
- パートナーからデータを簡単に取り込み、得られた知見を素早く視覚化します。
そして、情報がこれらすべての新しいユースケースに流れるにつれて、企業はデータがどこに、どのような目的で移動されているかを正確に特定できるようになり、また、誰が、または何が情報にアクセスできるかを制限できるようになります。
以下では、企業がDIプラットフォームを選択する際に留意すべき重要な考慮事項について詳しく説明します。
統合化
今日のほとんどの企業では、データの保存、監視、使用という重要なタスクが、さまざまなツールに分散されています。実際、 MIT Technology Review と Databricks が最近実施したテクノロジー エグゼクティブの調査によると、年間収益が 100 億ドルを超える大規模組織の 81% が、現在 10 以上のデータ システムと AI システムを運用しています。
非常に多くの異なるテクノロジーに依存することは、コストがかかるだけでなく、データの統合とガバナンスにとって悪夢です。 そのため、企業は IT 基盤の将来性を確保するとともに、使用しているツールの数 を統合しようとしています。
適切な制御を導入したデータの統合により、IT の複雑さが大幅に軽減されます。 会社全体が単一のプラットフォームで運用されることが増えているため、基盤となるデータの管理が容易になります。 「最新のサプライチェーンデータはどこにあるのか」や「最新のサプライチェーンビジネスルールは何か」といった一般的な質問が解消されます。
しかし、それは基礎となるデータだけに関するものではありません。最新のデータ プラットフォームに転換することで、企業はAIエクスペリメントにかかるコストを節約できます。データウェアハウス上にモデルを構築すると、Lakehouse アーキテクチャを中心に構築された DI プラットフォーム上でモデルを実行する場合よりも、ほとんどの場合コストが高くなります。 MIT とDatabricksの調査によると、組織の 74% がすでにレイクハウスに移行しており、 AI時代の基盤としてこれを頼りにしているのはそのためです。
また、企業が実行しているデータ関連ツールの多くは組み込み系であるため、組織内の誰もが使用できるエンドツーエンドのプラットフォームに移行することで、高度なスキルを持つエンジニアへの依存が軽減されるとともに、組織内でのデータの使用が民主化されます。
データガバナンスがなければAIは存在しない
データの IP 漏洩、セキュリティ上の懸念、企業情報の不適切な使用に対する懸念。これらはすべて、企業の幹部から定期的に聞かれる懸念です。政府が顧客データを保護するよう企業に圧力をかけ続ける中、企業は、一歩間違えれば規制当局の注目を浴びる可能性があると当然ながら懸念しています。
たとえば、消費者情報をローカルに保存することを要求する政府が増えるにつれて、企業は組織内でデータがどのように移動しているかを詳細に追跡できる必要があります。 しかし、それはデータのコンプライアンスだけではありません。 企業はますます AI コンプライアンスについて懸念する必要に迫られています。
企業は近い将来、モデルをどのようにトレーニングしているのか、そのためにどのようなデータを使用しているのか、そしてモデルが最終的にどのように結果を導き出したのかを説明できるようになる必要がある 。 実際、保険会社や金融サービス提供者などの一部の業界では、請求決定や信用リスクの管理に使用するテクノロジーが消費者に害を及ぼさないことを規制当局に証明することがすでに義務付けられています。
データの管理と使用は、企業にとってプロセスのすべてのステップで特注のツールに依存し続けるには複雑すぎる作業になっています。 これにより、不必要な複雑さが増し、予測分析をサポートするワークフローの構築がさらに複雑になります。
その作業を 1 つのプラットフォームに統合することで、組織が AI の取り組みを追跡し、規制当局にモデルの仕組みを説明することがはるかに容易になります。 リネージ ツールを使用すると、企業はデータの出所、送信先、使用者を追跡できるようになります。
スケールに合わせて構築
新しいAIソリューションを立ち上げるには、データの準備、モデルの微調整、エンド アプリケーションの展開という 3 つの重要なステップがあります。
まず、企業は関連性のあるタイムリーなデータを特定し、適切な専門家の手に渡さなければなりません。 これは、企業にとって依然として大きな課題です。 情報は非常に多くの異なる場所に分散しているだけでなく、どの従業員がどの情報にアクセスできるかを決定することは、画一的なポリシーで は対応できません。
また、ほとんどのAIモデルは、すぐに運用を開始することができません。企業は、データを保護しながら最も正確で役立つ結果を確実に生み出すために、モデルを継続的に評価および変更できる必要があります。ここで、データパイプラインを監視するDatabricksのツールであるレイクハウスモニタリングのような機能が非常に重要になります。
そして結局のところ、AI は実際に使用されなければ役に立ちません。つまり、企業は、開発者やその他のエンドユーザーがすぐに構築を開始できる、消費者に優しいアプリケーションを使用して、モデルの開発と実行に伴う複雑さをすべて隠す必要があります。
これらの各ステップを個別に追跡すると、プロセスが非常に複雑になります。 代わりに、データディスカバリーから最終アプリケーションまでのモデル開発サイクル全体を処理し、モデルを継続的に改善するために必要なモニタリング ツールを提供できる DI プラットフォームが必要です。
しかし、基盤となるプラットフォームは重要ですが、それはプロセスにおける 1 つのステ ップにすぎません。従業員と文化をAI未来に備える方法については、以前のブログをご覧ください。