2024年8月20日

データの魔法：AI/BI Genieのためのデータキュレーション

今年の夏、MBAのインターンシップ中に、私はいくつかのデータプロジェクトに取り組みました。私のお気に入りのプロジェクトは、AI/BI Genieを使用して、私たちの戦略チームのための「バーチャルアナリスト」を構築することでした。

AI/BI Genieは、ユーザーが自然言語でデータに話しかけ、SQL生成のデータテーブルとチャートを返す新しいテキストからSQLへのデータ分析ツールです。適切に設定し、キュレーションすれば、ビジネスユーザーはデータ分析クエリを実行することができます。AIの基礎モデルに基づいて構築され、Unity Catalogガバナンスプラットフォームと完全に統合されています。

データキュレーションプロセス

今日の企業には、散在するテーブルに多くのデータが存在します。特定の情報を引き出すためには、しばしばSQL（または他の同等の言語）を使ってテーブルを検索、マージ、クリーニングし、ダッシュボードをコンパイルし、データを引き出す必要があります。

インターンシップの一環として、私はこれらの複雑なプロセスをバイパスするツールを作成し、データ分析を10倍効率的にしました。チームから最も重要で一般的なデータの質問を集めた後、私はこれらの要求に迅速かつ正確に答えることができるカスタムGenie Spaceを作成するために取り組みました。私は3部構成のアプローチを取りました：

データの定義
戦術的＆狭い推論
出力のクレンジング

データの定義

4つの大きなデータテーブルにGenie Spaceを接続した後、私はGenie Spaceに各データセットの文脈理解と、それらが互いにどのように関連しているかを提供することを目指しました。これは、重要なデータ定義に関する一連の指示をまとめることを意味しました。

最初に、私は一次定義をタグ付けしました。これは、各データセットの列を説明するための簡単な定義や、各データセットが何をカバーしているかを説明するためのものです。次に、私は二次定義をタグ付けしました。これは、私のチームの言語に特有の専門用語や略語で、テーブルには直接表現されていないものです。例えば、「UCOs」はユースケースを、「BUs」はビジネスユニットを意味します。

戦術的かつ狭い推論

データ周りの基本的な定義を理解するようにGenie Spaceを設定した後、単に値を読み上げるだけでなく、一般的なデータ問題に対するアプローチを改善するために、Genie Roomを拡張する必要がありました。これを行うために、高次元のデータ問題と特定のエッジケースの両方に対する回答を助ける指示を追加しました。

幸いなことに、Genie Spacesは戦術的または高次元の推論を容易にします。なぜなら、一般的なデータ問題のタイプに対するアプローチのテンプレートとして、サンプルのSQLコードを提供できるからです。特定のデータテーブルを結合する最善の方法や、時系列データなどの特定のビジネス要素を計算する方法など、SQLのスニペットを追加しました。

狭い範囲の特定の"エッジケース"クエリについての推論のために、ニッチな戦略質問の解釈方法を含むカスタム指示を追加しました。これらは、分析するための直感的でないアプローチが必要な場合があります。例えば、私はslippageという用語をDatabricksの文脈で定義し、その参照が一つのデータテーブル内の特定のトレンドについての指示を追加しました。これは通常のビジネスの定義とは異なります。

出力のクレンジング

最後に、私はGenie Spaceに、私たちの戦略チームにとって最も有用な形式で答えを出力するよう指示しました。これには一連の指示が含まれており、次の通りです：

すべてのSQL出力には、要求を述べるコメントが最上部に含まれていること、およびほとんどのセクションにインラインコメントが含まれていることを確認してください
データアイテムの名前を常に表示する（ID文字列だけではない）
Xオブジェクトを表示するときは、常にA+B+Cの属性を含める
クエリが含まれているデータテーブルを使用して計算できない場合は、特定のエラーメッセージを返すようにし、nullの結果を返すだけではない

制限

この2週間のキュレーションプロセスを通じて、私はこのカスタムGenie Spaceの回答精度を、私たちの戦略チーム内で最も重要で一般的に尋ねられる質問に対して、13％から86％に向上させました。

このキュレーションアプローチの制限は、規模の拡大に対する利益が減少することです。ある程度までは、指示を追加することでレスポンスの精度が上がり、ランタイムがわずかに遅くなるだけでした。しかし、データテーブルが増えるにつれて、データ要素間の関係を完全にマッピングするためには、指示の組み合わせが必要になります。Genie Spaceが明確な行動方針を実行するのが難しくなると、精度が下がり始めます。過度に具体的にすると、結果が混乱することがあります。

まとめ

Databricks Genieを使えば、SQLの基本的な知識と会社の専門用語、データセットを理解している人なら誰でも、AIエンジニアリングの必要なしに、オーダーメイドのデータ分析ツールを作成することができます。英語を理解している人なら誰でも、完成したGenie Spaceを使ってこれまで以上に速くデータを取得することができます。データセットの混乱した混乱から、あなたのワークフローの言語でデータを引き出す魔法のツールになります。

Databricksでのこの夏は、いくつかのクロスファンクショナルプロジェクトに取り組むことができ、素晴らしいものでした。特に、これらの新しいデータツールを試す機会を得て、先進的なビジネスインテリジェンスの時代に企業が可能なことの未来を垣間見ることができて、非常に感謝しています。

「十分に進んだ技術は、魔法と見分けがつかない。」

Databricks AI/BI Genie Spacesについてここで詳しく学びましょう。

インターンや新卒の役割について詳しく知りたい方は、大学リクルーティングページをご覧ください。

データの魔法：AI/BI Genieのためのデータキュレーション

データキュレーションプロセス

データの定義

戦術的かつ狭い推論

出力のクレンジング

制限

まとめ

最新の投稿を受信トレイで受け取る

Sign up