Home TrustがDatabricksデータインテリジェンスプラットフォームとdbt Cloudでバッチ処理を近代化した方法とは！？

How Home Trust Modernized Batch Processing with Databricks Data Intelligence Platform and dbt Cloud

Published: March 17, 2025

Summary

Home Trustは、レガシーETLソリューションの制限を克服するために、Databricks Data Intelligence Platformとdbt Cloudに移行しました
dbt Cloudの採用により、分析チームとエンジニアリングチームの間の協力が向上しました
Home Trustは、自然言語のクエリとLLMを通じてデータから洞察を得るDatabricks AI/BI Genieを活用し、アンダーライティングやフォローアップメールの生成などのタスクを自動化することで、顧客体験を改善しました

Home Trustでは、成功を関係性という観点で測ります。個人やビジネスと取り組む際、彼らが「次に備える」ための支援を常に心掛けています。

私たちの顧客の金融ニーズに一歩先んじるためには、エンタープライズデータウェアハウスで彼らのデータを分析やレポートのためにすぐに利用できるように保つことが必要です。これを私たちはHome Analytics & Reporting Platform (HARP)と呼んでいます。現在、私たちのデータチームはDatabricks Data Intelligence Platformとdbt Cloudを使用して効率的なデータパイプラインを構築し、ビジネスワークロードを共有し、エンタープライズ外の重要なパートナーシステムと共有することができます。このブログでは、Databricksとdbtとの共同作業の詳細と、私たちがお客様にとってのパートナーになるために役立つユースケースを共有します。

遅いバッチ処理の危険性

データに関しては、HARPが私たちの働き者です。それなしでは、私たちのビジネスをほとんど運営できません。このプラットフォームは、Power BI、Alteryx、SASなどの分析ツールを包含しています。長年にわたり、私たちはIBM DataStageを使用してHARP内のさまざまなソリューションを統合してきましたが、このレガシーETLソリューションは最終的に自身の重さに耐えられなくなりました。バッチ処理は夜通し行われ、午前7時までに終了し、データをパートナー組織に送信する前にデバッグする時間がほとんどありませんでした。私たちはパートナーとのサービスレベル契約を満たすのに苦労しました。

それはDatabricks Data Intelligence Platformに移行する難しい決定ではありませんでした。Databricksチームと密接に協力して、ソリューションの構築を開始し、それと同じくらい重要なこととして、中断を最小限に抑える移行計画を立てました。Databricksチームは、Databricks Delta Live Tablesと連携するフレームワークであるDLT-METAの使用を推奨しました。DLT-METAは、私たちのデータフロー仕様として機能し、既にプロダクションで使用していたブロンズとシルバーのデータパイプラインを自動化することを可能にしました。

まだ、SQLを中心にスキルセットを持つチームで移行を迅速化するという課題に直面していました。これまでのIBMソリューションでのすべての変換はSQLコーディングに依存していました。これらのスキルを活用できる現代的なソリューションを探して、私たちはdbt Cloudを選びました。

最初にdbt Cloudを試したときから、私たちは正しい選択をしたと確信していました。これは幅広い開発環境をサポートし、ブラウザベースのユーザーインターフェースを提供することで、私たちのチームの学習曲線を最小限に抑えます。例えば、私たちは非常に馴染み深いSlowly Changing Dimensionsベースの変換を行い、開発時間を大幅に削減しました。

レイクハウスが私たちのミッションクリティカルなプロセスをどのように支えているか

Home Trustでのすべてのバッチ処理は現在、Databricksデータインテリジェンスプラットフォームと私たちのlakehouseアーキテクチャに依存しています。レイクハウスは、レポートや分析のためにデータにアクセスできることを保証するだけでなく、それらの活動が重要であるとしても。それは、私たちが以下の目的で使用するデータを処理します：

ブローカーコミュニティでのローン更新プロセスの有効化
米国財務省とのデータ交換
FICOスコアの更新
重要なビジネス詐欺アラートの送信
デフォルトのリカバリーキューの実行

簡単に言えば、バッチ処理が遅れると、私たちの利益が打撃を受けることになります。Databricksとdbtを使用することで、今では夜間のバッチは午前4時頃に終了し、少なくとも12の外部システムにデータを供給する前に十分な時間をデバッグに費やすことができます。ついに、必要な計算能力の全てを手に入れ、もはや私たちは締め切りに追われることはありません。そして今のところ、コストは公正で予測可能でした。

それがエンドツーエンドでどのように機能するかは次のとおりです：

Azure Data FactoryはデータファイルをAzure Data Lake Storage（ADLS）にドロップします。SAPソースファイルの場合、SAP Data ServicesがファイルをADLSにドロップします。
そこから、DLT-METAはブロンズとシルバーのレイヤーを処理します。
dbt Cloudは、ゴールドレイヤーでの変換に使用され、ダウンストリーム分析の準備が整います。
データは、ローン、アンダーライティング、デフォルト回復などの活動のための指定されたパイプラインにヒットします。
私たちは、すべてのプラットフォーム間のオーケストレーションにDatabricks WorkflowsとAzure Data Factoryを使用しています。

これはすべて、分析チームとエンジニアリングチームの間の強力な協力なしには実現できないことです - つまり、dbt Cloudなしには実現できません。このプラットフォームは、両チームが最高の仕事をするための環境を提供します。私たちはdbtのユーザーを増やし続けているので、より多くのアナリストがエンジニアの助けなしに適切なデータモデルを構築できるようになります。一方、私たちのPower BIユーザーは、これらのデータモデルを活用してより良いレポートを作成することができます。結果として、より高い効率と、全員が信頼できるデータが得られます。

データ集約は、疑わしいほどに迅速に行われます

Databricks Data Intelligence Platform内では、チームのバックグラウンドや快適さに応じて、一部のユーザーはNotebookを通じてコードにアクセスし、他のユーザーはSQL Editorを使用します。

私たちにとって最も有用なツールは、インテリジェントなデータウェアハウスであるDatabricks SQLです。分析のためのダッシュボードを動かす前に、私たちは複雑なSQLコマンドを使用してデータを集約しなければなりません。Databricks SQLのおかげで、Power BIなどのさまざまな分析ツールが私たちのデータにアクセスできます。なぜなら、すべてのデータが一箇所にあるからです。

私たちのチームは、Databricks SQL内のパフォーマンスに驚き続けています。私たちのアナリストの一部は、Azure Synapse Analyticsでデータを集約していました。彼らがDatabricks SQLで実行を始めたとき、彼らは全体のジョブがあまりにも早く実行されたので、結果をダブルチェックしなければならなかった。このスピードにより、彼らはレポートにより詳細を追加し、より多くのデータを処理することができます。仕事が終わるのを待つのではなく、彼らは私たちのデータからより多くの質問に答えています。

Unity Catalogは私たちにとってもう一つのゲームチェンジャーです。今のところ、私たちはゴールド層のデータに対してのみ実装していますが、最終的には銀層と銅層にも拡張し、組織全体に適用する予定です。

組み込まれたAI機能は迅速な回答を提供し、開発を効率化します

すべての金融サービスプロバイダーと同様に、私たちは常にデータからより多くの洞察を引き出す方法を探しています。そのため、私たちはDatabricks AI/BI Genieを使用して、自然言語を通じてデータと対話するようになりました。

私たちはUnity Catalogを使用して個人を特定する情報（PII）をマスクし、Genieルームへのロールベースのアクセスを設定した後、Genieを私たちのローンデータ（最も重要なデータセット）に接続しました。Genieは、私たちのビジネスのユニークなセマンティクスを理解する生成的AIを使用します。このソリューションは私たちのフィードバックから学習を続けています。チームメンバーはGenieに質問を投げかけ、私たちの独自のデータに基づいた答えを得ることができます。Genieは私たちが行うすべてのローンについて学習し、昨日私たちが資金提供した住宅ローンの数や、クレジットカードビジネスからの未収入金の総額を教えてくれます。

私たちの目標は、GenieのようなNLPベースのシステムをより多く使用し、それらをゼロから構築し維持する際の運用オーバーヘッドを排除することです。私たちはGenieをビジネス全体で誰もが迅速な回答を得るために使用できるチャットボットとして公開することを望んでいます。

一方、Databricks Data Intelligence Platformは、さらに多くのAI機能を提供します。Databricks Assistantを使用すると、DatabricksノートブックとSQLエディターを通じてデータをクエリすることができます。タスクを平易な言葉で説明し、システムにSQLクエリを生成させ、コードのセグメントを説明させ、さらにはエラーを修正させることができます。これにより、コーディング中に多くの時間を節約できます。

オーバーヘッドの削減はより良い顧客体験を意味します

まだDatabricksとdbt Cloudを使用して初年度ですが、これらのプラットフォームが生成した時間とコストの節約にすでに感銘を受けています：

ソフトウェアライセンス料の削減。Unity Catalogを使用することで、私たちは別のプラットフォームを使用するのではなく、Databricksを通じてデータガバナンスを実行しています。私たちは、すべてのプロファイリングルールをDatabricks Notebooksを通じて実行することで、レガシーETLツールの必要性を排除しました。全体として、私たちはソフトウェアライセンス料を70％削減しました。
バッチ処理の高速化。レガシーのIBM DataStageソリューションと比較して、Databricksとdbtは私たちのバッチを90%速く処理します。
より速いコーディング。Databricks Assistantによる効率向上のおかげで、私たちはコーディング時間を70％削減しました。
新入社員のオンボーディングが容易になりました。IBM DataStageの10年間の経験を持つIT専門家を見つけるのが難しくなっていました。今日、私たちは優れたSTEMプログラムから新卒を採用し、すぐにDatabricksとdbt Cloudで働かせることができます。彼らがPythonとSQLを学び、AnacondaやJupyterなどの技術を使用していれば、彼らは適任です。
アンダーライティング作業の削減。今では、Databricks内のAI機能をマスターしているため、大規模言語モデル（LLM）を訓練して審査作業を行っています。このプロジェクトだけでアンダーライティング作業を80％削減することができます。
手動タスクの削減。Databricksデータインテリジェンスプラットフォーム内のLLM機能を使用して、ブローカーにフォローアップメールを書き、それをCRMシステムにドラフトとして配置します。これらのドラフトは、チームメンバーにとって貴重な数分を節約します。それを年間数千回の取引で掛けると、それは私たちのビジネスにとって大きな時間の節約を意味します。

データのゴールドレイヤーに500以上のdbtモデルと、Databricksには半ダースのデータサイエンスモデルがあるため、Home Trustは引き続き革新を続けることができます。ここで説明した技術の強化のそれぞれは、変わらぬ目標を支えています：お客様が「次に備える」ための支援を提供すること。

詳細を知りたい方は、このMIT Technology Review reportをご覧ください。これには、Apixio、Tibber、Fabuwood、Starship Technologies、StockX、Databricks、dbt Labsのリーダーとの深いインタビューから得られた洞察が含まれています。

次は何ですか？

Databricks Ventures Invests in Twelve Labs to Bring Video Intelligence to the Data Intelligence Platform

December 16, 2024/1分未満

Databricks VenturesがTwelve Labsに投資し、データインテリジェンスプラットフォームにビデオインテリジェンスを導入

December 23, 2024/2分で読めます

Summary

遅いバッチ処理の危険性

レイクハウスが私たちのミッションクリティカルなプロセスをどのように支えているか

データ集約は、疑わしいほどに迅速に行われます

組み込まれたAI機能は迅速な回答を提供し、開発を効率化します

オーバーヘッドの削減はより良い顧客体験を意味します

Databricksの投稿を見逃さないようにしましょう

Sign up

次は何ですか？

Databricks VenturesがTwelve Labsに投資し、データインテリジェンスプラットフォームにビデオインテリジェンスを導入

Databricks、2024年 Gartner® クラウド データベース管理システム部門の Magic Quadrant™ のリーダーの 1 社に。

Databricks、2024年 Gartner® クラウドデータベース管理システム部門の Magic Quadrant™ のリーダーの 1 社に。