Spark JDBCを使用してリアルタイムのSAP HANAデータをDatabricksにフェデレートする最速の方法

Fastest way to get SAP HANA data into Databricks using SAP FedML

Published: October 19, 2023

翻訳：Junichi Maruyama. - Original Blog Link

SAPが最近発表したDatabricksとの戦略的パートナーシップは、SAPの顧客の間で大きな興奮を呼んでいる。データとAIのエキスパートであるDatabricksは、SAP HANAとDatabricksを統合することで、アナリティクスとML/AI機能を活用するための魅力的な機会を提供します。このコラボレーションの大きな関心を受け、私たちはディープダイブ・ブログ・シリーズに着手することになりました。

多くのお客様のシナリオでは、SAP HANAシステムは、SAP CRM、SAP ERP/ECC、SAP BWなど、さまざまなソースシステムからのデータ基盤の主要なエンティティとして機能しています。そして今、この堅牢なSAP HANA分析サイドカーシステムをDatabricksとシームレスに統合し、組織のデータ機能をさらに強化するエキサイティングな可能性が生まれました。SAP HANA（HANA Enterprise Editionライセンス）とDatabricksを接続することで、企業はSAP HANAに保存されている豊富で統合されたデータを活用しながら、Databricksの高度なアナリティクスと機械学習機能（MLflow、AutoML、MLOpsなど）を活用することができます。この統合により、企業は貴重な洞察を引き出し、SAPシステム全体でデータ主導の意思決定を推進する可能性が広がります。

Databricks で SAP HANA テーブル、SQL ビュー、および計算ビューを連携させるには、複数のアプローチを利用できます。しかし、最も手っ取り早い方法はSparkJDBCを使用することです。最も大きな利点は、SparkJDBCがSparkワーカーノードからリモートHANAエンドポイントへの並列JDBC接続をサポートしていることです。

Figure 1: Architecture