Databricks で XML データの取り込みがネイティブにサポートされるようになりました。
XML は、製造、医療、法律、旅行、金融などのさまざまなユースケースで複雑なデータ構造を表すための一般的なファイル形式です。 これらの業界がアナリティクスとAIの新たな機会を見つけるにつれて、大量の XML データを活用する必要性が高まっています。 Databricks の顧客は、このデータをデータ インテリジェンス プラットフォームに取り込み、そこで Mosaic AI や Databricks SQL などの他の機能を使用してビジネス価値を高めることができます。
ただし、回復力のある XML パイプラインを構築するには、多くの作業が必要になる場合があります。 XML ファイルは半構造化されており、任意の大きさであるため、多くの場合、処理が複雑です。 これまで、XML の取り込みには OSS パッケージの使用や XML を別のファイル形式に変換する必要があり、その結果、データエンジニアがこれらの複雑なパイプラインを維持する必要がありました。
このプロセスを効率化するために、Auto Loader と COPY INTO 内で XML ファイルのネイティブ サポートを開発しました。 (Auto Loader for XML は Delta Live Tables およびDatabricks Workflows で動作することに注意してください) このサポートにより、外部パッケージやファイルタイプの変換なしで、直接取り込み、クエリ、解析を行うことができます。 ユーザーは、Auto Loader のスキーマ推論や進化などの強力な機能も活用できます。
次の XML を含むサンプル入力ファイルの場合:
上記のクエリは、次のスキーマと解析結果を推論します。
顧客は、新しい XML 固有の機能の恩恵も受けられます。 たとえば、各行レベルの XML レコードを XML スキーマ定義 (XSD) に照らして検証できるようになりました。 また、 from_xml Apache Spark 関数を使用して、 SQL 列またはストリーミング データソース (Apache Kafka 、 Amazon Kinesis など) に埋め込まれた XML 文字列を解析することもできます。
この例では、スキーマ推論、スキーマ進化、および XSD 検証を示します。
Lufthansa の業界ソリューションは、データ インテリジェンス プラットフォーム上に構築された Lufthansa Cargo データ ソリューション用の XML データ ソースを取り込みました。 新しい XML サポートにより、チームは取り込みを効率化し、データエンジニアリングの負担の多くを自動化できるようになりました。 その結果、実務者は複雑なパイプラインを維持するのではなく、イノベーションに集中できるようになります。
「Lufthansa Cargo は、Auto Loader による XML データの統合を効率化することに成功しました。これは、複雑な航空貨物予約データの処理における大きな進歩を示しています。 コスト効率が高く、信頼性の高いデータの『ランディング』、スキーマの推論と進化により、『自動操縦』モードが可能になっています。 全体として、Databricksおよび Lufthansa Industry ソリューションとの連携により、当社のチームは重要なタスクとイノベーションに集中できるようになりました」— Lufthansa Cargo、AD&M BI アナリティクス責任者、Björn Roccor 氏 & Lufthansa Cargo、アナリティクス技術マネージャー、Jens Weppner 氏
ネイティブ XML サポートは現在、すべてのクラウド プラットフォームでパブリック プレビュー段階にあり、Delta Live Tables と Databricks SQL の両方で利用できます。 詳細については、ドキュメントをご覧ください。