簡素化された XML データ取り込みの発表

Announcing simplified XML data ingestion

公開日: May 23, 2024

お知らせLess than a minute

によってエリーゼ・ゲオリス、Peter Pogorski、サンディップ・アガルワラ、Shujing Yang、Ori Zohar による投稿

Databricks で XML データの取り込みがネイティブにサポートされるようになりました。

XML は、製造、医療、法律、旅行、金融などのさまざまなユースケースで複雑なデータ構造を表すための一般的なファイル形式です。これらの業界がアナリティクスとAIの新たな機会を見つけるにつれて、大量の XML データを活用する必要性が高まっています。 Databricks の顧客は、このデータをデータインテリジェンスプラットフォームに取り込み、そこで Mosaic AI や Databricks SQL などの他の機能を使用してビジネス価値を高めることができます。

ただし、回復力のある XML パイプラインを構築するには、多くの作業が必要になる場合があります。 XML ファイルは半構造化されており、任意の大きさであるため、多くの場合、処理が複雑です。これまで、XML の取り込みには OSS パッケージの使用や XML を別のファイル形式に変換する必要があり、その結果、データエンジニアがこれらの複雑なパイプラインを維持する必要がありました。

このプロセスを効率化するために、Auto Loader と COPY INTO 内で XML ファイルのネイティブサポートを開発しました。 (Auto Loader for XML は Delta Live Tables およびDatabricks Workflows で動作することに注意してください) このサポートにより、外部パッケージやファイルタイプの変換なしで、直接取り込み、クエリ、解析を行うことができます。ユーザーは、Auto Loader のスキーマ推論や進化などの強力な機能も活用できます。

例1：バッチワークロード用の XML ファイルを取り込む

次の XML を含むサンプル入力ファイルの場合:

上記のクエリは、次のスキーマと解析結果を推論します。

顧客は、新しい XML 固有の機能の恩恵も受けられます。たとえば、各行レベルの XML レコードを XML スキーマ定義 (XSD) に照らして検証できるようになりました。また、 from_xml Apache Spark 関数を使用して、 SQL 列またはストリーミングデータソース (Apache Kafka 、 Amazon Kinesis など) に埋め込まれた XML 文字列を解析することもできます。

例2：ストリーミングワークロード用に Auto Loader を使用して XML ファイルを取り込む

この例では、スキーマ推論、スキーマ進化、および XSD 検証を示します。

Lufthansa での XML データ取り込み

Lufthansa の業界ソリューションは、データインテリジェンスプラットフォーム上に構築された Lufthansa Cargo データソリューション用の XML データソースを取り込みました。新しい XML サポートにより、チームは取り込みを効率化し、データエンジニアリングの負担の多くを自動化できるようになりました。その結果、実務者は複雑なパイプラインを維持するのではなく、イノベーションに集中できるようになります。

次のステップ

ネイティブ XML サポートは現在、すべてのクラウドプラットフォームでパブリックプレビュー段階にあり、Delta Live Tables と Databricks SQL の両方で利用できます。詳細については、ドキュメントをご覧ください。

次は何ですか？

January 10, 2025/2分で読めます

Databricksにコレーション機能が登場！

January 31, 2025/1分未満

例1：バッチワークロード用の XML ファイルを取り込む

例2：ストリーミング ワークロード用に Auto Loader を使用して XML ファイルを取り込む

Lufthansa での XML データ取り込み

次のステップ

Databricksの投稿を見逃さないようにしましょう

Sign up

次は何ですか？

Databricksにコレーション機能が登場！

DeepSeek R1 on Databricks

例2：ストリーミングワークロード用に Auto Loader を使用して XML ファイルを取り込む