新登場!Python Data Source APIでデータ取り込みが驚くほど簡単に!
データエンジニアリングチームは、多様なカスタムデータや業界固有のデータソースに対応するため、専用の取り込みソリューションを構築するタスクを 頻繁に求められます。しかし、この取り込みソリューションの構築作業は煩雑で時間がかかることが多いのが現状です。こうした課題を解決するために、さまざまな業界の企業にインタビューを実施し、多岐にわたるデータ統合ニーズを深く理解しました。この包括的なフィードバックを基に開発されたのが、Apache Spark™向けの Python Data Source API です。 Shellとの取り組み 私たちが密接に協力してきた企業の一つがShellです。エネルギー業界では、設備の故障が安全性、環境、運用の安定性に重大な影響を及ぼす可能性があり、Shellではこれらのリスクを最小化することが重要課題となっています。そのため、設備の信頼性の高い運用に注力しています。 Shellは1,800億ドル以上の価値を持つ多種多様な資本設備と機器を所有しており、その運用から生成される膨大なデータを管理するた
State Reader APIの発表:新しい "Statestore" データソース
Databricks Runtime 14.3には、 構造化ストリーミング の内部ステートデータへのアクセスと分析を可能にする新しい機能、 State Reader API が含まれています。 State Reader APIは、JSON、CSV、Avro、Protobufなどのよく知られた Sparkデータフォーマット とは一線を画しています。 その主な目的は、ステートフルな構造化ストリーミングワークロードの開発、デバッグ、トラブルシューティングを容易にすることです。 Apache Spark 4.0.0(今年後半にリリース予定)には、State Reader APIが含まれます。 新しいAPIはどのような課題に対応しているのか? Apache Spark™...