Photon は、Databricks レイクハウスプラットフォームの次世代エンジンです。データレイク上で直接実行することが可能で、データの取り込み、ETL、ストリーミング、データサイエンス、インタラクティブクエリなど、極めて高速なクエリ性能を低コストで提供します。Photon は Apache Spark™ の API と互換性があり、コードの変更やベンダーロックインなしで、電源をオンにするだけですぐに使い始めることができます。
低コスト、高速
Photon は、低コストで最速のパフォーマンスを実現するためにゼロから構築されており、データおよび分析ワークロードを高速化しながら、最大 12 倍の TCO 削減を実現します。
あらゆるユースケースに対応
Photonは、データチームがバッチまたはストリーミングの全てのワークロード(ETL、分析、データサイエンス)に対して 1 つの API セットで標準化することを可能にする最初のエンジンです。
コード変更なし
Photon は、最新の Apache Spark API と互換性があるように設計されたANSI 準拠のエンジンで、SQL、Python、R、Scala、Java など、既存のコードで動作します。コードを書き換える必要はありません。
Photon を選ぶ理由
Databricks のクエリ性能は、Apache Spark と Databricks Runtimes(DBR)の一部としてパッケージ化された数千もの最適化機能によって、長年にわたって着実に向上してきました。C++ で記述された新しいネイティブベクトル化エンジンである Photon は、TPC-DS 1TB ベンチマークでさらに 2 倍の高速化を実現し、DBR の最新バージョンと比較して、ワークロードに応じて平均 3 倍から 8 倍の高速化が確認されています。
ユースケース
仕組み
C++で一から記述された Photon は、全てデータレイク上でネイティブに動作し、最新のハードウェアを利用してクエリを高速化し、他のクラウドデータウェアハウスと比較して 最大 12 倍の価格性能を提供します。
Photon は、Apache Spark DataFrame および SQL API と互換性があるように設計されており、コード変更なしでワークロードをシームレスに実行できます。Photon によるメリットを享受するには、電源をオンにするだけです。Photon は、作業とリソースをシームレスに調整し、SQL と Spark クエリの一部を透過的に高速化します。チューニングやユーザーの介入は必要ありません。
Photon は、お客さまのデータレイクでワールドクラスのデータウェアハウスのパフォーマンスを提供するために SQL を重点に置いてにスタートしましたが、その後、Photon がサポートする取り込みソース、フォーマット、API、メソッドの範囲を大幅に拡大してきました。その結果、Spark SQL や DataFrame といった最新の Spark ワークロードの全てにおいて、お客さまは Photon でインフラコストの大幅な削減と高速化を実現しています。
関連リソース
リサーチペーパー
イベント
ブログ
Ready to get started?