メインコンテンツへジャンプ
ログイン
      • Databricks を知る
        • エグゼクティブ向け
          • スタートアップ向け
            • レイクハウスアーキテクチャ
              • Mosaic Research
              • 導入事例
                • 注目の導入事例
                • パートナー
                  • クラウドプロバイダ
                    Databricks on AWS、Azure、GCP
                    • コンサルティング・SI
                      Databricks の構築・デプロイ、Databricks への移行のエキスパート
                      • 技術パートナー
                        既存のツールをレイクハウスに接続
                        • C&SI パートナー
                          レイクハウスの構築・デプロイメント、レイクハウスへの移行
                          • データパートナー
                            データコンシューマーのエコシステムにアクセス
                            • パートナーソリューション
                              業界・移行のニーズに応じたカスタムソリューション
                              • Databricks で構築
                                ビジネスの創造・マーケティング・成長
                              • Databricks プラットフォーム
                                • プラットフォームの概要
                                  データ・分析・AI のための統合プラットフォーム
                                  • データ管理
                                    データの信頼性・セキュリティ・パフォーマンス
                                    • 共有
                                      オープン、セキュア、ゼロコピーでのデータ共有
                                      • データウェアハウジング
                                        バッチ、ストリーミングデータのための ETL とオーケストレーション
                                        • ガバナンス
                                          データ・分析・AI のための統合ガバナンス
                                          • リアルタイム分析
                                            リアルタイム分析、AI、アプリケーションをシンプルに
                                            • 人工知能(AI)
                                              ML と生成 AI アプリケーションの構築とデプロイメント
                                              • データエンジニアリング
                                                バッチ、ストリーミングデータのための ETL とオーケストレーション
                                                • BI
                                                  実世界データのインテリジェント分析
                                                  • データサイエンス
                                                    データサイエンスの大規模な連携
                                                  • 統合とデータ
                                                    • マーケットプレイス
                                                      データ、分析、AI のためのオープンマーケットプレイス
                                                      • IDE 統合
                                                        お気に入りの IDE(統合開発環境)でレイクハウスを構築
                                                        • パートナーコネクト
                                                          Databricks エコシステムの検索と統合
                                                        • ご利用料金
                                                          • Databricks のご利用料金
                                                            料金設定、DBU、その他
                                                            • コスト計算ツール
                                                              クラウド利用でのコンピュートコストの試算
                                                            • オープンソース
                                                              • オープンソーステクノロジー
                                                                プラットフォームを支えるイノベーションをもっと詳しく
                                                              • 業界向け Databricks
                                                                • 通信
                                                                  • メディア・エンターテイメント
                                                                    • 金融サービス
                                                                      • 官公庁・公共機関
                                                                        • 医療・ライフサイエンス
                                                                          • リテール・消費財
                                                                            • 製造
                                                                              • 全て見る
                                                                              • クロスインダストリーソリューション
                                                                                • サイバーセキュリティ
                                                                                  • マーケティング
                                                                                  • 移行・デプロイメント
                                                                                    • データの移行
                                                                                      • プロフェッショナルサービス
                                                                                      • ソリューションアクセラレータ
                                                                                        • ソリューションアクセラレータ一覧
                                                                                          成果を加速
                                                                                        • トレーニング・認定試験
                                                                                          • 学習の概要
                                                                                            トレーニング、認定、イベントなどのハブ
                                                                                            • トレーニング概要
                                                                                              ニーズに合わせたカリキュラムを探す
                                                                                              • Databricks アカデミー
                                                                                                Databricks ラーニングプラットフォームにサインインする
                                                                                                • 認定
                                                                                                  スキル・認定で差別化を図る
                                                                                                  • 大学との連携
                                                                                                    Databricks を教材として活用
                                                                                                  • イベント
                                                                                                    • DATA+AI サミット
                                                                                                      • Data+AI ワールドツアー
                                                                                                        • Data Intelligence Days
                                                                                                          • イベントカレンダー
                                                                                                          • ブログ・ポッドキャスト
                                                                                                            • Databricks ブログ
                                                                                                              最新情報、製品発表、その他の情報
                                                                                                              • Databricks Mosaic AIリサーチブログ
                                                                                                                AI世代に関する最新リサーチ
                                                                                                                • Data Brew ポッドキャスト
                                                                                                                  ご相談・お問い合わせ
                                                                                                                  • ポッドキャスト:Data+AI のチャンピオン
                                                                                                                    イノベーションを支えるデータリーダーのインサイト
                                                                                                                  • お役立ちリソース
                                                                                                                    • カスタマーサポート
                                                                                                                      • ドキュメント
                                                                                                                        • コミュニティ
                                                                                                                        • もっと詳しく
                                                                                                                          • リソースセンター
                                                                                                                            • デモセンター
                                                                                                                            • 企業概要
                                                                                                                              • Databricks について
                                                                                                                                • 経営陣
                                                                                                                                  • Databricks Ventures
                                                                                                                                    • ご相談・お問い合わせ
                                                                                                                                    • 採用情報
                                                                                                                                      • 採用情報概要
                                                                                                                                        • 求人情報
                                                                                                                                        • プレス・ニュース記事
                                                                                                                                          • ニュースルーム
                                                                                                                                            • 受賞歴と業界評価
                                                                                                                                            • セキュリティと信頼
                                                                                                                                              • セキュリティと信頼
                                                                                                                                          • 是非ご検討ください!
                                                                                                                                          • デモを見る
                                                                                                                                          • ログイン
                                                                                                                                          • Databricks 無料トライアル
                                                                                                                                          1. ブログ
                                                                                                                                          2. /
                                                                                                                                            オープンソース
                                                                                                                                          3. /
                                                                                                                                            記事

                                                                                                                                          Spark Connect がApache Spark 3.4で利用可能になりました

                                                                                                                                          Run Spark Applications Everywhere

                                                                                                                                          Announcing the general availability of Spark Connect in Apache Spark 3.4

                                                                                                                                          Published: April 17, 2023

                                                                                                                                          オープンソース2分で読めます

                                                                                                                                          アラン・フォルティング、Hyukjin Kwon、Xiao Li、Herman van Hövell、ステファニア・レオーネ、マーティン・グルンド、Reynold Xin(レイノルド・シン)、Kris Mo による投稿

                                                                                                                                          この投稿を共有する

                                                                                                                                          最新の投稿を通知します

                                                                                                                                          Original Blog : Spark Connect Available in Apache Spark 3.4
                                                                                                                                          翻訳: junichi.maruyama 

                                                                                                                                          昨年、Data and AI SummitでSpark Connectが紹介されました。最近リリースされたApache SparkTM 3.4の一部として、Spark Connectは一般的に利用できるようになりました。また、最近Databricks ConnectをSpark Connectをベースに再アーキテクトしました。このブログ記事では、Spark Connectとは何か、どのように機能するのか、どのように使用するのかについて説明します。

                                                                                                                                          IDE、Notebook、最新のデータアプリケーションをSparkクラスタに直接接続できるようになります

                                                                                                                                          Spark Connectは、クライアントとサーバーを分離したアーキテクチャで、あらゆるアプリケーションからSparkクラスタへのリモート接続を可能にし、どこでも実行できるようにします。このクライアントとサーバーの分離により、最新のデータアプリケーション、IDE、ノートブック、およびプログラミング言語がSparkにインタラクティブにアクセスできるようになります。

                                                                                                                                          Spark Connect enables remote connectivity to Spark from any client application
                                                                                                                                          Spark Connectにより、あらゆるクライアントアプリケーションからSparkへのリモート接続が可能

                                                                                                                                          Spark Connectは安定性、アップグレード、デバッグ、観測性を向上させます

                                                                                                                                          この新しいアーキテクチャにより、Spark Connectは一般的な運用上の問題も軽減しています:

                                                                                                                                          安定性: 安定性:メモリを大量に使用するアプリケーションは、Sparkクラスタの外で独自のプロセスで実行できるため、自身の環境にのみ影響を与えるようになりました。ユーザーはクライアント環境で独自の依存関係を定義することができ、Sparkドライバーの潜在的な依存関係の競合を心配する必要がありません。

                                                                                                                                          例えば、分析または変換のためにSparkから大規模なデータセットを取得するクライアントアプリケーションがある場合、そのアプリケーションはもはやSparkドライバ上で実行されることはないでしょう。つまり、そのアプリケーションがメモリやCPUサイクルを大量に使用しても、Sparkドライバ上の他のアプリケーションとリソースを奪い合うことはなく、他のアプリケーションの速度低下や障害を引き起こす可能性はありません。

                                                                                                                                          アップグレードのしやすさ: 従来、Sparkのアップグレードは、同じSparkクラスタ上のすべてのアプリケーションをクラスタと同時にアップグレードする必要があったため、非常に面倒でした。Spark Connectでは、クライアントとサーバーが分離されているため、アプリケーションはサーバーから独立してアップグレードすることが可能です。これにより、Sparkのアップグレード時にクライアントアプリケーションに変更を加える必要がないため、アップグレードが非常に容易になりました。

                                                                                                                                          デバッグ可能性と観察可能性: Spark Connectは、お気に入りのIDEから直接、開発中のインタラクティブなステップスルーデバッグを可能にします。同様に、アプリケーションのフレームワークネイティブメトリクスとロギングライブラリを使用して、アプリケーションを監視することができます。

                                                                                                                                          たとえば、Visual Studio CodeでSpark Connectクライアントアプリケーションをインタラクティブにステップスルーし、オブジェクトを検査し、デバッグコマンドを実行して、コードの問題をテストし修正することができます。

                                                                                                                                          Spark Connectの仕組み

                                                                                                                                          Spark Connectクライアントライブラリは、Sparkアプリケーションの開発を簡素化するために設計されています。これは、アプリケーションサーバー、IDE、ノートブック、プログラミング言語など、あらゆる場所に埋め込むことができる薄いAPIです。Spark Connect APIは、クライアントとSparkドライバ間の言語に依存しないプロトコルとして未解決の論理計画を使用するSparkのDataFrame APIをベースとしています。

                                                                                                                                          Spark Connectクライアントは、DataFrameの操作を未解決の論理クエリプランに変換し、プロトコルバッファを使用してエンコードします。これらは、gRPCフレームワークを使用してサーバーに送信されます。

                                                                                                                                          Sparkドライバに組み込まれたSpark Connectエンドポイントは、未解決の論理プランを受信してSparkの論理プラン演算子に変換します。これはSQLクエリの解析に似ており、属性と関係が解析され、最初の解析プランが構築されます。そこから、標準的なSparkの実行プロセスが開始され、Spark ConnectがSparkのすべての最適化と機能拡張を活用できるようにします。結果は、Apache Arrowでエンコードされた結果バッチとして、gRPCを通じてクライアントにストリーミングバックされます。

                                                                                                                                          With Spark Connect, client applications communicate with Spark over gRPC
                                                                                                                                          Spark Connectでは、クライアントアプリケーションはgRPCでSparkと通信します

                                                                                                                                          Spark Connectの使用方法

                                                                                                                                          Spark 3.4からSpark Connectが利用できるようになり、PySparkとScalaのアプリケーションをサポートしています。Spark Connectクライアントライブラリを使用して、クライアントアプリケーションからSpark ConnectでApache Sparkサーバーに接続する例について説明します。

                                                                                                                                          Sparkアプリケーションを書くときに、Spark Connectを考慮する必要があるのは、Sparkセッションを作成するときだけです。それ以外のコードは、これまでとまったく同じです。

                                                                                                                                          Spark Connectを使用するには、コードを変更することなく、アプリケーションに環境変数(SPARK_REMOTE)を設定するだけで拾えるようにするか、Sparkセッションを作成する際に明示的にSpark Connectをコードに含めることができます。

                                                                                                                                          Jupyterノートブックの例を見てみましょう。このノートブックでは、ローカルのSparkクラスターへのSpark Connectセッションを作成し、PySpark DataFrameを作成して、リスナー数による音楽アーティスト上位10人を表示しています。

                                                                                                                                          この例では、Sparkセッションを作成する際にremoteプロパティを設定することで、Spark Connectを使用することを明示的に指定しています(SparkSession.builder.remote...)。

                                                                                                                                          Jupyter notebook code using Spark Connect

                                                                                                                                          例題で使用したデータセットは、こちらからダウンロードできます: Music artists popularity | Kaggle

                                                                                                                                          例えば、ローカルのSparkクラスターで開発およびテストを行い、後でリモートクラスター上の本番環境にコードを移行する場合、Spark Connectを使用すると、異なるSparkクラスター間で簡単に切り替えることができます。

                                                                                                                                          この例では、TEST_ENV環境変数を設定して、アプリケーションが使用するSparkクラスターとデータの場所を指定することで、テスト、ステージング、本番クラスターを切り替えるためにコードを変更する必要がないようにしています。

                                                                                                                                          環境変数で異なるSparkクラスターを切り替える

                                                                                                                                          Spark Connectの使用方法については、Spark Connect Overviewとpark Connect Quickstartのページをご覧ください。

                                                                                                                                          Databricks ConnectはSpark Connectで構築されています

                                                                                                                                          Databricks Runtime 13.0から、Databricks ConnectはオープンソースのSpark Connectで構築されるようになりました。この「v2」アーキテクチャにより、Databricks Connectはシンプルで使い勝手の良いシンクライアントとなりました。IDE、ノートブック、あらゆるアプリケーションなど、Databricksに接続するためのあらゆる場所に組み込むことができ、顧客やパートナーは、あなたのDatabricks Lakehouseをベースに新しい(インタラクティブな)ユーザー体験を構築できるようになります。使い方はとても簡単です: ユーザーはDatabricks Connect libraryをアプリケーションに組み込み、Databricks Lakehouseに接続するだけです。

                                                                                                                                          Apache Spark 3.4でサポートされるAPI

                                                                                                                                          PySpark: Spark 3.4では、Spark ConnectはDataFrame, Functions, Columnを含むほとんどのPySpark APIをサポートしています。サポートされているPySpark APIは、API referenceドキュメントで「Supports Spark Connect」と表示されるので、既存のコードをSpark Connectに移行する前に、使用しているAPIが利用可能かどうかを確認できます。

                                                                                                                                          Scala: Spark 3.4では、Spark ConnectはDataset, functions, Columnなど、ほとんどのScala APIをサポートしています。

                                                                                                                                          ストリーミングのサポートは近々行われる予定であり、今後のSparkリリースでSpark Connectのためのより多くのAPIを提供するためにコミュニティと協力することを楽しみにしています。

                                                                                                                                          Apache Spark 3.4のSpark Connectは、PySparkとScalaのDataFrame/DataSetsに基づくあらゆるアプリケーションからSparkへのアクセスを可能にし、将来的に他のプログラミング言語をサポートするための基礎を築きます。

                                                                                                                                          クライアントアプリケーション開発の簡素化、Sparkドライバのメモリ競合の緩和、クライアントアプリケーションの独立した依存関係管理、クライアントとサーバーの独立したアップグレード、IDEのステップスルーデバッグ、シンクライアントのロギングとメトリックなど、Spark ConnectはSparkへのアクセスをユビキタスにします。

                                                                                                                                          Spark Connectの詳細と開始については、Spark Connect Overview と Spark Connect Quickstart のページをご覧ください。

                                                                                                                                          最新の投稿を通知します

                                                                                                                                          関連記事

                                                                                                                                          この投稿を共有する

                                                                                                                                          Databricksの投稿を見逃さないようにしましょう

                                                                                                                                          興味のあるカテゴリを購読して、最新の投稿を受信トレイに届けましょう

                                                                                                                                          Sign up

                                                                                                                                          次は何ですか?

                                                                                                                                          Engineering blog

                                                                                                                                          オープンソース

                                                                                                                                          January 3, 2024/2分で読めます

                                                                                                                                          PySparkによるパラメータ化クエリ

                                                                                                                                          GGML GGUF File Format Vulnerabilities

                                                                                                                                          オープンソース

                                                                                                                                          March 22, 2024/6分で読めます

                                                                                                                                          GGML GGUF ファイルフォーマットの脆弱性

                                                                                                                                          databricks logo
                                                                                                                                          Databricks を選ぶ理由
                                                                                                                                          Databricks を選ぶ理由
                                                                                                                                          • エグゼクティブ向け
                                                                                                                                          • スタートアップ向け
                                                                                                                                          • レイクハウスアーキテクチャ
                                                                                                                                          • Mosaic Research
                                                                                                                                          導入事例
                                                                                                                                          • 注目の導入事例
                                                                                                                                          パートナー
                                                                                                                                          • クラウドプロバイダ
                                                                                                                                          • 技術パートナー
                                                                                                                                          • データパートナー
                                                                                                                                          • Databricks で構築
                                                                                                                                          • コンサルティング・SI
                                                                                                                                          • C&SI パートナー
                                                                                                                                          • パートナーソリューション
                                                                                                                                          Databricks を選ぶ理由
                                                                                                                                          • エグゼクティブ向け
                                                                                                                                          • スタートアップ向け
                                                                                                                                          • レイクハウスアーキテクチャ
                                                                                                                                          • Mosaic Research
                                                                                                                                          導入事例
                                                                                                                                          • 注目の導入事例
                                                                                                                                          パートナー
                                                                                                                                          • クラウドプロバイダ
                                                                                                                                          • 技術パートナー
                                                                                                                                          • データパートナー
                                                                                                                                          • Databricks で構築
                                                                                                                                          • コンサルティング・SI
                                                                                                                                          • C&SI パートナー
                                                                                                                                          • パートナーソリューション
                                                                                                                                          製品
                                                                                                                                          レイクハウスプラットフォーム
                                                                                                                                          • プラットフォーム
                                                                                                                                          • 共有
                                                                                                                                          • データガバナンス
                                                                                                                                          • 人工知能(AI)
                                                                                                                                          • DBRX
                                                                                                                                          • データ管理
                                                                                                                                          • データウェアハウス
                                                                                                                                          • データストリーミング
                                                                                                                                          • データエンジニアリング
                                                                                                                                          • データサイエンス
                                                                                                                                          ご利用料金
                                                                                                                                          • 料金設定の概要
                                                                                                                                          • 料金計算ツール
                                                                                                                                          オープンソース
                                                                                                                                          統合とデータ
                                                                                                                                          • マーケットプレイス
                                                                                                                                          • IDE 統合
                                                                                                                                          • パートナーコネクト
                                                                                                                                          レイクハウスプラットフォーム
                                                                                                                                          • プラットフォーム
                                                                                                                                          • 共有
                                                                                                                                          • データガバナンス
                                                                                                                                          • 人工知能(AI)
                                                                                                                                          • DBRX
                                                                                                                                          • データ管理
                                                                                                                                          • データウェアハウス
                                                                                                                                          • データストリーミング
                                                                                                                                          • データエンジニアリング
                                                                                                                                          • データサイエンス
                                                                                                                                          ご利用料金
                                                                                                                                          • 料金設定の概要
                                                                                                                                          • 料金計算ツール
                                                                                                                                          統合とデータ
                                                                                                                                          • マーケットプレイス
                                                                                                                                          • IDE 統合
                                                                                                                                          • パートナーコネクト
                                                                                                                                          ソリューション
                                                                                                                                          業種別
                                                                                                                                          • 通信
                                                                                                                                          • 金融サービス
                                                                                                                                          • 医療・ライフサイエンス
                                                                                                                                          • 製造
                                                                                                                                          • メディア・エンタメ
                                                                                                                                          • 官公庁・公共機関
                                                                                                                                          • リテール・消費財
                                                                                                                                          • 全て表示
                                                                                                                                          クロスインダストリーソリューション
                                                                                                                                          • サイバーセキュリティ
                                                                                                                                          • マーケティング
                                                                                                                                          データの移行
                                                                                                                                          プロフェッショナルサービス
                                                                                                                                          ソリューションアクセラレータ
                                                                                                                                          業種別
                                                                                                                                          • 通信
                                                                                                                                          • 金融サービス
                                                                                                                                          • 医療・ライフサイエンス
                                                                                                                                          • 製造
                                                                                                                                          • メディア・エンタメ
                                                                                                                                          • 官公庁・公共機関
                                                                                                                                          • リテール・消費財
                                                                                                                                          • 全て表示
                                                                                                                                          クロスインダストリーソリューション
                                                                                                                                          • サイバーセキュリティ
                                                                                                                                          • マーケティング
                                                                                                                                          リソース
                                                                                                                                          ドキュメント
                                                                                                                                          カスタマーサポート
                                                                                                                                          コミュニティ
                                                                                                                                          トレーニング・認定試験
                                                                                                                                          • トレーニング概要
                                                                                                                                          • トレーニング
                                                                                                                                          • 認定
                                                                                                                                          • 大学との連携
                                                                                                                                          • Databricks アカデミー
                                                                                                                                          イベント
                                                                                                                                          • DATA+AI サミット
                                                                                                                                          • Data+AI ワールドツアー
                                                                                                                                          • Data Intelligence Days
                                                                                                                                          • イベントカレンダー
                                                                                                                                          ブログ・ポッドキャスト
                                                                                                                                          • Databricks ブログ
                                                                                                                                          • Databricks Mosaic AIリサーチブログ
                                                                                                                                          • Data Brew ポッドキャスト
                                                                                                                                          • Data+AI のチャンピオンシリーズ
                                                                                                                                          トレーニング・認定試験
                                                                                                                                          • トレーニング概要
                                                                                                                                          • トレーニング
                                                                                                                                          • 認定
                                                                                                                                          • 大学との連携
                                                                                                                                          • Databricks アカデミー
                                                                                                                                          イベント
                                                                                                                                          • DATA+AI サミット
                                                                                                                                          • Data+AI ワールドツアー
                                                                                                                                          • Data Intelligence Days
                                                                                                                                          • イベントカレンダー
                                                                                                                                          ブログ・ポッドキャスト
                                                                                                                                          • Databricks ブログ
                                                                                                                                          • Databricks Mosaic AIリサーチブログ
                                                                                                                                          • Data Brew ポッドキャスト
                                                                                                                                          • Data+AI のチャンピオンシリーズ
                                                                                                                                          企業情報
                                                                                                                                          企業概要
                                                                                                                                          • Databricks について
                                                                                                                                          • 経営陣
                                                                                                                                          • Databricks Ventures
                                                                                                                                          • ご相談・お問い合わせ
                                                                                                                                          採用情報
                                                                                                                                          • 採用情報概要
                                                                                                                                          • 求人情報
                                                                                                                                          プレス・ニュース記事
                                                                                                                                          • ニュースルーム
                                                                                                                                          • 受賞歴と業界評価
                                                                                                                                          セキュリティと信頼
                                                                                                                                          企業概要
                                                                                                                                          • Databricks について
                                                                                                                                          • 経営陣
                                                                                                                                          • Databricks Ventures
                                                                                                                                          • ご相談・お問い合わせ
                                                                                                                                          採用情報
                                                                                                                                          • 採用情報概要
                                                                                                                                          • 求人情報
                                                                                                                                          プレス・ニュース記事
                                                                                                                                          • ニュースルーム
                                                                                                                                          • 受賞歴と業界評価
                                                                                                                                          databricks logo

                                                                                                                                          Databricks Inc.
                                                                                                                                          160 Spear Street, 15th Floor
                                                                                                                                          San Francisco, CA 94105
                                                                                                                                          1-866-330-0121

                                                                                                                                          採用情報

                                                                                                                                          © Databricks 2025. All rights reserved. Apache, Apache Spark, Spark and the Spark logo are trademarks of the Apache Software Foundation.

                                                                                                                                          • プライバシー通知
                                                                                                                                          • |利用規約
                                                                                                                                          • |現代奴隷法に関する声明
                                                                                                                                          • |カリフォルニア州のプライバシー権利
                                                                                                                                          • |プライバシー設定