Sparklyr

Databricks 無料トライアル

Sparklyrとは

Sparklyr とは、R 言語と Apache Spark 間のインターフェースを提供するオープンソースのパッケージです。Spark では、分散データを低レイテンシで扱えるため、Spark の機能を最新のR環境で活用することができるようになりました。Sparklyr は、インタラクティブな環境にある大規模なデータセットと連動するための有効なツールです。これにより、Spark でデータを分析するために、R の使い慣れたツールを使用することが可能となり、R と Spark 両方のメリットを享受できます。Sparklyr により、dplyr（R ユーザーに人気のデータ操作パッケージ）のバックエンドとして Spark を利用することが可能です。Sparklyr には、データの変換または前処理用の Spark ツールにアクセスする機能があり、Spark の分散型機械学習アルゴリズム等のインターフェイスも提供します。また、Sparklyr には拡張機能があり、Spark API を呼び出すための Sparklyr に依存する R パッケージを作成することが可能です。その拡張機能の 1 つが H2O Rsparkling です。これは、H2O の機会学習アルゴリズムと互換性のある R パッケージです。

Sparklyrの主な特徴

dplyr やSQL（DBI経由）を使用し、Sparkデータをインタラクティブに操作することが可能
Sparkデータセットのフィルタリングと集計を実行し、Rでその結果を分析することが可能
Spark MLlibまたはH2O SparkingWaterを使用し、Rから分散型機械学習を統合することが可能
Spark APIを呼び出し、Sparkパッケージへのインターフェースを提供する拡張機能の作成が、Sparklyrユーザーにより実行可能　
Sparklyrツールによるデータの操作や分析、視覚化に有用な包括的なdplyrバックエンドの提供
ローカルのRデータフレーム、Hiveテーブル、CSV、JSON、Parquetファイルなど、さまざまなデータソースからSpark DataFramesにデータを読み込むことが可能
Sparkのローカルインスタンスおよびリモートクラスタへの接続が可能

Sparklyr

Sparklyrとは

Sparklyrの主な特徴

関連資料