メインコンテンツへジャンプ

オープンソース

Databricks のエンジニアは、主要なオープンソースデータテクノロジーのオリジナルクリエーターです

Databricks の主要オープンソースプロジェクト

Apache Spark™

Apache Spark は、データエンジニアリング、データサイエンス、機械学習ワークロードを実行するための統合エンジンです。

Apache Spark とは

Spark と Databricks の比較

spark.apache.org のサイトへ

Delta Lake

Delta Lake では、AWS S3、ADLS、GCS、HDFS などのストレージシステムの上に、レイクハウスアーキテクチャを構築できます。

Delta Lake を詳しく見る

Delta.io のサイトへ

テックトーク:Delta Lake 入門

MLflow

MLflow は、実験、再現性、デプロイメント、中央モデルレジストリなど、機械学習ライフサイクルを管理します。

Databricks のマネージド型 MLflow

mlflow.org のサイトへ

テックトーク:MLflow による ML ライフサイクル管理

Redash

Redash では、あらゆるユーザーが SQL を活用して、データソースサイズの規模を問わず、データを探索、クエリ、視覚化、共有することができます。

GitHub の Redash のサイトへ

Delta Sharing

Delta Sharing は、セキュアなデータ共有のための新たなオープンプロトコルで、組織内外でのデータ共有を容易にします。

Delta Sharing のサイトへ

Databricks は、次のオープンソーステクノロジーもサポートしています

TensorFlow

Databricks は、クラスタ上の深層学習と汎用的なコンピューティングのためのライブラリ TensorFlow をサポートしています。

TensorFlow on Databricks

PyTorch™

PyTorch のクリエイターである Facebook との連携により PyTorch を統合しています。

PyTorch on Databricks

Keras™

Keras は、TensorFlow上で実行される Python で記述された深層学習 APIです。機械学習のための Databricks ランタイムの一部として提供されます。

Keras on Databricks

RStudio

R を使用したコラボレーション型データサイエンスのためのオープンソースのツール群を Databricks に統合できます。

R プログラミングによるビッグデータ分析

scikit-learn

NumPy、SciPy、Matplotlib 上に構築された機械学習に広く使用されている Python パッケージを Databricks 上で利用できます。

Scikit-learn on Databricks

XGBoost

Python、R、C++ などの言語に対応した分散型勾配ブースティングライブラリが提供されます。

XGBoost on Databricks

Terraform

HashiCorp Terraform は、複数のクラウドプロバイダにわたってセキュアかつ予測可能なクラウドインフラを構築するための一般的なオープンソースツールです。Databricks Terraform プロバイダにより、ユーザーは柔軟で堅牢なツールを使用して、Databricks ワークスペース全体を他のインフラと一緒に管理できます。また、Terraform を利用することで、IaC (コードとしてのインフラ)のベストプラクティスを採用できます。

Terraform on Databricks

無料お試し・その他ご相談を承ります