オープンソース

Databricks のエンジニアは、主要なオープンソースデータテクノロジーのオリジナルクリエーターです

ミートアップに参加
背景

Databricks の主要オープンソースプロジェクト

アイコン – タイトル
Apache SparkTM
Apache Spark は、データエンジニアリング、データサイエンス、機械学習ワークロードを実行するための統合エンジンです。

Apache Spark とは→

Spark と Databricks の比較 →

spark.apache.org のサイトへ →

アイコン – タイトル
Delta Lake
Delta Lake では、AWS S3、ADLS、GCS、HDFS などのストレージシステムの上に、レイクハウスアーキテクチャを構築できます。

Delta Lake について詳しく見る→

Delta.io のサイトへ →

テックトーク:Delta Lake 入門 →

アイコン – タイトル
MLflow
MLflow は、実験、再現性、デプロイメント、中央モデルレジストリなど、機械学習ライフサイクルを管理します。

Databricks のマネージド型 MLflow →

mlflow.org のサイトへ →

テックトーク:MLflow による ML ライフサイクル管理 →

アイコン – タイトル
Redash
Redash では、あらゆるユーザーが SQL を活用して、データソースサイズの規模を問わず、データを探索、クエリ、視覚化、共有することができます。

GitHub の Redash のサイトへ →

アイコン – タイトル
Delta Sharing
Delta Sharing は、セキュアなデータ共有のための新たなオープンプロトコルで、組織内外でのデータ共有を容易にします。

Delta Sharing のサイトへ →

Databricks は、次のオープンソーステクノロジーもサポートしています

アイコン – タイトル
TensorFlow
Databricks は、クラスタ上の深層学習と汎用的なコンピューティングのためのライブラリ TensorFlow をサポートしています。

TensorFlow on Databricks →

アイコン – タイトル
PyTorchTM
PyTorch のクリエイターである Facebook との連携により PyTorch を統合しています。

PyTorch on Databricks →

アイコン – タイトル
KerasTM
Keras は、TensorFlow上で実行される Python で記述された深層学習 APIです。機械学習のための Databricks ランタイムの一部として提供されます。

Keras on Databricks →

アイコン – タイトル
RStudio
R を使用したコラボレーション型データサイエンスのためのオープンソースのツール群を Databricks に統合できます。

R プログラミングによるビッグデータ分析 →

アイコン – タイトル
scikit-learn
NumPy、SciPy、Matplotlib 上に構築された機械学習に広く使用されている Python パッケージを Databricks 上で利用できます。

Scikit-learn on Databricks →

アイコン – タイトル
XGBoost
Python、R、C++ などの言語に対応した分散型勾配ブースティングライブラリが提供されます。

XGBoost on Databricks →

無料お試し・その他のご相談を承っております