Databricks Labs
Databricks Labsは、お客様のユースケースをより早く本番に導入できるように、フィールドチームが作成したプロジェクトです!
デービーエックス
このツールは、複数の環境におけるジョブの起動と展開プロセスを簡素化します。 また、プロジェクトをパッケージ化して、バージョン管理された形で Databricks 環境に配信することも有効です。 CLIファーストで設計されており、CI/CDパイプライン内でも、高速プロトタイピングのためのローカルツールの一部としても、積極的に使用できるように構築されています。
テンポ
Apache Spark™の上で時系列を操作するためのAPIを提供することを目的としています。 時間差のある値を使った特徴づけ、ローリング統計(平均、平均値、合計、カウントなど)、AS OF結合、ダウンサンプリングや補間などの機能があります。 TBスケールのヒストリカルデータで検証しています。
モザイク
Mosaicは、一般的なオープンソースの地理空間ライブラリを束ねることで、スケーラブルな地理空間データパイプラインの実装を簡素化するツールです。 Apache Spark™️. また、Mosaicは、一般的な地理空間のユースケースの例とベストプラクティスを提供しています。 ST_式とGRID_式のAPIを提供し、H3やBritish National Gridなどのグリッドインデックスシステムをサポートします。
その他のプロジェクト
Splunkとの連携
Splunk のアドオンで、Splunk Enterprise および Splunk Cloud のユーザーが Databricks でクエリーを実行したり、 Notebook やジョブの実行などのアクションを実行できるようにするためのアプリです。
スモルダー
Smolder は、 HL7v2 メッセージフォーマットから EHR データをロードするための Apache Spark™ SQL データソースを提供します。 さらに、Smolderは、Spark SQL DataFrame上で使用できるヘルパー関数を提供し、HL7メッセージテキストの解析や、メッセージからセグメント、フィールド、サブフィールドを抽出することができます。
ジオスキャン
Hexagonal Hierarchical Spatial Indicesに基づく密度ベースの空間
移行
Databricks のワークスペース間でお客様が成果物を移行するためのツールです。 これにより、お客様はバックアップとして、あるいは異なるワークスペース間のマイグレーションの一環として、設定やコードアーティファクトをエクスポートすることができます。
Github Sources
詳細はこちら: AWS | Azure
データジェネレーター
プロジェクトに必要な関連データを迅速に生成します。 Databricks データジェネレーターは、テスト、POC、その他の用途のための大規模なシミュレーション/合成データセットの生成に使用できます。
DLT-META
このフレームワークにより、Delta Live Tablesとメタデータを使用したデータの取り込みが容易になります。 DLT-METAを使えば、一人のデータエンジニアが何千ものテーブルを簡単に管理することができます。 Databricks いくつかのお客様は、1000 以上のテーブルを処理するためにDLT-METAを生産しています。
なお、 https://github.com/databrickslabs のすべてのプロジェクトは Databricks のサービス・レベル・アグリーメント(SLA)で正式にサポートされるものではありません。 これらは現状有姿で提供されるものであり、いかなる保証をするものではありません。 これらのプロジェクトの使用に起因する問題についてのサポートチケットの提出はご遠慮ください。 このプロジェクトの利用によって発見された問題は、GitHub IssuesとしてRepoに申請してください。 時間の許す限り見直されますが、サポートに関する正式なSLAはありません。