Databricks Labs

Databricks Labsは、お客様のユースケースをより早く本番に導入できるように、フィールドチームが作成したプロジェクトです！

DQX

Simplified Data Quality checking at Scale for PySpark Workloads on streaming and standard DataFrames.

UCX

UCX is a toolkit for enabling Unity Catalog (UC) in your Databricks workspace. UCX provides commands and workflows for migrate tables and views to UC. UCX allows to rewrite dashboards, jobs and notebooks to use the migrated data assets in UC. And there are many more features.

GitHub Sources →

Documentation →

Blog →

モザイク

Mosaicは、一般的なオープンソースの地理空間ライブラリを束ねることで、スケーラブルな地理空間データパイプラインの実装を簡素化するツールです。 Apache Spark™️. また、Mosaicは、一般的な地理空間のユースケースの例とベストプラクティスを提供しています。 ST_式とGRID_式のAPIを提供し、H3やBritish National Gridなどのグリッドインデックスシステムをサポートします。

GitHubのソース →

ドキュメンテーション →

ブログ→こちら

その他のプロジェクト

オーバーウォッチ

すべてのワークスペースにおけるすべてのジョブと cluster を分析し、パフォーマンス向上とコスト削減のための最大の調整が可能な箇所を迅速に特定します。

詳しく見る

Splunkとの連携

Splunk のアドオンで、Splunk Enterprise および Splunk Cloud のユーザーが Databricks でクエリーを実行したり、 Notebook やジョブの実行などのアクションを実行できるようにするためのアプリです。

Github Sources →
Learn more →。

スモルダー

Smolder は、 HL7v2 メッセージフォーマットから EHR データをロードするための Apache Spark™ SQL データソースを提供します。さらに、Smolderは、Spark SQL DataFrame上で使用できるヘルパー関数を提供し、HL7メッセージテキストの解析や、メッセージからセグメント、フィールド、サブフィールドを抽出することができます。

Github Sources →
Learn more →。

ジオスキャン

Hexagonal Hierarchical Spatial Indicesに基づく密度ベースの空間 cluster のためのApache Spark ML Estimator。

Github Sources →
Learn more →。

移行

Databricks のワークスペース間でお客様が成果物を移行するためのツールです。これにより、お客様はバックアップとして、あるいは異なるワークスペース間のマイグレーションの一環として、設定やコードアーティファクトをエクスポートすることができます。

Github Sources
詳細はこちら： AWS ｜ Azure

データジェネレーター

プロジェクトに必要な関連データを迅速に生成します。 Databricks データジェネレーターは、テスト、POC、その他の用途のための大規模なシミュレーション/合成データセットの生成に使用できます。

Github Sources →
Learn more →。

デルタオムス

デルタトランザクション Logs を一元的に収集し、レイクハウスのメタデータや運用指標を分析することができます。

Github Sources →
Learn more →。

DLT-META

このフレームワークにより、Delta Live Tablesとメタデータを使用したデータの取り込みが容易になります。 DLT-METAを使えば、一人のデータエンジニアが何千ものテーブルを簡単に管理することができます。 Databricks いくつかのお客様は、1000以上のテーブルを処理するためにDLT-METAを生産しています。

Github Sources →
Learn more →。

DLT-META

Github Sources →
Learn more →。

DLT-META

Github Sources →
Learn more →。

DBX

This tool simplifies jobs launch and deployment process across multiple environments. It also helps to package your project and deliver it to your Databricks environment in a versioned fashion. Designed in a CLI-first manner, it is built to be actively used both inside CI/CD pipelines and as a part of local tooling for fast prototyping.

Github Sources →
Documentation →
Blog →

なお、 https://github.com/databrickslabs のすべてのプロジェクトは Databricks のサービス・レベル・アグリーメント（SLA）で正式にサポートされるものではありません。これらは現状有姿で提供されるものであり、いかなる保証をするものではありません。これらのプロジェクトの使用に起因する問題についてのサポートチケットの提出はご遠慮ください。このプロジェクトの利用によって発見された問題は、GitHub IssuesとしてRepoに申請してください。時間の許す限り見直されますが、サポートに関する正式なSLAはありません。