メインコンテンツへジャンプ

史上最大規模のData + AI Summitが開催されてからわずか数週間が経ちました。このサミットでは、データエンジニアリングのための統合されたインテリジェントなソリューションであるDatabricks LakeFlowを紹介しました。 Databricksのデータエンジニアリングのこの戦略的方向性に非常に興奮していますが、現在もユーザー向けの製品エクスペリエンスへの投資も続けています。

DLT 開発エクスペリエンスの向上は、DLT を使用してデータパイプラインを構築する開発者の効率と満足度に直接影響するため、中心的な焦点となっています。 ノートブックを使用した DLT 開発エクスペリエンスにいくつかの機能強化が加えられたことをお知らせします。 これらの新機能は、シームレスで直感的な DLT 開発インターフェースを提供し、パイプラインを迅速かつ効率的に構築およびデバッグするのに役立ちます。

Delta Live Tables (DLT) は、信頼性の高いデータパイプラインの構築、テスト、保守を簡素化および高速化する革新的なフレームワークです。 宣言型データエンジニアリングと自動パイプライン管理を提供し、依存関係の追跡、エラー回復、モニタリングを処理しながら、ユーザーがビジネスロジックの定義に集中できるようにします。 この強力なツールは、データ操作を効率よく正確に最適化し、データサイエンティストやアナリストが常に最新の高品質データにアクセスできるようにすることを目標とする組織にとって画期的なツールです。

この新しいリリースでは、ノートブックを使用した DLT 開発エクスペリエンスに、次のようなエキサイティングな新機能が追加されます。

  • コンテキストの切り替えはもう必要ありません。DLT グラフ、イベント ログ、ノートブック コードを 1 つのコンテキスト UI で表示します。
  • 新しい「検証」アクションで構文エラーをすばやく見つけます。
  • DLT固有のオートコンプリート、インラインエラー、診断により、コードをより簡単に開発できます。

コンテキストの切り替えはもう不要: 単一のコンテキストUIでDLTパイプラインを開発

これで、 SQLウェアハウスやインタラクティブ クラスターに接続するのと同じように、データベースから DLT パイプラインに直接「接続」できるようになりました。

DLTパイプライン

DLT パイプラインに接続すると、新しいオールインワン UI にアクセスできるようになります。 DLT グラフ (有向非巡回グラフ (DAG) とも呼ばれます) と DLT イベント ログは、編集中のコードと同じ UI で確認できます。

SQL パイプライン UC

SQL パイプライン UC

この新しいオールインワン UI を使用すると、タブを切り替えることなく必要な作業をすべて実行できます。 開発中にDLTグラフの形状と各テーブルのスキーマをチェックして、必要な結果が得られていることを確認できます。 また、開発プロセス中に発生したエラーをイベントログで確認することもできます。

これにより、DLT パイプラインの開発の使いやすさと人間工学が大幅に向上します。

エラーをより迅速に検出し、DLTコードを簡単に開発

1. 「Validate」で構文エラーをすばやくキャッチ

DLT パイプラインの「開始」および「完全更新」に加えて、「検証(Validate)」アクションを導入しています。

「検証」を使用すると、データを処理せずにパイプラインのソース コードの問題をチェックできます。 この機能を使用すると、パイプラインの開発中またはテスト中に、テーブル名や列名の誤りなど、パイプライン内のエラーを繰り返し検出して修正できます。

「検証」はノートブック UI のボタンとして使用でき、「Shift + Enter」キーボード ショートカットを押したときにも実行されます。

DLTコード

2. DLT対応のオートコンプリート、インラインエラー、診断により、コードの開発がより簡単

DLT固有のオートコンプリートにアクセスできるようになり、コードの記述がより速く、より正確になりました。

DLT対応

さらに、コード内の正確なエラー位置を強調する赤い波線で構文エラーを簡単に識別できます。

DLT対応

最後に、インライン診断ボックスを使用すると、関連するエラーの詳細と提案が適切な行番号に表示されます。 エラーの上にマウスを置くと詳細情報が表示されます。

診断ボックス

はじめに

DLT パイプラインとデータベースを作成し、コンピュート ドロップダウンからパイプラインに接続するだけです。 これらの新しいノートブック機能は、AzureAWSGCPでお試す頂けます。

Databricks 無料トライアル

関連記事

ソフトウェア開発およびDevOpsのベストプラクティスをDelta Live Tableパイプラインに適用

April 28, 2023 Alex Ott による投稿 in プラットフォームブログ
Original Blog : Applying software development & DevOps best practices to Delta Live Table pipelines 翻訳: junichi.maruyama Databricks Delta Live Tables(DLT)は、データエンジニアが記述・維持する必要のあるコード量を減らすことで、堅牢なデータ処理パイプラインの開発を根本的に簡素化します。また、環境間でコードとパイプラインの構成をシームレスに推進できるようにしながら、データのメンテナンスとインフラ運用の必要性を低減します。しかし、パイプラインに含まれるコードのテストを行う必要があり、それを効率的に行う方法についてよく質問を受けます。 このブログでは、複数のお客様との共同作業の経験に基づき、以下の項目を取り上げます: DevOpsのベストプラクティスをDelta...

MapInPandasとDelta Live Tablesで一般的でないファイル形式を大規模に処理する

August 24, 2023 TJサイコタ による投稿 in 業界
翻訳:Junichi Maruyama. - Original Blog Link 様々なファイル形式 最新のデータエンジニアリングの世界では、 Databricks Lakehouse Platform は信頼性の高いストリーミングおよびバッチ data pipelines の構築プロセスを簡素化します。しかし、曖昧なファイル形式や一般的でないファイル形式を扱うことは、Lakehouseへのデータ取り込みにおいて依然として課題となっています。データを提供する上流のチームは、データの保存と送信方法を決定するため、組織によって標準が異なります。例えば、データエンジニアは、スキーマの解釈が自由なCSVや、ファイル名に拡張子がないファイル、独自のフォーマットでカスタムリーダーが必要なファイルなどを扱わなければならないことがあります。このデータをParquetで取得できないかとリクエストするだけで問題が解決することもあれば、パフォーマンスの高いパイプラインを構築するために、よりクリエイティブなアプローチが必要になることも
エンジニアリングのブログ一覧へ