一般提供を発表:Unity Catalog でのデータリネージ
本日、AWS と Azure で利用可能な Unity Catalog において、データリネージの一般提供を開始したことをお知らせします。データリネージの一般提供により、Databricks レイクハウスプラットフォーム上のミッションクリティカルなワークロードに対して、最高レベルの安定性、サポート、エンタープライズレディネスを期待することができます。データリネージガイド( AWS | Azure )を参照してください。 このブログでは、データリネージを実用的なデータガバナンス戦略の重要な手段として活用する方法、GA リリースで利用できる主要機能の一部、および Unity Catalog でデータリネージを開始する方法について説明します。 データリネージでデータの観測性とコンプライアンスを向上させる Unity Catalog は、データ、分析、AIのための統合ガバナンスソリューションで、データチームがすべてのデータとAI資産をカタログ化し、ANSI SQL に基づく使い慣れたインターフェースを使用してきめ細かいア
Unityカタログの分散・非集中管理に向けた自動化ガイド
Original : An Automated Guide to Distributed and Decentralized Management of Unity Catalog 翻訳: junichi.maruyama Unity Catalog は、あらゆるクラウド上のレイクハウスにあるすべてのデータとAI資産に対して、統一されたガバナンスソリューションを提供します。顧客がUnity Catalogを採用する際、コードアプローチとしてのインフラストラクチャを使用して、これをプログラム的かつ自動的に行いたいと考えています。Unity Catalogでは、Unity Catalogのオブジェクトの最上位コンテナであるメタストアがリージョンごとに1つ存在します。このメタストアには、データ資産(テーブルとビュー)と、アクセスを制御する権限が格納されています。 このことは、Unity Catalogの管理機能を担うプラットフォーム/ガバナンスチームを一元化していない組織にとって、新たな課題となる。具体的には、これらの
集まれ!Legendary Heroes of DATA + AI !!
データブリックスの目指す世界は、私たち単体ではなし得ません!そこで、共にゴールを共有し、共に走っていく皆様に向けて 「 Databricks Champion 」というプログラムを設けております。 現在、世界では約200名の精鋭がDatabricks Championとしてご活躍されていますが、日本でもその動きは盛り上がってきており、Databricks Championが増えてきています。 本ブログでは、難関を突破し、晴れてDatabricks Championになられた4名の方に、Databricks Championを目指したきっかけやこれからの思いについて、3回に分けてご紹介したいと思います。 <今回ご紹介する Legendary Heroes of DATA+AI! > [Vol.1] 株式会社NTT データ 斎藤 祐希 様、洪...
PySparkでのメモリプロファイリング
Original Blog : Memory Profiling in PySpark 翻訳: junichi.maruyama PySparkのプログラムのパフォーマンスには多くの要因があります。PySparkは様々なプロファイリングツールをサポートしており、プログラムのタイトループを公開し、パフォーマンス改善の意思決定を行うことができます( 詳細を見る )しかしプログラムの性能の重要な要因の1つであるメモリは、PySparkのプロファイリングでは見落とされていました。Sparkドライバ上のPySparkプログラムは、通常のPythonプロセスとして Memory Profiler でプロファイリングでき ますが、Sparkエグゼキュータ上のメモリを簡単にプロファイリングする方法は存在しませんでした。 PySpark UDFは最も人気のあるPython APIの1つで、Sparkエグゼキュータによって生成されたPythonワーカーサブプロセスで実行されます。Apache Spark™エンジンの上でカスタムコードを
パンプキンパイにAIはない、でもあるはずだ:MLとAIを使って斬新なアプリケーション体験を提供する
Original: There’s No AI in Pumpkin Pie, But There Should Be: Delivering Novel Application Experiences Using ML & AI 翻訳: junichi.maruyama ホリデーシーズンが到来し、私たちの体を温め、ウエストラインに挑戦する、豊かでおいしい食べ物がたくさん出てきました。Databricksでは、ホリデーシーズンをより楽しくするた めに、少し楽しみながら、素晴らしいレシピをお客様と共有したいと思いました。しかし、Databricksである以上、AIを活用してそれを実現する必要がありました。 Databricksを使ったAIのシンプルさを実際に見せるために、私たちは「最高のパンプキンパイを作るにはどうしたらいいか」というトップオブマインドな課題を解決することにしました。このブログ記事では、Databricks...
Databricks Workflows によるレイクハウスの本番 dbt プロジェクトのオーケストレーション
信頼性の高いレイクハウスのオーケストレーターである Databricks Workflows が、パブリックプレビューで dbt プロジェクトのオーケストレーションをサポートするようになったことをお知らせします。このプレビューでは、データチームがノートブックから ML モデルまで、レイクハウスの全ての機能とともに dbt プロジェクトを調整することができます。この機能により、オープンソース dbt のユーザーは、SQL を使ったデータ変換や、レイクハウス全体のデータおよび ML パイプラインの監視と保守を簡単に行うことができます。 ジョブが実行されると、dbt プロジェクトが Git リポジトリ から取得され、単一ノードのクラスタが構築され、そこに dbt-core とプロジェクトの依存関係がインストールされます。dbt で生成された...