ソリューション | Databricks Blog

ページ 4

Databricksがファイルサイズの自動最適化によりクエリパフォーマンスを最大2.2倍向上させた方法

May 22, 2023 シルイ・サン、ヒマンシュウ・ラジャ、ヴィジャヤン・プラバカラン、テリー・キムによる投稿 in プラットフォーム

Original : How Databricks improved query performance by up to 2.2x by automatically optimizing file sizes 翻訳：saki.kitaoka テーブルファイルサイズの最適化は、長い間データエンジニアにとって必要だが複雑なタスクでした。テーブルの適切なファイルサイズに到達すると、大幅なパフォーマンス向上が実現しますが、これは伝統的に深い専門知識と大量の時間投資を必要としていました。最近、Databricks SQLのためのPredictive I/O( Predictive I/O...

Unity Catalogにおけるデータ権限モデルとアクセス制御のためのヒッチハイカーズガイド

May 5, 2023 ソム・ナタラジャン、ヴオン・グエンによる投稿 in プラットフォーム

The Hitchhiker's Guide to data privilege model and access control in Unity Catalog 翻訳： junichi.maruyama データの量、速度、多様性が増すにつれ、組織は、中核となるビジネス成果を適切に満たすために、確固たるデータガバナンスの実践にますます頼るようになっています。 Unity Catalog は、Databricks Lakehouseを支えるデータとAIのためのきめ細かなガバナンス・ソリューションです。データアクセスを管理・監査するための一元的なメカニズムを提供することで、企業のデータ資産のセキュリティとガバナンスを簡素化することができます。 Unity Catalogがファイル、テーブルの権限モデルを統一し、すべての言語をサポートするようになる以前、お客様はレガシーワークスペースレベルのテーブルACL（TACL）...

ソフトウェア開発およびDevOpsのベストプラクティスをDelta Live Tableパイプラインに適用

April 27, 2023 Alex Ott による投稿 in プラットフォーム

Original Blog : Applying software development & DevOps best practices to Delta Live Table pipelines 翻訳： junichi.maruyama Databricks Delta Live Tables（DLT）は、データエンジニアが記述・維持する必要のあるコード量を減らすことで、堅牢なデータ処理パイプラインの開発を根本的に簡素化します。また、環境間でコードとパイプラインの構成をシームレスに推進できるようにしながら、データのメンテナンスとインフラ運用の必要性を低減します。しかし、パイプラインに含まれるコードのテストを行う必要があり、それを効率的に行う方法についてよく質問を受けます。このブログでは、複数のお客様との共同作業の経験に基づき、以下の項目を取り上げます： DevOpsのベストプラクティスをDelta...

Lakehouseの価値を最大化するためのデータアーキテクチャパターン

April 25, 2023 ベルンハルト・ワルター、マグヌス・ピエール、Marco Scagliola、Matthieu Lamairesse による投稿 in プラットフォーム

Original Blog : A data architecture pattern to maximize the value of the Lakehouse 翻訳： junichi.maruyama Lakehouseの優れた成果の1つは、従来のBI、機械学習＆AIといったモダンなユースケースのワークロードを1つのプラットフォームで組み合わせることができることです。このブログ記事では、「1つのプラットフォームに2つのサイロがある」というリスクを軽減するアーキテクチャ・パターンを説明しています。本ブログで紹介するアプローチに従えば、機械学習やAIを利用するデータサイエンティストは、組織のビジネス情報モデルから得られる信頼性の高いデータに容易にアクセスできるようになります。同時に、ビジネスアナリストは、中核となるエンタープライズデータウェアハウス（EDW）の安定性と適合性を維持しながら、レイクハウスの機能を活用してデータウェアハウス（DWH）プロジェクトのデリバリーを加速させることができます。データレイクと

SAPと共にオープンデータエコシステムを開発する

April 19, 2023 Samir Patel、Sam Steiny、Awez Syed による投稿 in プラットフォーム

Original Blog : Developing an Open Data Ecosystem with SAP 翻訳： junichi.maruyama 製造業、エネルギー、ライフサイエンス、小売業など、さまざまな業界で、企業がビジネスの耐久性、回復力、持続可能性を重視し、重要な意思決定にデータを活用するようになってきています。これらの業界の企業における重要なデータの大半は、SAPアプリケーションからもたらされています。 SAP Datasphere は、財務、サプライチェーン、CRM、人事など、ERPやその他の機能アプリケーション群にまたがるSAPデータへのシームレスかつスケーラブルなアクセスを可能にする包括的なデータサービスで、DatabricksはSAPの4つのローンチパートナーに加わったことを発表できることを嬉しく思っています。SAP Datasphereは、ビジネスデータファブリックアーキテクチャを実現し、ビジネスコンテキストやデータモデルビューをそのままにSAPデータを提供し、SAPデータの

Delta Live Tablesで10億レコードのETLを1ドル未満で実行した方法

April 13, 2023 Dillon Bostwick、Shannon Barrow、Franco Patano、Rahul Soni による投稿 in プラットフォーム

Original: How We Performed ETL on One Billion Records For Under $1 With Delta Live Tables 翻訳: junichi.maruyama 今日、DatabricksはETL（Extract、Transform、Load）の価格とパフォーマンスの新しい標準を打ち立てました。お客様は10年以上前からDatabricksをETLパイプラインに使用していますが、従来のETL技術を使用してEDW（Enterprise Data Warehouse）のディメンションモデルにデータを取り込む場合、クラス最高の価格とパフォーマンスを公式に実証しています。そのために、データ統合、つまり一般にETLと呼ばれるもののための最初の業界標準ベンチマークである TPC-DI...

Unity Catalogによる分散型データガバナンスと孤立した環境の実現

March 8, 2023 Max Nienu、ゼアシャン・パッパ、ポール・ルーム、サチン・タクールによる投稿 in ソリューション

Original : Distributed Data Governance and Isolated Environments with Unity Catalog 翻訳： junichi.maruyama データ、アナリティクス、AIに業務を依存する組織では、効果的なデータガバナンスが不可欠です。多くの組織で、集中型データガバナンスの価値提案に対する認識が高まってきています。しかし、最高の意図を持っていても、適切な組織プロセスとリソースがなければ、集中型ガバナンスの導入は困難な場合があります。多くの組織では、最高データ責任者（CDO）の役割がまだ確立されておらず、誰が組織全体のデータガバナンス方針を定義し、実行するのかについて疑問が残ります。その結果、組織全体のデータガバナンスポリシーを定義し実行する責任が一元化されていないことが多く、組織内のビジネスライン、サブユニット、その他の部門間でポリシーが異なったり、管理団体が異なったりすることになります。簡単のため、このパターンを分散型ガバナンスと呼ぶことにしま

Unityカタログの分散・非集中管理に向けた自動化ガイド

December 7, 2022 ヴオン・グエン、ゼアシャン・パッパ、Mattia Zeni による投稿 in プラットフォーム

Original : An Automated Guide to Distributed and Decentralized Management of Unity Catalog 翻訳： junichi.maruyama Unity Catalog は、あらゆるクラウド上のレイクハウスにあるすべてのデータとAI資産に対して、統一されたガバナンスソリューションを提供します。顧客がUnity Catalogを採用する際、コードアプローチとしてのインフラストラクチャを使用して、これをプログラム的かつ自動的に行いたいと考えています。Unity Catalogでは、Unity Catalogのオブジェクトの最上位コンテナであるメタストアがリージョンごとに1つ存在します。このメタストアには、データ資産（テーブルとビュー）と、アクセスを制御する権限が格納されています。このことは、Unity Catalogの管理機能を担うプラットフォーム/ガバナンスチームを一元化していない組織にとって、新たな課題となる。具体的には、これらの

パンプキンパイにAIはない、でもあるはずだ：MLとAIを使って斬新なアプリケーション体験を提供する

November 8, 2022 アビナッシュ・スーリヤラッチ、ニコル・ジンティング・ル、ブライアン・スミス（Bryan Smith）、Sam Steiny、ミカイラ・ガーフィンケルによる投稿 in 業界

Original: There’s No AI in Pumpkin Pie, But There Should Be: Delivering Novel Application Experiences Using ML & AI 翻訳: junichi.maruyama ホリデーシーズンが到来し、私たちの体を温め、ウエストラインに挑戦する、豊かでおいしい食べ物がたくさん出てきました。Databricksでは、ホリデーシーズンをより楽しくするために、少し楽しみながら、素晴らしいレシピをお客様と共有したいと思いました。しかし、Databricksである以上、AIを活用してそれを実現する必要がありました。 Databricksを使ったAIのシンプルさを実際に見せるために、私たちは「最高のパンプキンパイを作るにはどうしたらいいか」というトップオブマインドな課題を解決することにしました。このブログ記事では、Databricks...

Databricks レイクハウスプラットフォームでのデータウェアハウスのモデリングと実装

June 24, 2022 ソハム・バット、Deepak Sekar による投稿 in プラットフォーム

レイクハウスは、データレイクとデータウェアハウスの長所を組み合わせた、新しいデータプラットフォームパラダイムです。多くのユースケースやデータプロダクトを格納できる、大規模なエンタープライズレベルのデータプラットフォームとして設計されています。データレイクとデータウェアハウスを統合した、単一のエンタープライズデータリポジトリとして使用することができます。データドメインリアルタイムストリーミングのユースケースデータマート異種データウェアハウスデータサイエンス機能ストア、データサイエンスサンドボックス部門別のセルフサービス型分析サンドボックスユースケースの多様性を考えると、レイクハウスのプロジェクトによって異なるデータ整理の原則やモデリングテクニックが適用されるかもしれません。技術的には、 Databricks レイクハウスプラットフォームは、多くの異なるデータモデリング形式をサポートすることができます。この記事では、レイクハウスの Bronze/Silver/Goldデータ編成原則の実装と、異なるデー