ソリューション | Databricks Blog

ページ 2

Databricks における Databricks：Unity Catalog でガバナンスへの旅を始める

July 23, 2024 スアン・ワン、アルパン・ゴーシュ、ナブニート・カプールによる投稿 in プラットフォーム

Databricks のデータプラットフォームチームとして、私たちは独自のプラットフォームを活用して、直感的で構成可能な包括的なデータおよび AI プラットフォームを社内のデータ担当者に提供し、彼らが安全に使用状況を分析し、製品とビジネスオペレーションを改善できるようにしています。当社は成長するにつれて、安全でコンプライアンスに準拠した費用対効果の高いデータ運用を可能にするデータガバナンスを確立することに特に意欲を持っています。何千人もの従業員と何百ものチームがデータを分析しているため、大規模なデータガバナンスと継続的なコンプライアンスを達成するには、一貫した基準を構築して実装する必要があります。当社では、2022 年 8 月に一般公開された Unity Catalog (UC) を標準的なガバナンスプラクティスを確立するための基盤として特定し、社内レイクハウスの 100% を Unity Catalog に移行することが会社の最優先事項となりました。データガバナンスを実現するために...

Databricksレイクハウスモニタリングで高品質な予測を確保する

July 18, 2024 ピーター・パークによる投稿 in プラットフォーム

予測モデルは、多くの企業が将来のトレンドを予測するために重要ですが、その精度は入力データの品質に大きく依存します。データの品質が低いと、予測が不正確になり、最適な意思決定ができなくなる可能性があります。ここで、 Databricksレイクハウスモニタリングが登場します。これは、予測モデルに流入するデータの品質とモデルのパフォーマンス自体の両方を監視するための統合ソリューションを提供します。モニタリングは、予測モデルにとって特に重要です。予測は時系列データを扱うため、データの時間的コンポーネントとシーケンシャルな性質により、複雑さが増します。入力データの統計的プロパティが時間の経過とともに変化するデータドリフトなどの問題は、迅速に検出および対処しないと、予測精度を大幅に低下させる可能性があります。さらに、予測モデルのパフォーマンスは、予測値と実際の値を比較する平均絶対パーセント誤差 (MAPE) などのメトリクスによって測定されることがよくあります。ただし、グラウンドトゥルース値はすぐには利用でき

Unity Catalog ガバナンスの実際の動作：モニタリング、レポーティング、リネージ

April 3, 2024 アリ・カプラン、パール鵜原による投稿 in プラットフォーム

Databricks Unity Catalog（UC）は、クラウドやデータプラットフォームにわたる企業のすべてのデータとAI資産に対して、単一の統合ガバナンスソリューションを提供します。このブログでは、 Unity Catalog Governance Value Levers（ガバナンス・バリュー・レバー）をより深く掘り下げ、包括的なデータとAIのモニタリング、レポーティング、リネージを通じて、具体的にどのようにポジティブなビジネス成果を実現しているかを紹介します。従来の非統合ガバナンスに伴う全体的な課題 Unity Catalog Governance Value Levers ブログでは、情報セキュリティ、アクセス制御、利用監視、ガードレールの制定、データ資産からの「唯一の信頼できる情報源」の洞察の取得など、ガバナンスの組織的重要性の「理由」について議論しました。 Databricks UCがなければ、従来のガバナンスソリューションではもはやニーズに対応できません。議論された主な課題には、複数のベ

Azure Databricksによるデータ漏洩対策

March 20, 2024 ガネッシュ・ラジャゴパル、ブルース・ネルソン、バヴィン・クカディアによる投稿 in エンジニアリングのブログ

前回のブログでは、仮想ネットワークサービスエンドポイントまたは Private Link を使用して、Azure DatabricksからAzureデータサービスに安全にアクセスする方法について説明しました。この記事では、これらのベストプラクティスのベースラインを前提として、データの流出を防止するために、ネットワークセキュリティの観点からAzure Databricksのデプロイを強化する方法について、詳細な手順をウォークスルーします。 Wikipedia によるとデータ漏洩は、マルウェアや悪意のある行為者がコンピュータから不正なデータ転送を行うことで発生します。一般に、データ漏洩またはデータエクスポートとも呼ばれます。データ漏洩は、データ窃盗の一形態とも考えられています。2000年以降、多くのデータ漏洩が発生し、世界中の企業の消費者信頼、企業評価、知的財産、政府の国家安全保障に深刻な損害を与えました。この問題は、企業が機密データ（PII、PHI、戦略的機密情報）をパブリッククラウドサービスで保管・

StreamNativeとDatabricks、Pulsar-Sparkコネクターでリアルタイムデータ処理を強化

March 4, 2024 トリステン・ウェントリング、ネン・ルー、チャオキン・リー、マッテオ・メルリによる投稿 in プラットフォーム

Apache Pulsarベースのリアルタイムデータプラットフォームソリューションのリーディングプロバイダーである StreamNative と、データインテリジェンスプラットフォームである Databricks は、強化された Pulsar-Sparkコネクターを発表します。リアルタイムデータ処理がビジネスにとって益々重要になっている今、このコラボレーションは、Apache Pulsar™ と Apache Spark ™ という2つの強力なオープンソース技術の強みを組み合わせたものになります。 Apache Pulsar™ Apache Pulsar™ はオープンソース、分散型メッセージングおよびイベントストリーミングプラットフォームであり、高い耐久性、スケーラビリティ、低レイテンシのメッセージングを提供します。リアルタイムのデータストリーミングを処理するように設計されており、単純なpub/subメッセージングから複雑なイベント駆動型のマイクロサービスアーキテクチャまで、さまざまなアプリケーションに使

Cloudflare R2統合によるDelta Sharingのパブリックプレビューを発表

February 29, 2024 Tianyi Huang、Giselle Goicochea、フィリップ・ジョーンズ、ハーシャル・ブラムバットによる投稿 in プラットフォーム

CloudflareのシニアプロダクトマネージャーPhillip JonesとシステムエンジニアHarshal Brahmbhattに感謝します。あらゆる業界の組織は、クラウドや地域に関係なく、単一で統一された方法でデータやAI資産を共有したいと考えています。しかし、多くの企業が顧客、チーム、パートナーとのデータ共有に苦戦しており、プラットフォームの互換性の問題や制限、高いデータ送信コスト、ガバナンスとセキュリティの欠如に直面しています。 Databricks と Linux Foundation は、安全なデータ共有のための最初のオープンなアプローチとして Delta Sharing を開発しました。お客様は、レプリケーションを必要とせず、プラットフォーム、クラウド、地域間で簡単かつ安全にデータを共有するために、Delta Sharingを使用しています。本日、Cloudflare R2との Delta Sharing のパブリックプレビューを発表し、お客様がクラウドやリージョンを越えてデータを共有し、

DatabricksにAIモデルの共有機能が新登場！

January 31, 2024 ザヒーラ・ヴァラニ、ダルシャナ・シヴァクマール、Tianyi Huang、Giselle Goicochea による投稿 in プラットフォーム

本日、 Databricks Delta Sharingと Databricks Marketplaceの両方でAIモデルの共有が可能になったことを発表できることを嬉しく思います。 Delta Sharingを使用すると、クラウド、プラットフォーム、地域を越えて、組織内または外部でAIモデルを安全に共有し、提供することができます。さらに、Databricks Marketplaceは、 John Snow Labsから医療専門家をサポートするための60の新しい業界別AIモデルをリリースしました。 AIモデルの共有はパブリックプレビューで、Delta Sharingとマーケットプレイスで利用可能です。 Databricks Data Intelligence Platformは、モデル提供、AIトレーニング、モデル監視を含むエンドツーエンドの機械学習機能により、モデルの検索と共有を行う新しい機能をサポートします。ジェネレーティブAIで高まるシェアリング需要に対応ここ数カ月、DatabricksはDatab

データエンジニアリングとストリーミングの最新動向 - 2024年1月

January 29, 2024 マット・ジョーンズ、Ori Zohar による投稿 in プラットフォーム

Databricksはこのほど、当社が開拓したレイクハウス・アーキテクチャの自然な進化形であるデータ・インテリジェンス・プラットフォームを発表しました。データ・インテリジェンス・プラットフォームとは、組織固有のデータを深く理解し、誰でも簡単に必要なデータにアクセスし、ターンキー方式のカスタムAIアプリケーションを迅速に構築できるようにする、単一の統合プラットフォームという考え方です。データインテリジェンスプラットフォーム上に構築されたすべてのダッシュボード、アプリ、およびモデルが適切に機能するには信頼できるデータが必要であり、信頼できるデータには最高のデータエンジニアリングプラクティスが必要です。 Databricksは、 Spark 、 Delta Lake 、ワークフロー、 Delta Live Tables 、そして Databricks Assistantのような新しいAI機能を通じて、データエンジニアにベストプラクティスを提供してきました。 AIの時代には、データエンジニアリングのベス

Databricks アシスタントを最大限に活用するための5つのヒント

January 8, 2024 ランダン・ジョージ、ウェストン・ハッチンズによる投稿 in プラットフォーム

Databricks アシスタントは、Databricksノートブック、SQLエディタ、ファイルエディタで利用可能な、コンテキストを意識したAIアシスタントで、Databricksの生産性を向上させます： SQL／Pythonコードの生成オートコンプリートコードまたはクエリコードの変換と最適化コードやクエリの説明エラーの修正とコードのデバッグアクセス可能なテーブルとデータの発見 Databricks アシスタントのドキュメントには、これらのタスクに関する高レベルの情報と詳細が記載されていますが、コード生成のためのジェネレーティブAIは比較的新しいものであり、これらのアプリケーションを最大限に活用する方法はまだ学習中です。このブログ記事では、Databricks アシスタントを最大限に活用するための5つのヒントとトリックについて説明します。 Databricks アシスタントのための5つのヒント 1. より良い応答を得るためにFind Tablesアクションを使用する Databricks アシスタン

Delta Sharingによるグローバル・データ・コラボレーションの構築

January 5, 2024 Matei Zaharia、ビラル・オベイダット（Bilal Obeidat）、Tianyi Huang、Giselle Goicochea による投稿 in プラットフォーム

今日の相互接続されたデジタル環境では、組織やプラットフォームを超えたデータ共有とコラボレーションが、現代のビジネス運営に不可欠です。革新的なオープンデータ共有プロトコルであるDelta Sharingは、ベンダーやデータ形式の制約を受けることなく、セキュリティとスケーラビリティを優先し、組織が多様なプラットフォーム間でデータを安全に共有し、アクセスできるようにします。このブログでは、特定のデータ共有シナリオに合わせたアーキテクチャガイダンスを検討することで、Delta Sharing内のデータレプリケーションオプションを紹介します。多くのDelta Sharingのお客様との経験から得た洞察をもとに、具体的なデータレプリケーションの選択肢を提供することで、イグレスコストを削減し、パフォーマンスを向上させることを目標としています。ライブ共有は多くの地域間データ共有シナリオに適していますが、データセット全体を複製し、各地域の複製用にデータ更新プロセスを確立した方がコスト効率が良い場合もあります。 Delta