Azure Databricksによるデータ漏洩対策
前回のブログ では、 仮想ネットワークサービスエンドポイント または Private Link を使用して、Azure DatabricksからAzureデータサービスに安全にアクセスする方法について説明しました。 この記事では、これらのベストプラクティスのベースラインを前提として、データの流出を防止するために、ネットワークセキュリティの観点からAzure Databricksのデプロイを強化する方法について、詳細な手順をウォークスルーします。 Wikipedia によると データ漏洩は、マルウェアや悪意のある行為者がコンピュータから不正なデータ転送を行うことで発生します。一般に、データ漏洩またはデータエクスポートとも呼ばれます。データ漏洩は、データ窃盗の一形態とも考えられています。2000年以降、多くのデータ漏洩が発生し、世界中の企業の消費者信頼、企業評価、知的財産、政府の国家安全保障に深刻な損害を 与えました。 この問題は、企業が機密データ(PII、PHI、戦略的機密情報)をパブリッククラウドサービスで保管・
StreamNativeとDatabricks、Pulsar-Sparkコネクターでリアルタイムデータ処理を強化
Apache Pulsarベースのリアルタイムデータプラットフォームソリューションのリーディングプロバイダーである StreamNative と、データインテリジェンスプラットフォームである Databricks は、強化された Pulsar-Sparkコネクター を発表します。 リアルタイムデータ処理 がビジネスにとって益々重要になっている今、このコラボレーションは、Apache Pulsar™ と Apache Spark ™ という2つの強力なオープンソース技術の強みを組み合わせたものになります。 Apache Pulsar™ Apache Pulsar™ はオープンソース、分散型メッセージングおよびイベントストリーミングプラットフォームであり、高い耐久性、スケーラビリティ、低レイテンシのメッセージングを提供します。 リアルタイムのデータストリーミングを処理するように設計されており、単純なpub/subメッセージングから複雑なイベント駆動型 のマイクロサービスアーキテクチャまで、さまざまなアプリケーションに使
Cloudflare R2統合によるDelta Sharingのパブリックプレビューを発表
CloudflareのシニアプロダクトマネージャーPhillip JonesとシステムエンジニアHarshal Brahmbhattに感謝します。 あらゆる業界の組織は、クラウドや地域に関係なく、単一で統一された方法でデータやAI資産を共有したいと考えています。 しかし、多くの企業が顧客、チーム、パートナーとのデータ共有に苦戦しており、プラットフォームの互換性の問題や制限、高いデータ送信コスト、ガバナンスとセキュリティの欠如に直面しています。 Databricks と Linux Foundation は、安全なデータ共有のための最初のオープンなアプローチとして Delta Sharing を開発しました。 お客様は、レプリケーションを必要とせず、プラットフォーム、クラウド、地域間で簡単かつ安全にデータを共有するために、Delta Sharingを使用しています。 本日、Cloudflare R2との Delta Sharing のパブリックプレビューを発表し、お客様がクラウドやリージョンを越えてデータを共有し、
DatabricksにAIモデルの共有機能が新登場!
本日、 Databricks Delta Sharingと Databricks Marketplaceの 両方でAIモデルの共有が可能になったことを発表できることを嬉しく思います。 Delta Sharingを使用すると、クラウド、プラットフォーム、地域を越えて、組織内または外部でAIモデルを安全に共有し、提供することができます。 さらに、Databricks Marketplaceは、 John Snow Labsから 医療専門家をサポートするための60の新しい業界別AIモデルをリリースしました。 AIモデルの共有はパブリックプレビューで、Delta Sharingとマーケットプレイスで利用可能です。 Databricks Data Intelligence Platformは、モデル提供、AIトレーニング、モデル監視を含むエンドツーエンドの機械学習機能により、モデルの検索と共有を行う新しい機能をサポートします。 ジェネレーティブAIで高まるシェアリング需要に対応 ここ数カ月、DatabricksはDatab
データエンジニアリングとストリーミングの最新動向 - 2024年1月
Databricksは このほど 、当社が開拓したレイクハウス・アーキテクチャの自然な進化形であるデータ・インテリジェンス・プラットフォームを発表しました。 データ・インテリジェンス・プラットフォームとは、組織固有のデータを深く理解し、誰でも簡単に必要なデータにアクセスし、ターンキー方式のカスタムAIアプリケーションを迅速に構築できるようにする、単一の統合プラットフォームという考え方です。 データインテリジェンスプラットフォーム上に構築されたすべてのダッシュボード、アプリ、およびモデルが適切に機能するには信頼できるデータが必要であり、信頼できるデータには最高のデータエンジニアリングプラクティスが必要です。 Databricksは 、 Spark 、 Delta Lake 、 ワークフロー 、 Delta Live Tables 、そして Databricks Assistantの ような新しいAI機能を通じて、データエンジニアにベストプラクティスを提供してきました。 AIの時代には、 データエンジニアリングのベス
Databricks アシスタントを最大限に活用するための5つのヒント
Databricks アシスタントは、Databricksノートブック、SQLエディタ、ファイルエディタで利用可能な、コンテキストを意識したAIアシスタントで、Databricksの生産性を向上させます: SQL/Pythonコードの生成 オートコンプリートコードまたはクエリ コードの変換と最適化 コードやクエリの説明 エラーの修正とコードのデバッグ アクセス可能なテーブルとデータの発見 Databricks アシスタントのドキュメント には、これらのタスクに関する高レベルの情報と詳細が記載されていますが、コード生成のためのジェネレーティブAIは比較的新しいものであり、これらのアプリケーションを最大限に活用する方法はまだ学習中です。 このブログ記事では、Databricks アシスタントを最大限に活用するための5つのヒントとトリックについて説明します。 Databricks アシスタントのための5つのヒント 1. より良い応答を得るためにFind Tablesアクションを使用する Databricks アシスタン
Delta Sharingによるグローバル・データ・コラボレーションの構築
今日の相互接続されたデジタル環境では、組織やプラットフォームを超えたデータ共有とコラボレーションが、現代のビジネス運営に不可欠です。 革新的なオープンデータ共有プロトコルであるDelta Sharingは、ベンダーやデータ形式の制約を受けることなく、セキュリティとスケーラビリティを優先し、組織が多様なプラットフォーム間でデータを安全に共有し、アクセスできるようにします。 このブログでは、特定のデータ共有シナリオに合わせたアーキテクチャガイダンスを検討することで、Delta Sharing内のデータレプリケーションオプションを紹介します。 多くのDelta Sharingのお客様との経験から得た洞察をもとに、具体的なデータレプリケーションの選択肢を提供することで、イグレスコストを削減し、パフォーマンスを向上させることを目標としています。 ライブ共有は多くの地域間データ共有シナリオに適していますが、データセット全体を複製し、各地域の複製用にデータ更新プロセスを確立した方がコスト効率が良い場合もあります。 Delta
Unity Catalogがもたらす価値は何か?
Reviewed by saki.kitaoka ガバナンスは、データとAI製品が正確なガイドラインと標準に従って一貫して開発され、維持されることを保証します。 アーキテクトのための設計図であり、一貫性、ガイドライン、標準によってソリューションとデータビジョンに命を吹き込みます。 反復可能なワークフロー管理により、データエンジニアのためのスケールとスピードを実現します。 データサイエンティストのためのAIモデルを共同で構築し、運用することで、スケールの大きな運用を可能にします。 データ資産を広く共有し、すべての人に利益をもたらすと同時に、必要なときには非公開にする、データ管理者のためのセキュリティです。 データとAI資産に基づくビジネス洞察の透明性を備えた、経営幹部にとっての信頼です。 また、 Databricks Unity Catalogを 使用することで、業務効率を高めることができます。 このブログでは、企業がユニファイド・ガバナンス・ソリューションを標準化する前に直面する多くの課題の概要を説明し、テクノロ
dbtとDatabricksを用いてコスパの良いリアルタイムデータ処理を行う
ビジネスが成長するにつれ、データ量はGBからTB(またはそれ以上)に拡大し、レイテンシー要求は数時間から数分(またはそれ以下)になり、ビジネスに新鮮な洞察を提供するためのコストはますます高くなります。これまでPythonやScalaのデータエンジニアは、このような需要に応えるためにストリーミングを利用し、新しいデータをリアルタイムで効率的に処理してきましたが、SQLベースのdbtパイプラインを拡張する必要があるアナリティクスエンジニアには、このような選択肢はありませんでした。 しかし今は違います!このブログでは、Databricks の新しいストリーミングテーブルとマテリアライズドビューを使用して、SQL と dbt のシンプルさで新鮮なリアルタイムのインサイトをビジネスに提供する方法を説明します。 背景 2023 Data + AI Summitでは、 Databricks SQLにストリーミングテーブルとマテリアライズドビューを導入 しました。この素晴らしい機能により、Databricks SQL ユーザーは
あらゆるユースケースに対応するストリーミング・アーキテクチャが必要な時が来た!
今日のデータ主導の世界では、企業はかつてない規模のデータを効率的に取り込み、処理するという課題に直面している。 常に生成されるビジネスクリティカルなデータの量と多様性により、アーキテクチャの可能性は無限に近い。 良いニュースは? これはまた、スループット、レイテンシー、コスト、運用効率など、データアーキテクチャをさらに最適化できる可能性が常にあることを意味する。 多くのデータ専門家は、"データストリーミング" や"ストリーミングアーキテクチャ" といった用語を、ほとんどのワークロードにとって複雑でコストがかかり、実用的でないように見える超低レイテンシのデータパイプラインと関連付けている。 しかし、Databricks Lakehouse Platform上でストリーミングデータアーキテクチャを採用したチームは、 ほとんどの場合 、スループットの向上、運用オーバーヘッドの削減、コストの大幅削減というメリットを得ることができます。 これらのユーザーの中には、サブ秒単位のレイテンシーでリアルタイムにジョブを実行する者も