Databricks ブログ

ページ 41

サイバーセキュリティ・レイクハウス Part 4: データ正規化戦略

November 17, 2023 デレク・キングによる投稿 in プラットフォーム

この4部構成のブログ・シリーズ "Lessons learned from building Cybersecurity Lakehouses," では、サイバーセキュリティ・データ用のレイクハウスを構築する際に、組織がデータ・エンジニアリングで直面する多くの課題について議論し、それを克服するために私たちが現場で使用したソリューション、ヒント、コツ、ベスト・プラクティスを紹介する。パート1では、まず統一されたイベントのタイムスタンプ抽出から始めた。パート 2では、ログの取り込みの遅れを発見し、対処する方法について見てきた。そしてパート3では、半構造化された機械生成データの解析方法に取り組んだ。このシリーズの最終回では、サイバーアナリティクスの最も重要な側面の1つである、共通の情報モデルを使用したデータの正規化について説明します。このブログが終わるころには、サイバーセキュリティ・レイクハウスにデータを正規化する際に直面するいくつかの問題と、それを克服するために使用できるテクニックについて、しっか

Azure DatabricksでAzure コンフィデンシャルコンピューティング（ACC）サポートが一般提供開始しました

November 16, 2023 ケリー・アルバノ、Samrat Ray による投稿 in プラットフォーム

本日、 Azure Databricksの Azureコンフィデンシャル・コンピューティング（ACC）サポートの一般提供を発表できることを嬉しく思います！ Azureコンフィデンシャル・コンピューティングのサポートにより、顧客はAMDベースのAzureコンフィデンシャル仮想マシン（VM）で使用中またはメモリ内のデータを保護することで、Databricks上で機密性とプライバシーを高めたエンドツーエンドのデータプラットフォームを構築できます。この種のデータ保護は、静止データ用の顧客管理キーや、転送中のデータ用のTLS暗号化付きプライベートリンクなど、既存のAzure Databricksコントロールを使用した機密データの保護を補完するものです。その結果、Azure コンフィデンシャル VM上で稼働するAzure Databricksクラスタは、包括的なエンドツーエンドの暗号化ソリューションによって保護され、ライフサイクル全体を通じてデータを保護します。ワークロードを実行するACC VMを選択する

データ・インテリジェンス・プラットフォーム

November 15, 2023 Michael Armbrust、Adam Conway（アダム・コンウェイ）、Ali Ghodsi、ナヴィーン・ラオ、Arsalan Tavakoli-Shiraji（アルサラン・タバコリ・シラジ）、Patrick Wendell（パトリック・ウェンデル）、Reynold Xin（レイノルド・シン）、Matei Zaharia による投稿 in プラットフォーム

「ソフトウェアが世界を食べている」という見方が、現代のハイテク産業を形成してきました。今日、ソフトウェアは、私たちが身につける時計から、家、車、工場、農場まで、私たちの生活のいたるところにあります。Databricksでは、まもなく AIがすべてのソフトウェアを食べるようになると考えています。つまり、過去数十年の間に構築されたソフトウェアがインテリジェントになり、データを活用することで、より賢くなるということです。その影響は膨大かつ多様で、カスタマーサポートから医療、教育まであらゆる分野に影響を及ぼします。このブログでは、AIがデータ・プラットフォームをどのように変えるかについて、私たちの見解を述べます。データ・プラットフォームに対するAIのインパクトは漸進的なものではなく、データへのアクセスを大幅に民主化し、手作業による管理を自動化し、カスタムAIアプリケーションのターンキー作成を可能にするという根本的なものであると主張します。これらすべてを可能にするのが、組織のデータを深く理解する統合プラットフォー

Spark ConnectにおけるPythonの依存関係の管理方法

November 13, 2023 Hyukjin Kwon、鄭瑞鳳による投稿 in エンジニアリングのブログ

分散コンピューティング環境におけるアプリケーションの環境管理は難しい。すべてのノードがコードを実行するのに必要な環境を持っていることを保証し、ユーザーのコードの実際の場所を決定することは、複雑なタスクである。 Apache Spark™は、Conda、venv、PEXなど様々な方法を提供している。 --jars、--packagesのようなスクリプトオプションや、 spark.jars.*のようなSparkコンフィギュレーションをサブミットする方法と同様に、 PySparkでPythonの依存関係を管理する方法も併せて参照してみてください。これらのオプションにより、ユーザーはクラスタ内の依存関係をシームレスに処理できる。しかし、Apache Sparkの依存関係を管理するための現在のサポートには限界がある。依存関係は静的にしか追加できず、実行中に変更することはできない。つまり、Driverを起動する前に必ず依存関係を設定する必要がある。この問題に対処するため、Apache Spark 3.5.0か

SQL関数の名前付き引数

November 13, 2023 ダニエル・テネドリオ、Xinyi Yu、アリソン・ワン、Wenchen Fan、Serge Rielau、リチャード・ユーによる投稿 in エンジニアリングのブログ

本日は、SQL関数で名前付き引数を利用できるようになったことを紹介します。この機能を使えば、より柔軟な方法で関数を呼び出すことが可能になります。このブログでは、まずこの機能がどのようなものかを紹介し、次にSQLユーザー定義関数（UDF）のコンテキストで何ができるかを示し、最後に組み込み関数でどのように機能するかを探ります。まとめると、名前付き引数はSQLのヘビーユーザーにとってもライトユーザーにとっても、作業を容易にする新しい便利な方法です。名前付き引数とは何か？多くのプログラミング言語では、関数定義に1つ以上の引数のデフォルト値を含めることができます。例えば、Pythonでは次のようなメソッドを定義できます： def botw(x, y = 6, z = 7): return x * y + z ユーザーがこの機能を呼び出したい場合、次のように選択できます： botw(5...

サイバーセキュリティ・レイクハウス Part 3: データ解析戦略

November 10, 2023 デレク・キングによる投稿 in プラットフォーム

この4部構成のブログシリーズ（"Lessons learned from building Cybersecurity Lakehouses," ）では、サイバーセキュリティ・データ用のレイクハウスを構築する際に組織がデータエンジニアリングで直面する多くの課題について議論し、それを克服するために私たちが現場で使用した解決策、ヒント、コツ、ベストプラクティスを紹介する。パート1では、まず統一されたイベントのタイムスタンプ抽出から始めた。パート 2では、ログの取り込みの遅れを発見し、対処する方法について見てきた。この第3回目のブログでは、メダリオンアーキテクチャを指針として、半構造化機械生成データの解析に関するいくつかの問題に取り組む。このブログでは、ログ生成データを解析する際に直面する課題について概説し、アナリストが異常な行動、潜在的な侵害、侵害の指標に関する洞察を得るために、データを正確に取得し、解析するためのガイダンスとベストプラクティスを提供します。このブログが終わる頃には、Cybers

あらゆるユースケースに対応するストリーミング・アーキテクチャが必要な時が来た！

November 9, 2023 マット・ジョーンズによる投稿 in プラットフォーム

今日のデータ主導の世界では、企業はかつてない規模のデータを効率的に取り込み、処理するという課題に直面している。常に生成されるビジネスクリティカルなデータの量と多様性により、アーキテクチャの可能性は無限に近い。良いニュースは？これはまた、スループット、レイテンシー、コスト、運用効率など、データアーキテクチャをさらに最適化できる可能性が常にあることを意味する。多くのデータ専門家は、"データストリーミング" や"ストリーミングアーキテクチャ" といった用語を、ほとんどのワークロードにとって複雑でコストがかかり、実用的でないように見える超低レイテンシのデータパイプラインと関連付けている。しかし、Databricks Lakehouse Platform上でストリーミングデータアーキテクチャを採用したチームは、ほとんどの場合、スループットの向上、運用オーバーヘッドの削減、コストの大幅削減というメリットを得ることができます。これらのユーザーの中には、サブ秒単位のレイテンシーでリアルタイムにジョブを実行する者も

DatabricksとMongoDBで保険のAI主導型イノベーションを加速する

November 8, 2023 マルセラ・グラナドス、ジェフ・ニーダムによる投稿 in 業界

保険会社は近代化において大きな変化を遂げている。伝統的にレガシーシステムの使用で知られる大手通信事業者は、収益性の高い成長を維持することを目標に、クラウドへの移行やAIなどの新技術の採用によってインフラを近代化している。イノベーションで価値を生み出してきた企業に共通する先進的な手法は、新しいデジタル製品を迅速に市場に投入し、手作業のプロセスを自動化し、どこにいても顧客やそのデータとつながることができることだ。これが当てはまる主な分野は以下の通りだ：コネクテッド・インシュアランス& モビリティ IoTとテレマティクスの台頭は、保険会社が商品の内容やビジネスのやり方を変えつつあることを意味する。大手企業（プログレッシブ社）がテレマティクス製品を最初に発売した競争上の優位性について考えてみよう。より正確な価格設定が可能になり、その結果、より良い保険料につながるのであれば、データを共有することを厭わない顧客層を開拓できるという利点がある。意思決定支援& 自動化意思決定サポートと自動化された

Databricksワークスペースに組み込まれたガバナンス機能

November 8, 2023 ポール・ルーム、サチン・タクールによる投稿 in 製品

Databricks Unity Catalogは、組織がさまざまなデータとAI資産を安全に発見、アクセス、監視、コラボレーションできる統合ソリューションを提供することで、データとAIのガバナンスを簡素化します。これにはテーブル、MLモデル、ファイル、関数が含まれ、最終的に生産性を高め、Lakehouse環境の可能性を最大限に引き出します。本日、Unity CatalogがAWSとAzure上の新しいプレミアム・ワークスペースに事前設定され、アクセス可能になったことを発表できることを嬉しく思います。この機能は、アカウントや地域ごとに順次展開されます。詳しくは担当者にお問い合わせください。 Unityカタログで事前設定されたワークスペースの概要ワークスペースにいくつかの新機能が追加されていることにお気づきでしょう。ワークスペースは、Unityカタログへのアクセス設定済みで提供されます！アカウント管理者によるその後の有効化手順は必要ありません。ワークスペースにちなんだ名前のカタログが見つかります（こ

サイバーセキュリティ・レイクハウス Part2：取り込み遅延への対応

November 8, 2023 デレク・キングによる投稿 in プラットフォーム

この4部構成のブログ・シリーズ「 Lessons learned building Cybersecurity Lakehouses 」では、サイバーセキュリティ・データ用のレイクハウスを構築する際に、組織がデータ・エンジニアリングで直面する多くの課題について議論し、それらを克服するために私たちが現場で使用したソリューション、ヒント、トリック、ベスト・プラクティスを紹介する。パート1では、まず統一されたイベントのタイムスタンプ抽出から始めた。この第2部では、効果的なセキュリティ運用を維持するために不可欠なログの取り込みの遅延を発見し、対処する方法について見ていく。このブログが終わるころには、直面する問題のいくつかと、データ取り込みの遅れを監視し報告するために使用できるいくつかのテクニックをしっかりと理解していることだろう。なぜデータの取り込みが重要なのか？タイムリーで、正確で、検索可能なログデータは、セキュリティ・オペレーションにおいて非常に重要です。アナリストは、セキュリティ・イベントやインシ