プラットフォーム | Databricks Blog

ページ 17

Databricks + Arcion： Lakehouseへのリアルタイムエンタープライズデータレプリケーション

November 6, 2023 Reynold Xin（レイノルド・シン）、サミール・パランジパイ、Awez Syed、ビラル・アスラム、エリカ・エーリ、Ori Zohar、キャシー・ミャオによる投稿 in お知らせ

我々は、リアルタイム・データ・レプリケーション・テクノロジーのリーディング・プロバイダーである Arcion社の買収を完了したことを発表できることを嬉しく思う。 Arcionの機能により、DatabricksはさまざまなデータベースやSaaSアプリケーションからデータを複製して取り込むネイティブソリューションを提供できるようになり、顧客はデータから価値とAI主導の洞察を生み出すという実際の作業に集中できるようになる。 Arcionのチームとは、Databricksのパートナーとしてだけでなく、 Databricks Venturesの投資先企業としても、長年にわたって緊密に協力してきました。この発表により、我々は正式にチームをDatabricksファミリーに迎え入れることになります。リアルタイムのデータ取り込みとデータベースの複製 Databricksの使命は、あらゆる組織のためにデータとAIを民主化することです。 Databricks Lakehouse Platformは、データ、アナリティクス、AI

サイバーセキュリティ・レイクハウス Part 1: イベントのタイムスタンプ抽出

November 3, 2023 デレク・キングによる投稿 in プラットフォーム

この4回にわたるブログ・シリーズ "Lessons learned from building Cybersecurity Lakehouses," では、サイバーセキュリティ・データ用のレイクハウスを構築する際に、組織がデータ・エンジニアリングで直面する多くの課題について説明し、それを克服するために私たちが現場で使用したソリューション、ヒント、コツ、ベスト・プラクティスを紹介する。このシリーズでは、サイバーセキュリティのレイクハウスを作りたいとお考えの方に、課題を学び、進むべき道を提案します。 Databricksは、サイバーログを効率的に処理し、標準化するための実用的なローコード・コンフィギュレーション・ソリューションを構築した。当社のLakehouseプラットフォームは、データエンジニアリングを簡素化し、検索、分析、ストリーム型脅威検知への迅速な移行を促進します。既存のSIEMやSOARシステムを補完し、不必要に複雑化することなくサイバーセキュリティ運用を強化します。第1部では、サイバー分析エンジン

レイクハウスAIがリアルタイム計算でモデルの精度を向上させる方法

November 3, 2023 アヴェシュ・シン、マニ・パルケによる投稿 in プラットフォーム

機械学習モデルの予測品質は、モデルの訓練と使用に使用されるデータの品質に直接反映される。通常、特徴量、つまりモデルへの入力データは事前に計算され、保存された後、推論のために検索され、モデルに提供される。モデルの性能は、特徴計算に使用するデータの鮮度と直接相関することが多いため、これらの特徴を事前に計算できない場合に課題が生じる。オンデマンド・フィーチャー・コンピュテーションを発表することで、このようなフィーチャー・クラスのサービスを簡素化することができる。レコメンデーション、セキュリティシステム、不正検知などのユースケースでは、これらのモデルのスコアリング時にオンデマンドで機能を計算する必要がある。シナリオは以下の通り：特徴量の入力データがモデル提供時にしか得られない場合。例えば、 distance_from_restaurantは、モバイル機器によって決定されたユーザーの最後の既知の位置を必要とする。ある機能の価値が、それが使われる文脈によって変化する状況。デバイスの種類がデスクトップと

HiveテーブルをUnityカタログにアップグレードする方法

November 2, 2023 ディパンカル・クシャリ、リラン・バレケット、スレーラム・トゥーム、ソム・ナタラジャンによる投稿 in 製品

このブログでは、Hiveメタストア(HMS)*テーブルをUnityカタログ(UC)にシームレスにアップグレードする方法を、アップグレードするHMSテーブルのバリエーションに応じて異なる方法を使用して、例を挙げて説明します。 *注: Hiveメタストアは、デフォルト、外部メタストア、またはAWS Glue Data Catalogでもかまいません。簡略化のため、本書では"Hive メタストア" という用語を使用します。詳細を説明する前に、アップグレードの手順を説明しよう。評価 - このステップでは、アップグレード対象として特定された既存の HMS テーブルを評価し、アップグレードの適切なアプローチを決定します。このステップについては、このブログで説明します。作成 - このステップでは、メタストア、カタログ、スキーマ、ストレージ資格情報、外部ロケーションなど、必要なUCアセットを作成します。詳細については、ドキュメント（ AWS 、 Azure...

Databricks UnityカタログにおけるAI生成ドキュメントのパブリックプレビューを発表

November 1, 2023 張宏毅、タオ・フェン、サチン・タクール、クリステン・ワイルダー、Matthew Hayes、ヤン・ファン・デル・ヴェグト、Shuai Lu、Tyler Townley、エビオン・キム、Yash Oza による投稿 in プラットフォーム

翻訳：Saki Kitaoka. - Original Blog Link 本日、 Databricks Unity Catalog のAI生成ドキュメンテーションのパブリックプレビューを発表します。この機能は、生成AIを活用し、テーブルやカラムの説明やコメントの追加を自動化することで、組織のデータやAI資産の文書化、キュレーション、ディスカバリーを簡素化します。今日のデータ主導の状況では、データは情報に基づいた意思決定の基盤であり、チームワークの強固な基盤を確立するには、シームレスなデータの発見性と明確性が重要です。しかし、データチームはしばしば、包括的なデータ説明がないために文脈が理解できないという重大な課題に直面します。この不足は、ユーザーがデータの潜在能力を十分に活用する妨げとなるため、このギャップを埋める簡素なデータ記述の必要性が強調されています。さらに、表や列の適切なメタデータや説明文がないことが問題を複雑にしており、その結果、いくつかの問題が生じています：データの曖昧さ：データの曖昧さ：表

Databricks on Google Cloudの新しいプラットフォームセキュリティ制御でワークスペースを保護する

November 1, 2023 ケリー・アルバノ、バヴィン・クカディア、Samrat Ray による投稿 in プラットフォーム

Databricks on Google Cloudのいくつかの主要なセキュリティ機能の一般提供（GA）を発表できることを嬉しく思います：プライベート・サービス・コネクト（PSC）によるプライベート接続顧客が管理する暗号化キーアカウント・コンソールおよびAPIアクセス用のIPアクセス・リスト Databricks では、データはお客様の最も貴重な資産であると認識しています。これらの重要なセキュリティ機能のGAを使用することで、 Databricks Lakehouse Platform 上で静止状態のデータを保護し、データを非公開に保ち、データ流出のリスクを軽減することができます。このブログでは、よくあるセキュリティの質問を取り上げ、Google Cloudで利用できるようになった新しいセキュリティ機能と機能を説明します。プライベート・サービス・コネクトによるエンド・ツー・エンドのプライベート・ワークスペースほとんどの企業顧客は、ユーザーとワークロードがプライベートで隔離された環境でセキュリティデー

集まれ！Legendary Heroes of DATA + AI !! Vol 6

October 31, 2023 Hisae Inoue による投稿 in Databricks ブログ

日本のDatabricks Championの皆様に、目指したその理由や、これからの思いについて伺う「集まれ！Legendary Heroes of DATA + AI !!」。Legendary Heroes of Data＋AI の皆さんの輪もドンドン広がっています！できる限りこちらでご紹介を続けていきたいと思いますので、是非引き続きご覧ください！さて、今回はVol.6として満を持して登場、アマゾンウェブサービスジャパン合同会社本橋和貴様をご紹介します。 —- 以前にご紹介したLegendary...

Spark JDBCを使用してリアルタイムのSAP HANAデータをDatabricksにフェデレートする最速の方法

October 19, 2023 クリシュナ・サティヤバラプによる投稿 in プラットフォーム

翻訳：Junichi Maruyama. - Original Blog Link SAPが最近発表したDatabricksとの戦略的パートナーシップは、SAPの顧客の間で大きな興奮を呼んでいる。データとAIのエキスパートであるDatabricksは、SAP HANAとDatabricksを統合することで、アナリティクスとML/AI機能を活用するための魅力的な機会を提供します。このコラボレーションの大きな関心を受け、私たちはディープダイブ・ブログ・シリーズに着手することになりました。多くのお客様のシナリオでは、SAP HANAシステムは、SAP CRM、SAP ERP/ECC、SAP BWなど、さまざまなソースシステムからのデータ基盤の主要なエンティティとして機能しています。そして今、この堅牢なSAP HANA分析サイドカーシステムをDatabricksとシームレスに統合し、組織のデータ機能をさらに強化するエキサイティングな可能性が生まれました。SAP HANA（HANA Enterprise Editionラ

DatabricksがISO 27701認証を取得しました

October 17, 2023 Cheryl Allieri、Neal Hannan、Mathilde Zanelly による投稿 in プラットフォーム

翻訳：Saki Kitaoka. - Original Blog Link Databricks がデータ処理業者として国際標準化機構 (ISO) 27701 認証を取得したことをお知らせします。この認証は、プライバシーに対する当社のコミットメントを反映したものであり、顧客データを取り扱う際のDatabricksのプライバシー慣行について、第三者による検証をお客様に提供するものです。 ISO/IEC 27701:2019とは何ですか？ ISO 27701認証は、ISO/IEC 27001のプライバシー管理拡張版であり、組織のコンテキスト内でプライバシー情報管理システム（PIMS）を確立、実装、維持、および継続的に改善するためのガイダンスを提供します。この規格への準拠は、DatabricksのPIMSが欧州一般データ保護規則（GDPR）、カリフォルニア州消費者プライバシー法（CCPA）、およびその他のデータプライバシー規制への準拠をサポートしていることを示すものです。 Databricksの認定についてさらに詳しく

Databricksワークフローによるデータ分析のオーケストレーション

October 17, 2023 Matthew Kuehn による投稿 in プラットフォーム

翻訳：Saki Kitaoka. - Original Blog Link データドリブンな企業にとって、データアナリストはデータから洞察を引き出し、それを意味のある形で提示する上で重要な役割を担っています。しかし、多くのアナリストは、本番用のワークロードを自動化するために必要なデータオーケストレーションに精通していない可能性があります。アドホックなクエリをいくつか実行すれば、直前のレポート用に適切なデータを迅速に作成できますが、データチームは、さまざまな処理、変換、検証タスクを適切な順序で確実に実行する必要があります。適切なオーケストレーションが行われないと、データチームはパイプラインの監視、障害のトラブルシューティング、依存関係の管理ができなくなります。その結果、当初は即効性のある価値をビジネスにもたらしたアドホックなクエリセットが、それらを構築したアナリストにとって長期的な頭痛の種になってしまいます。パイプラインの自動化とオーケストレーションは、データの規模が大きくなり、パイプラインの複雑さが増すにつれて