Delta LakeとApache Sparkにオープンバリアントデータ型を導入
半構造化データ用のバリアントと呼ばれる新しいデータ型を発表できることを嬉しく思います。 バリアント(Variant) は、これらのデータを JSON 文字列として保存する場合と比べて、パフォーマンスが桁違いに向上すると同時に、高度にネストされ進化するスキーマをサポートするための柔軟性も維持します。 半構造化データの取り扱いは、長い間レイクハウスの基盤的な機能の一つです。エンドポイント検出と対応(EDR)、広告クリック分析、IoTテレメトリーなどは、半構造化データに依存する人気のユースケースの一部です。私たちがより多くの顧客を専有のデータウェアハウスから移行させる中で、彼らが専有のデータウェアハウスで提供されるバリアントデータ型に依存していることを聞き、ロックインを避けるためにオープンソース標準が欲しいという声がありました。 オープンバリアントタイプは、Apache SparkオープンソースコミュニティとLinux Foundation Delta Lakeコミュニティの両方とのコラボレーションの結果です: バリア
Snowplowでデータチームを強化:ファーストパーティデジタルイベントデータ収集の新時代
顧客とのやり取りがますますデジタル領域に移行するにつれて、組織がオンライン顧客行動に関する知見を開発することがますます重要になります。 これまで、多くの組織はサードパーティのデータ収集業者に依存していましたが、プライバシーに関する懸念の高まり、データへのよりタイムリーなアクセスの必要性、カスタマイズされた情報収集の要件により、多くの組織がこの機能の社内への移行を進めています。 Snowplow などの顧客データ インフラストラクチャ (CDI) プラットフォームと Databricks のリアルタイム データ処理および予測機能を組み合わせることで、これらの組織は、より深く、より豊富で、よりタイムリーで、よりプライバシーに配慮した知見を開発し、オンライン顧客エンゲージメントの可能性を最大限に引き出すことができます (図 1)。 ただし、このデータの可能性を最大限に引き出すには、これらのデータがサードパーティのインフラストラクチャを介して流れていたときには行わなかった方法で、デジタル チームが組織のデータ エンジニア
Delta Sharingと新時代のレイクハウス顧客データプラッ トフォーム (CDP) の登場
このブログに貴重な知見と貢献を提供してくれた Amperity の Caleb Benningfield 氏と Sam Malissa 氏に特に感謝します。 今日、企業はプライバシー規制に準拠しながら、大規模なパーソナライゼーションを実現するために、より膨大で複雑な顧客データを処理しなければならないという大きな課題に直面しています。 これは、データ品質を優先し、効果的なガバナンスレイヤーを実装することを意味しますが、企業が依存していた既存のツールや方法では、この課題に対応できません。 この課題に対処するために、多くの企業がクラウドデータウェアハウスとデータレイクからデータレイクハウスアーキテクチャに移行しました。 データレイクハウスは、これまでのシステムの最高の機能を組み合わせて、企業がデータを保存および管理する方法を合理化し、貴重な知見に簡単にアクセスできるようにします。 では、次は何でしょうか? 次のフロンティアは、 Databricksと Delta Sharing 上に構築されます。これにより、レプリケー
Databricks向けSalesforce BYOM『Bring Your Own Model』を始めよう!
SalesforceとDatabricksは、強力な新しい統合「Salesforce Bring Your Own Model (BYOM) for Databricks」を提供するための 戦略的パートナーシップの拡大 を発表しました。このコラボレーションにより、データサイエンティストや機械学習エンジニアは、Salesforceの堅牢な顧客データとビジネス機能、およびDatabricksの高度な分析とAI機能をシームレスに活用できるようになります。この統合を使用すると、DatabricksでカスタムAIモデルを構築、トレーニング、デプロイし、それらをSalesforceに簡単に統合して、インテリジェントでパーソナライズされた顧客体験を提供することができます。データの可能性を最大限に引き出し、顧客とのエンゲージメントを革命的に変える準備を整えましょう。 仕組み Salesforce Data Cloudは、チームが多様なソースからデータを収集し、それを下流のSalesforce CRMアプリケーションやワークフロー
大規模なプレイヤーフィードバックを管理し、理解しよう
ライブタイトル、本番運用前/運用後、進行中のメンテナンス、将来のリリース、ゲームの別バージョン、または市場向けのまったく新しいタイトルのいずれに取り組んでいる場合でも、常にコミュニティからのフィードバックを求めています。 世の中には不足はありませんが、圧倒され、ふるいにかけるのが難しい場合があります。 PC で出荷され、Valve の Steam ストアを通じて販売されるゲームの場合、タイトルに対するプレイヤーからのフィードバックの優れたソースは、Steam のゲームレビューで見つけることができます。 私たちは 、自然言語と機械学習技術 を組み合わせた、プレイヤーレビュー分析用の新しいソリューションアクセラレータを構築しました。これにより、ゲーム開発者はプレイヤーをより深く理解し、ゲームデザイン、バックエンドオペレーション、ライブオペレーション、マーケティング、そして実際にはすべての事業ラインを通じて対応できるようになります。 Steamのゲームレビューでは、次のことを見ることができます。 生のフィードバック:
データから目的地までへ:SkyscannerがDatabricks Unity Catalogで旅行者体験を最適化する方法
このブログは、スカイスキャナーのエンジニアリングディレクターであるマイケル・エウィンズが執筆したものです。 Skyscanner では、単なるフライト検索エンジン以上の存在です。毎月1億1000万人以上のユーザーが自信と簡便さをもって旅行を計画し予約できるようにサポートする、旅行のグローバルリーダーです。30以上の言語で運営しており、180か国以上の1200以上の旅行パートナーから、幅広いフライト、ホテル、レンタカーオプションを旅行者に提供しています。 私たちはデータとAIを活用して旅行者の体験を向上させるとともに、内部の意思決定をサポートしています。旅行者のために、機械学習(ML)モデルを使用して毎日800億以上の価格を確認し、ホテル、フライト、レンタカーをランキングして推奨し、旅行時間とコストに基づいて最良のオプションを提供することを目指しています。Databricks Data Intelligence Platformは、これらの旅行インサイトの一部を支えています。このブログでは、Databricksとの
MLflowでGiskardを使ってLLMを評価しよう!
過去数年間、大規模言語モデル (LLM) は、トランスフォーマーベースのアーキテクチャと大規模なデータセットでの広範なトレーニングにより、自然言語の分野を再形成してきました。 特に、検索拡張世代(RAG)は著しい増加を経験しており、ベクトルデータベースとLLMを組み合わせて企業データを効果的に探索および検索するための一般的な方法に急速に普及しています。 一般的なアプリケーションとしては、顧客サポートボット、社内ナレッジグラフ、Q&A システムの開発などがあります。 しかし、この驚異的な進歩はさまざまな課題も生み出しており、最も顕著なものの 1 つは、生成された出力をテストおよび検証するという複雑な作業です。 ---- LLMのアウトプットの品質をどのように測定するのですか? ---- 慎重に作成されたプロンプトがうっかり対抗できなかった可能性のある隠れた脆弱性を明らかにするにはどうすればよいでしょうか? ---- 特定のユースケースに合わせてテスト、メトリック、敵対的プロンプトを自動的に生成するにはどうす
データとAIで社会に貢献: 2024年Data For Good Awardのファイナリスト発表!
毎年恒例の Data Team Awards は、さまざまなセクターへのデータ チームの重要な貢献を称え、組織内の進歩と前向きな変化を推進する上での Data Team の役割にスポットライトを当てます。 今年は、世界中から 200 件を超えるノミネートが寄せられ、データサイエンスと人工知能の両方におけるイノベーションの広範な影響が強調されました。 Data + AI サミットが 間近に迫る中、私たちは 6 つの賞のカテゴリーでイノベーターたちを特集し、データ主導のブレークスルーへの彼らの素晴らしい道のりを紹介できることを嬉しく思います。 Data for Good 賞は、データ分析とAIの力を活用して組織やコミュニティ内で前向きな変化をもたらしたチームを表彰するものです。 これらの企業は、データの責任ある効果的な使用を確保するために堅牢なデータ...
データとAIで未来を創る:2024年Databricks GenAIイノベーションアワードのファイナリスト発表!
毎年恒例の Data Team Awardsは、 今日の最も困難なビジネス課題のいくつかに取り組むことに尽力しているトップクラスのグローバルエンタープライズデータチームの目覚ましい努力を紹介するものです。 今年は、6つのカテゴリーで200社以上のノミネートがあり、さまざまな業界や地域を代表する企業から応募がありました。 Data + AI Summit に先立ち、各カテゴリーのファイナリ ストを紹介し、データと AI の進歩を先導する人たちに焦点を当てます。 今年新たに導入された GenAI 賞は、大規模言語モデル (LLM) の企業における広範な採用を象徴するものです。 LLM が生産性の向上、ユーザー エクスペリエンスのパーソナライズ、問題解決の新たな可能性の開拓を通じて業界を変革する中、 Databricks 、生成...
Delta Sharingで実現する安全なエンドツーエンドのコラボレーション
Reviewed by saki.kitaoka 現代のデジタル環境において、セキュアなデータ共有は運用効率とイノベーションに不可欠です。DatabricksとLinux Foundationは、データ、分析、AI全体でのデータ共有に対する初のオープンソースアプローチとして Delta Sharing を開発しました。Databricksは、安全なデータ交換を提供し、プラットフォーム、クラウド、地域をまたいだシームレスな共有を促進します。あらゆる規模の企業が、幅広いアプリケーションと多様なデータ形式をサポートするDelta Sharingを信頼しています。この柔軟性により、データ資産の可能性を最大限に引き出そうとする組織にとって信頼できるツールとなります。 本ブログでは、Databricks Delta Sharingのセキュリティアーキテクチャを、 Databricks顧客間共有(D2D) 、 Databricks顧客からオープン共有(D2O) 、クロスクラウドデータ共有の3つの異なる共有シナリオを通じて検討し