メインコンテンツへジャンプ
<
ページ 24
>

直感的かつパワフル!次世代のDatabricksノートブック

過去1年間、私たちはフィードバックに耳を傾け、新しいアイデアを試行錯誤してきました。その目的はただ一つ、データサイエンティスト、エンジニア、およびSQLアナリストのために、最高のデータ中心の開発体験を構築することです。そして本日、洗練されたモダンなインターフェースと強力な新機能を備えた次世代のDatabricksノートブックを発表できることを大変嬉しく思います。これにより、コーディングとデータ分析がさらに簡単になります。 主な 機能強化は次のとおりです。 最新のUX: 新しいノートブックUIとその他の機能のGAにより、コーディング体験がスムーズになり、ノートブックの整理が向上します。 新しい結果テーブル: 出力結果に対して直接検索やフィルタリングを実行し、コードなしでのデータ探索が可能です。 より強力なPython機能: ステップスルーのデバッガー、エラーの強調表示、強化されたコードナビゲーション機能を使用して、Pythonコードをより効率的に記述できます。 AIによる開発支援: Databricksアシスタント

データとAI戦略 〜プラットフォームにフォーカスして〜

優れた AI の秘訣は優れたデータです。 AI の導入が急増するにつれ、データ プラットフォームはあらゆる企業のテクノロジー スタックの最も重要なコンポーネントになります。 生成AI システムは単一のモノリシックなものではなく、 連携して機能する さまざまなコンポーネントの組み合わせで あることがますます明らかになっています。データは最も重要な要素の 1 つですが、企業が モデルを 実際に 現実世界に 展開する には、他にも多くの機能が必要です 。 そのため、企業がデータと AI の幅広いニーズをサポートする基盤プラットフォームの構築を検討する際には、...

Iceberg との互換性を実現する Delta Lake Universal Format (UniForm) が GA に

現在一般提供されている Delta Lake UniForm により、顧客は Iceberg エコシステム内のツールに接続する際に、Delta Lake の業界をリードする価格性能のメリットを享受できるようになります。

Delta LakeとApache Sparkにオープンバリアントデータ型を導入

半構造化データ用のバリアントと呼ばれる新しいデータ型を発表できることを嬉しく思います。 バリアント(Variant) は、これらのデータを JSON 文字列として保存する場合と比べて、パフォーマンスが桁違いに向上すると同時に、高度にネストされ進化するスキーマをサポートするための柔軟性も維持します。 半構造化データの取り扱いは、長い間レイクハウスの基盤的な機能の一つです。エンドポイント検出と対応(EDR)、広告クリック分析、IoTテレメトリーなどは、半構造化データに依存する人気のユースケースの一部です。私たちがより多くの顧客を専有のデータウェアハウスから移行させる中で、彼らが専有のデータウェアハウスで提供されるバリアントデータ型に依存していることを聞き、ロックインを避けるためにオープンソース標準が欲しいという声がありました。 オープンバリアントタイプは、Apache SparkオープンソースコミュニティとLinux Foundation Delta Lakeコミュニティの両方とのコラボレーションの結果です: バリア

Snowplowでデータチームを強化:ファーストパーティデジタルイベントデータ収集の新時代

顧客とのやり取りがますますデジタル領域に移行するにつれて、組織がオンライン顧客行動に関する知見を開発することがますます重要になります。 これまで、多くの組織はサードパーティのデータ収集業者に依存していましたが、プライバシーに関する懸念の高まり、データへのよりタイムリーなアクセスの必要性、カスタマイズされた情報収集の要件により、多くの組織がこの機能の社内への移行を進めています。 Snowplow などの顧客データ インフラストラクチャ (CDI) プラットフォームと Databricks のリアルタイム データ処理および予測機能を組み合わせることで、これらの組織は、より深く、より豊富で、よりタイムリーで、よりプライバシーに配慮した知見を開発し、オンライン顧客エンゲージメントの可能性を最大限に引き出すことができます (図 1)。 ただし、このデータの可能性を最大限に引き出すには、これらのデータがサードパーティのインフラストラクチャを介して流れていたときには行わなかった方法で、デジタル チームが組織のデータ エンジニア

Delta Sharingと新時代のレイクハウス顧客データプラットフォーム (CDP) の登場

このブログに貴重な知見と貢献を提供してくれた Amperity の Caleb Benningfield 氏と Sam Malissa 氏に特に感謝します。 今日、企業はプライバシー規制に準拠しながら、大規模なパーソナライゼーションを実現するために、より膨大で複雑な顧客データを処理しなければならないという大きな課題に直面しています。 これは、データ品質を優先し、効果的なガバナンスレイヤーを実装することを意味しますが、企業が依存していた既存のツールや方法では、この課題に対応できません。 この課題に対処するために、多くの企業がクラウドデータウェアハウスとデータレイクからデータレイクハウスアーキテクチャに移行しました。 データレイクハウスは、これまでのシステムの最高の機能を組み合わせて、企業がデータを保存および管理する方法を合理化し、貴重な知見に簡単にアクセスできるようにします。 では、次は何でしょうか? 次のフロンティアは、 Databricksと Delta Sharing 上に構築されます。これにより、レプリケー

Databricks向けSalesforce BYOM『Bring Your Own Model』を始めよう!

SalesforceとDatabricksは、強力な新しい統合「Salesforce Bring Your Own Model (BYOM) for Databricks」を提供するための 戦略的パートナーシップの拡大 を発表しました。このコラボレーションにより、データサイエンティストや機械学習エンジニアは、Salesforceの堅牢な顧客データとビジネス機能、およびDatabricksの高度な分析とAI機能をシームレスに活用できるようになります。この統合を使用すると、DatabricksでカスタムAIモデルを構築、トレーニング、デプロイし、それらをSalesforceに簡単に統合して、インテリジェントでパーソナライズされた顧客体験を提供することができます。データの可能性を最大限に引き出し、顧客とのエンゲージメントを革命的に変える準備を整えましょう。 仕組み Salesforce Data Cloudは、チームが多様なソースからデータを収集し、それを下流のSalesforce CRMアプリケーションやワークフロー

大規模なプレイヤーフィードバックを管理し、理解しよう

ライブタイトル、本番運用前/運用後、進行中のメンテナンス、将来のリリース、ゲームの別バージョン、または市場向けのまったく新しいタイトルのいずれに取り組んでいる場合でも、常にコミュニティからのフィードバックを求めています。 世の中には不足はありませんが、圧倒され、ふるいにかけるのが難しい場合があります。 PC で出荷され、Valve の Steam ストアを通じて販売されるゲームの場合、タイトルに対するプレイヤーからのフィードバックの優れたソースは、Steam のゲームレビューで見つけることができます。 私たちは 、自然言語と機械学習技術 を組み合わせた、プレイヤーレビュー分析用の新しいソリューションアクセラレータを構築しました。これにより、ゲーム開発者はプレイヤーをより深く理解し、ゲームデザイン、バックエンドオペレーション、ライブオペレーション、マーケティング、そして実際にはすべての事業ラインを通じて対応できるようになります。 Steamのゲームレビューでは、次のことを見ることができます。 生のフィードバック:

データから目的地までへ:SkyscannerがDatabricks Unity Catalogで旅行者体験を最適化する方法

May 29, 2024 マイケル・ユーウィンズ による投稿 in
このブログは、スカイスキャナーのエンジニアリングディレクターであるマイケル・エウィンズが執筆したものです。 Skyscanner では、単なるフライト検索エンジン以上の存在です。毎月1億1000万人以上のユーザーが自信と簡便さをもって旅行を計画し予約できるようにサポートする、旅行のグローバルリーダーです。30以上の言語で運営しており、180か国以上の1200以上の旅行パートナーから、幅広いフライト、ホテル、レンタカーオプションを旅行者に提供しています。 私たちはデータとAIを活用して旅行者の体験を向上させるとともに、内部の意思決定をサポートしています。旅行者のために、機械学習(ML)モデルを使用して毎日800億以上の価格を確認し、ホテル、フライト、レンタカーをランキングして推奨し、旅行時間とコストに基づいて最良のオプションを提供することを目指しています。Databricks Data Intelligence Platformは、これらの旅行インサイトの一部を支えています。このブログでは、Databricksとの

MLflowでGiskardを使ってLLMを評価しよう!

過去数年間、大規模言語モデル (LLM) は、トランスフォーマーベースのアーキテクチャと大規模なデータセットでの広範なトレーニングにより、自然言語の分野を再形成してきました。 特に、検索拡張世代(RAG)は著しい増加を経験しており、ベクトルデータベースとLLMを組み合わせて企業データを効果的に探索および検索するための一般的な方法に急速に普及しています。 一般的なアプリケーションとしては、顧客サポートボット、社内ナレッジグラフ、Q&A システムの開発などがあります。 しかし、この驚異的な進歩はさまざまな課題も生み出しており、最も顕著なものの 1 つは、生成された出力をテストおよび検証するという複雑な作業です。 ---- LLMのアウトプットの品質をどのように測定するのですか? ---- 慎重に作成されたプロンプトがうっかり対抗できなかった可能性のある隠れた脆弱性を明らかにするにはどうすればよいでしょうか? ---- 特定のユースケースに合わせてテスト、メトリック、敵対的プロンプトを自動的に生成するにはどうす