Databricks ブログ

ページ 31

Coastal Community Bank、Databricksのデータインテリジェンスプラットフォームを用いて充実した金融エコシステムを構築

March 4, 2024 Giselle Goicochea、アンナ・キュイジアによる投稿 in 業界

Coastal Community Bank（Coastal）のSVP、Head of Technology Operations and ImplementationのBarb MacLean氏とCavallo TechnologiesのRob Cavallo社長に感謝します。ゴリアテのコミュニティ・バンクとして繁栄ある意味で、コミュニティ・バンクであることがこれほど厳しくなったことはありません。米国では現在、上位15行が業界の預金と資産の大半を支配しており、大手5行で総資産の56 ％を管理しています。さらに、中小銀行に対する規制上の要求も高まっており、大手の競争相手と同じような厳しい資本、報告、マネーロンダリング防止基準に従うことが求められています。 Coastal Community Bank（Coastal）のSVP、テクノロジー・オペレーションおよびインプリメンテーションの責任者であるBarb MacLean氏にとって、その解決策はサービスとしての銀行（BaaS）です。 CoastalがDe

よりスマートな製造：生成AIの合理化におけるガバナンスの役割

March 4, 2024 シヴ・トリサル、ケイトリン・ゴードンによる投稿 in 業界

人工知能（AI）は、企業が生産し、顧客が接するあらゆる製品やサービスに組み込まれるようになるでしょう。生成AIによって、私たちは今、あらゆる企業の競争優位に貢献するデータ & AIイニシアチブへの期待が高まる時代に突入しています。データガバナンスは、企業が競争上の優位性を生み出し、それを維持するために成功するためには、絶対に欠かせないものです。今日のダイナミックな状況において、データガバナンスの重要性を見過ごすことはできません。なぜかというと、優れたAIは優れたデータから生まれるからです。適切なガバナンスがなければ、良いデータを確保することはできません。しかし、データガバナンスには大きな問題があります。「プリンセス・ブライド」で有名なハリウッドのキャラクター、イニゴ・モントーヤから引用します。「データガバナンス...。あなたはこの言葉を使い続けています。私は、それはあなたが思っているような意味ではないと思います！」。これは、データガバナンスという用語があまりに不定形になりすぎて、それが何な

Cloudflare R2統合によるDelta Sharingのパブリックプレビューを発表

February 29, 2024 Tianyi Huang、Giselle Goicochea、フィリップ・ジョーンズ、ハーシャル・ブラムバットによる投稿 in プラットフォームブログ

CloudflareのシニアプロダクトマネージャーPhillip JonesとシステムエンジニアHarshal Brahmbhattに感謝します。あらゆる業界の組織は、クラウドや地域に関係なく、単一で統一された方法でデータやAI資産を共有したいと考えています。しかし、多くの企業が顧客、チーム、パートナーとのデータ共有に苦戦しており、プラットフォームの互換性の問題や制限、高いデータ送信コスト、ガバナンスとセキュリティの欠如に直面しています。 Databricks と Linux Foundation は、安全なデータ共有のための最初のオープンなアプローチとして Delta Sharing を開発しました。お客様は、レプリケーションを必要とせず、プラットフォーム、クラウド、地域間で簡単かつ安全にデータを共有するために、Delta Sharingを使用しています。本日、Cloudflare R2との Delta Sharing のパブリックプレビューを発表し、お客様がクラウドやリージョンを越えてデータを共有し、

Apache Spark 構造化ストリーミングにおけるステートフルパイプラインの最新パフォーマンス改善へのディープダイブ

February 28, 2024 Mojgan Mazouchi、ムリティウンジャイ・クマール、アニッシュ・シュリゴンデカー、カーティケヤン・ラマサミによる投稿 in エンジニアリングのブログ

この投稿は、ステートフル・パイプラインの最新のパフォーマンス改善に関する2部構成のシリーズの第2部です。このシリーズの最初の部分は、 Apache Spark 構造化ストリーミングにおけるステートフルパイプラインのパフォーマンス改善でカバーされています。 Project Lightspeedの更新ブログでは、ステートフルパイプラインに追加したさまざまなパフォーマンス改善の概要を紹介しました。このセクションでは、パフォーマンス分析中に観察されたさまざまな問題を掘り下げ、それらの問題に対処するために実施した具体的な機能強化の概要を説明します。 RocksDBステートストア・プロバイダの改善メモリ管理 RocksDBは主にメモリを memtables 、ブロックキャッシュ、その他のピン留めブロックに使用します。以前は、マイクロバッチ内のすべての更新は、 WriteBatchWithIndex を使用してメモリにバッファリングされていました。さらに、ユーザーは書き込みバッファとブロックキャッシュの使用に

Apache Spark 構造化ストリーミングにおけるステートフルパイプラインのパフォーマンス改善

February 27, 2024 Mojgan Mazouchi、ムリティウンジャイ・クマール、アニッシュ・シュリゴンデカー、カーティケヤン・ラマサミによる投稿 in エンジニアリングのブログ

イントロダクション Apache Spark™ の構造化ストリーミングは、Spark SQLエンジン上に構築された、スケーラビリティと耐障害性を提供する人気のオープンソースストリーム処理プラットフォームです。 Databricksレイクハウスプラットフォーム上のほとんどの増分的およびストリーミングワークロードは、 Delta Live Tables および Auto Loader を含む構造化ストリーミングを利用しています。ここ数年、あらゆる業界における多様なユースケースにおいて、構造化ストリーミングの使用と採用が飛躍的に伸びています。 Databricksでは、1週間に1,400万以上の構造化ストリーミングジョブが実行されており、その数は年間2倍以上のペースで増加しています。ほとんどの構造化ストリーミングのワークロードは、分析ワークロードと運用ワークロード...

きめ細かなヒューマンフィードバック

February 27, 2024 プリトヴィーラージ（ラージ）・アンマナブロルによる投稿 in モザイクリサーチ

このブログ投稿では、 Fine-Grained RLHF について説明します。Fine-Grained RLHFは、密度と多様性という2つの異なる方法できめ細かい報酬関数から学習とトレーニングを可能にするフレームワークです。密度とは、全てのセグメント（例えば文章）が生成された後に報酬を提供することで達成されます。多様性は、異なるフィードバックタイプ（例えば、事実誤認、無関係、情報の不完全性）に関連する複数の報酬モデルを組み込むことによって達成されます。粒度の細かい報酬とは？ RLHF におけるこれまでの研究は、言語モデル（LM）出力の全体的な品質に関する人間の嗜好を収集することに重点を置いてきました。しかし、このような全体的なフィードバックは限られた情報しか提供しません。 NeurIPS 2023で発表した論文では、人間のフィードバック（例えば、どのサブセンテンスが無関係か、どのセンテンスが真実でないか、どのセンテンスが有害か）を明示的な学習信号として導入しました。 RLHFの報酬関数とは、テ

意識不明の患者問題：ヘルスケアとライフサイエンスにおけるエンティティ解決の重要性の考察

February 27, 2024 ティム・セドラック、アーロン・ザヴォラ、ルーク・ビルブロによる投稿 in 業界

このブログは、Stardogのシニア・ソリューション・アーキテクト、ティム・セドラックとの共同執筆です。ヘルスケアとライフサイエンスでは、正確さがすべてです。エンティティの解決（同じものを参照する複数のデータソースのレコードを特定、照合、統合するプロセス）に関しては、特にそうです。医療機関やライフサイエンス企業にとって、これは複雑かつ重要な課題です。幸いなことに、Databricks データインテリジェンスプラットフォームはこのような問題にも簡単に対応できます。この革新的なソリューションはレイクハウス・アーキテクチャで構築され、セマンティック・レイヤーとしてStardog Voiceboxを使用しています。医療における実体解決の重要性を示す実例を見てみましょう。そして、今日組織が直面している課題に対する解決策についてお話します。 ERにおける患者識別-最も重要なエンティティ解決あなたが救急外来の医師だとしましょう。意識不明の患者（交通事故の被害者）が緊急治療を必要としています。相手の命を救う可

テック・マーケティングに革命を

February 26, 2024 カルロス・トルヒーヨ、コーリー・アブシャー、ナイアル・オルトン、ダン・モリス、レイラ・ヤンによる投稿 in 業界

イントロダクション 1月4日、GoogleがサードパーティCookieの段階的な削除を開始し、デジタルマーケティングの新時代が始まりました。当初、この開発はChromeユーザーの1％にしか影響を与えていませんでしたが、これは来るべき事態の明確なシグナルといえます。サードパーティCookieの終焉は、デジタルマーケティングの新時代の到来を告げるものです。デジタルエコシステムが進化し続ける中、マーケティング担当者はエンゲージメントと成長へのアプローチを再考する必要があります。戦略を見直し、パーソナライズされた効果的なマーケティングを提供しながらも、ユーザーのプライバシーを優先する新しい方法論を取り入れる瞬間です。それと同時に、マーケティング分析において「私たちは何を求めているのか？」という疑問も生じます。クッキーは結局のところ、目的のための手段に過ぎなかったのです。これらのおかげで、私たちが信じていたマーケティングの効果を測定することができました。多くのマーケティング担当者と同様に、私たちは「広告

効率的なデータ管理によるサイバー耐性の強化：M-21-31への対応

February 22, 2024 ブレンダン・バーズネス、スジット・モハンティ、エリック・ポポウィッチによる投稿 in プラットフォームブログ

今日の環境では、積極的なサイバーセキュリティは公共機関にとって極めて重要です。多くの組織では、セキュリティ担当者が効果的な脅威の監視やインシデント対応に必要なログ・データに容易にアクセスできる場所がなかったり、サイロ化された部門に分散していたりします。場合によっては、データは短期間の運用目的のみのために保管される場合もあります。これは、効果的なセキュリティ管理能力を著しく制限し、重要なサイバー情報への安全なアクセスだけでなく、効果的なログ保持の必要性を強調しています。 2021年、ホワイトハウスは OMB M-21-31覚書を発表し、連邦政府機関はサイバーインシデントの検出、調査、修復を支援するため、情報システムのログを複数年にわたって保持することを義務付けました。これにより、政府機関が対処しなければならない複数の課題が生じます。第一に、M-21-31で要求される長期間に渡る大量のデータの保存は、特に比較的高コストのオンプレミスや独自の商用のストレージで行う場合、コストがかかります。さらに、一元化さ

Unity Catalog ボリュームの一般提供を開始しました！

February 21, 2024 アドリアナ・イスパス、エイドリアン・イオネスク、ボグダン・ラドゥカヌ、イナ・コレワ、サチン・タクール、ジェフ・フレッチャー、ショーン・スミスによる投稿 in プラットフォーム> 製品> お知らせ

本日、 Unity Catalog ボリュームが AWS、Azure、GCPで一般利用可能になったことを発表します。 Unity Catalog は、 Databricks Data Intelligence Platformにネイティブに組み込まれた、データおよびAI向けの統合ガバナンスソリューションを提供します。 Unity Catalog ボリュームを使用することで、データおよびAIチームは、表データやMLモデルだけでなく、非構造化データ、半構造化データ、構造化データなど、あらゆる種類のデータのカタログ化、セキュア化、管理、共有、リネージ追跡を一元的に行うことができます。このブログでは、Unity...