Databricks ブログ

ページ 30

DatabricksデータインテリジェンスプラットフォームとHiddenLayerモデルスキャナによるサードパーティ製モデルの安全なデプロイ

April 5, 2024 アルン・パムラパティ、デビッド・ウェルズ、Neil Archibald、ヒエップ・ダンによる投稿 in プラットフォーム

イントロダクション組織が機械学習、AI、および大規模言語モデル（LLM）を導入する能力は、「モデル動物園」の普及のおかげで近年加速しています。これは、画像認識、自然言語処理、社内チャットボット、アシスタントなどに関する最先端の能力を備えた事前トレーニング済みのモデル/LLM が含まれる Hugging Face や TensorFlow Hub などのパブリックリポジトリを指します。サードパーティモデルのサイバーセキュリティリスクモデル動物園は便利ですが、悪意のある行為者が悪意のある利益のためにパブリックリポジトリのオープンな性質を悪用する可能性があります。例えば、私たちのパートナーである HiddenLayer 社による最近の研究では、公開されている機械学習モデルがランサムウェアによって武器化される可能性や、攻撃者が HuggingFaceのサービスを乗っ取り、プラットフォームに提出されたモデルをハイジャックする可能性を特定しました。これらのシナリオは、トロイの木馬によるモデルと、モデルのサ

未来を照らす：コンピュータービジョンを使用した電力網資産の分析におけるDatabricksの能力を明らかにする

April 4, 2024 デビッド・ラドフォード、アンドリュー・アレクサンダーによる投稿 in 業界

電力・公益事業業界におけるイノベーションは、国家電力網の進化を前進させるために必要不可欠なステップであり、このイノベーションを促進するためには新たな事業モデルが必要です。エネルギーシステムのあらゆる部分が、一次元の電力の流れから、スマートメーターや動的価格設定モデルのような業界の他の変化とともに、新しい風力発電や太陽光発電、EVやバッテリーの利用をサポートする動的な2日送電網へと移行しています。送電網のオペレーション、運用、管理におけるこの変化の一環として、電力会社や公益事業者は、送電網の資産を管理し、データを収集し、何世代にもわたってほとんど同じ方法で運用されてきた業界を自動化する新しい方法を模索しています。テクノロジーの進歩によって推進される時代において、業界全体が最先端ツールの可能性を活用し、業務に革命をもたらしています。現代社会の中枢を担う電力・公益部門も例外ではありません。コンピュータービジョン技術の出現により、重要なインフラストラクチャを効率的に管理・監視するための新たなフロンティアが出現し

Unity Catalog ガバナンスの実際の動作：モニタリング、レポーティング、リネージ

April 3, 2024 アリ・カプラン、パール鵜原による投稿 in プラットフォーム

Databricks Unity Catalog（UC）は、クラウドやデータプラットフォームにわたる企業のすべてのデータとAI資産に対して、単一の統合ガバナンスソリューションを提供します。このブログでは、 Unity Catalog Governance Value Levers（ガバナンス・バリュー・レバー）をより深く掘り下げ、包括的なデータとAIのモニタリング、レポーティング、リネージを通じて、具体的にどのようにポジティブなビジネス成果を実現しているかを紹介します。従来の非統合ガバナンスに伴う全体的な課題 Unity Catalog Governance Value Levers ブログでは、情報セキュリティ、アクセス制御、利用監視、ガードレールの制定、データ資産からの「唯一の信頼できる情報源」の洞察の取得など、ガバナンスの組織的重要性の「理由」について議論しました。 Databricks UCがなければ、従来のガバナンスソリューションではもはやニーズに対応できません。議論された主な課題には、複数のベ

AIを活用した金融サービスにおけるデータガバナンスのシンプル化

April 3, 2024 アントワーヌ・アメンド（Antoine Amend）、ロビン・スタラ、アンナ・キュイジアによる投稿 in 業界

データが急速に増加し、金融機関がAIや生成AIモデルにデータを活用することへの圧力が高まる中、データガバナンスの重要性はますます高まっています。欧州連合（EU）議会が包括的なAI規制を可決し、米国連邦政府がAI利用を規制する措置を講じるなど、規制当局がAIの応用に関心を寄せています。これは、AI規制の重要性の高まりを浮き彫りにしています。（詳しくは、Databricksのブログ「展開中のAI規制への対応をデータインテリジェンスプラットフォームが支援」にまとめられています）データガバナンスは基礎であり、生成AIの使用に先立つものです。データガバナンスがなければ、金融機関は規制上の要求を満たすことも、AIの結果を説明することも、アルゴリズムやデータ中心のバイアスを制御することもできません。 AIモデルがより複雑になるにつれ、それらをどのように管理し、社内外のデータ資産とどのように相互作用させるかを検討することが極めて重要になります。データガバナンスは生成AIよりも前に考えるべき重要な基盤データとテクノ

SQLウェアハウスにおけるDatabricksノートブックの一般提供開始について

March 29, 2024 ジェイソン・メッサー、ジャッキー・ザン、ミランダ・ルナによる投稿 in プラットフォーム> 製品> お知らせ

本日、SQLウェアハウス上のDatabricksノートブックの一般提供を発表できることを嬉しく思います。Databricks SQLウェアハウスはSQLに最適化されたコンピュートで、標準的なインタラクティブクラスタと比較して最大 12倍の価格パフォーマンスを提供します。また、ノートブックを活用することで、Gitバックアップ、マルチステートメント、パラメータ化されたSQLを記述し、スケジューリングすることができます。 Databricks SQLの勢いここ数年、レイクハウス向けに構築されたデータウェアハウスであるDatabricks SQL（DBSQL）の普及と成長は目覚しいものがあります。DBSQL は、 Akamai 、 T-Mobile 、 CRED といった大手企業が、世界中のあらゆる規模の最新アナリティクスのユースケースに対応し、イノベーションを推進する上で役立っています。 SQLウェアハウス上のノートブックは、データ実務者に強力なDatabricksノートブックを使用する柔軟性を提供し

NHLチーム向けマネージドSportlogiqからDatabricksへのデータ取り込みパイプライン：ゲームを変えるアライアンス

March 29, 2024 エドワード・エドワードワース、コナー・ベイリー、Samwel Emmanuel による投稿 in 業界

概要競争の激しいプロホッケーの世界では、NHLチームは常にパフォーマンスの最適化を追求しています。高度なアナリティクスは、この追求においてますます重要になっています。サードパーティのデータベンダーは、大量の生データやビデオ映像を処理するために、コンピュータビジョンや機械学習などの最先端技術を採用しています。その目的は、各試合から詳細な洞察を引き出すことです。こうした細部を総合的に分析することが、勝敗を分けることも少なくありません。この分野で注目すべきベンダーのひとつが、モントリオールに本社を置くSportlogiq社です。特許を取得したコンピュータービジョンと機械学習技術を活用し、通常は人間の観察範囲を超えるようなデータを取得・分析します。 Sportlogiqは、スポーツチームやリーグ、メディア、パフォーマンス向上企業など、NHLのさまざまな事業体に包括的な分析サービスとトラッキングデータを提供しています。しかし、NHLチームがSQL分析を実施し、プレッシャー下での選手の意思決定能力など、特殊な

State Reader APIの発表：新しい "Statestore" データソース

March 28, 2024 クレイグ・ルカシック、イム・ジョンテクによる投稿 in エンジニアリングのブログ

Databricks Runtime 14.3には、構造化ストリーミングの内部ステートデータへのアクセスと分析を可能にする新しい機能、 State Reader API が含まれています。 State Reader APIは、JSON、CSV、Avro、Protobufなどのよく知られた Sparkデータフォーマットとは一線を画しています。その主な目的は、ステートフルな構造化ストリーミングワークロードの開発、デバッグ、トラブルシューティングを容易にすることです。 Apache Spark 4.0.0（今年後半にリリース予定）には、State Reader APIが含まれます。新しいAPIはどのような課題に対応しているのか？ Apache Spark™...

「DBRX」を発表: オープンソース大規模言語モデルのスタンダードとして

March 27, 2024 Jonathan Frankle、Ali Ghodsi、ナヴィーン・ラオ、Hanlin Tang、Abhinav Venigalla、Matei Zaharia による投稿 in Databricks ブログ

Databricksのミッションは、「組織が独自のデータを理解し、使用して独自のAIシステムを構築できるようにすること」です。つまりはすべての企業にデータインテリジェンスを提供することです。本日、このミッションの達成へと大きく踏み出すため、 Mosaic Research チームによって構築された汎用の大規模言語モデル（LLM）であるDBRXをオープンソース化します。このモデルは、標準的なベンチマークにおいて既存のすべてのオープンソースモデルを凌駕しています。オープンソースモデルの限界を押し広げることが、すべての企業に対してカスタマイズ可能で透明性のある生成AIを可能にすると私たちは信じています。私たちが「DBRX」に興奮するのには、3つの明確な理由があります。まず第一に、言語理解、プログラミング、数学、論理において、LLaMA2-70B、Mixtral、Grok-1などのオープンソースモデルを圧倒しています（図1参照）。実際、私たちのオープンソースベンチマーク「 Gauntlet 」には、30以上の異な

DBRXのご紹介：最新のオープンLLM

March 27, 2024 モザイク調査チームによる投稿 in モザイクリサーチ

本日、Databricksが開発したオープンで汎用的なLLM、DBRXをご紹介します。 DBRXは、さまざまな標準ベンチマークにおいて、確立されたオープンLLMの新たな最先端を打ち立てました。さらに、これまでクローズドモデルのAPIに限られていた機能を、オープンコミュニティや独自のLLMを構築する企業に提供します。私たちの測定によると、GPT-3.5を上回り、Gemini 1.0 Proに引けを取りません。汎用LLMとしての強みに加え、CodeLaMA-70Bのようなプログラミングに特化したモデルを凌ぐ、特に優れたコードモデルです。この最先端の品質は、訓練と推論の性能の著しい向上とともにもたらされます。 DBRXは、そのきめ細かなMoE（Mixture-of-Experts; 専門家混合）アーキテクチャにより、オープンモデルの中で最先端の効率性を実現しています。推論はLLaMA2-70Bの2倍速く、DBRXはGrok-1の約40%のサイズです。 Mosaic AI Model Serving上でホストされ

次世代の消費者体験を提供：DatabricksとAdobeが戦略的パートナーシップを発表

March 26, 2024 Steve Sobel による投稿 in 業界

Steve Sobel - グローバルインダストリーリーダー、コミュニケーション、メディア & エンターテインメントによる記事本日、DatabricksとAdobeは戦略的パートナーシップを発表し、両社の顧客がデータの価値をより良く引き出し、よりスマートな消費者体験をスケールアップして提供できるよう支援することを発表します。お客様は、DatabricksデータインテリジェンスプラットフォームとAdobe Experience Platformおよびそのアプリケーションの間でデータをシームレスにマージし、DatabricksとAdobeの間に独自のモデルを持ち込むことができます。 DatabricksのデータインテリジェンスプラットフォームとAdobeの革新的なデジタルエクスペリエンスソリューションの融合は、あらゆる規模、あらゆる業種の企業にとって、大きな可能性を解き放つことを約束します。この技術的な話の基礎となるのは、レイクハウスのパラダイムを構築することです。 Adobe Experience