AIを活用した金融サービスにおけるデータガバナンスのシンプル化
データが急速に増加し、金融機関がAIや生成AIモデルにデータを活用することへの圧力が高まる中、データガバナンスの重要性はますます高まっています。 欧州連合(EU)議会が包括的なAI規制を可決し、米国連邦政府がAI利用を規制する措置を講じるなど、規制当局がAIの応用に関心を寄せています。 これは、AI規制の重要性の高まりを浮き彫りにしています。(詳しくは、Databricksのブログ「 展開中のAI規制への対応をデータインテリジェンスプラットフォームが支援 」にまとめられています) データガバナンスは基礎であり、生成AIの使用に先立つものです。 データガバナンスがなければ、金融機関は規制上の要求を満たすことも、AIの結果を説明することも、アルゴリズムやデータ中心のバイアスを制御することもできません。 AIモデルがより複雑になるにつれ、それらをどのように管理し、社内外のデータ資産とどのように相互作用させるかを検討することが極めて重要になります。 データガバナンスは生成AIよりも前に考えるべき重要な基盤 データとテクノ
SQLウェアハウスにおけるDatabricksノートブックの一般提供開始について
本日、SQLウェアハウス上のDatabricksノートブックの一般提供を発表できることを嬉しく思います。Databricks SQLウェアハウスはSQLに最適化されたコンピュートで、 標準的なインタラクティブクラスタと比較して 最大 12倍の価格パフォーマンス を 提供 します。 また、ノートブックを活用することで、Gitバックアップ、マルチステートメント、パラメータ化されたSQLを記述し、スケジューリングすることができます。 Databricks SQLの勢い ここ数年、レイクハウス向けに構築されたデータウェアハウスであるDatabricks SQL(DBSQL)の普及と成長は目覚しいものがあります。DBSQL は、 Akamai 、 T-Mobile 、 CRED といった大手企業が 、世界中のあらゆる規模の最新アナリティクスのユースケースに対応し、イノベーションを推進する上で役立って います。 SQLウェアハウス上のノートブックは、データ実務者に強力なDatabricksノートブックを使用する柔軟性を提供し
NHLチーム向けマネージドSportlogiqからDatabricksへのデータ取り込みパイプライン:ゲームを変えるアライアンス
概要 競争の激しいプロホッケーの世界では、NHLチームは常にパフォーマンスの最適化を追求しています。 高度なアナリティクスは、この追求においてますます重要になっています。 サードパーティのデータベンダーは、大量の生データやビデオ映像を処理するために、コンピュータビジョンや機械学習などの最先端技術を採用しています。 その目的は、各試合から詳細な洞察を引き出すことです。 こうした細部を総合的に分析することが、勝敗を分けることも少なくありません。 この分野で注目すべきベンダーのひとつが、モントリオールに本社を置くSportlogiq社です。 特許を取得したコンピュータービジョンと機械学習技術を活用し、通常は人間の観察範囲を超えるようなデータを取得・分析します。 Sportlogiqは、スポーツチームやリーグ、メディア、パフォーマンス向上企業など、NHLのさまざまな事業体に包括的な分析サービスとトラッキングデータを提供しています。 しかし、NHLチームがSQL分析を実施し、プレッシャー下での選手の意思決定能力など、特殊な
State Reader APIの発表:新しい "Statestore" データソース
Databricks Runtime 14.3には、 構造化ストリーミング の内部ステートデータへのアクセスと分析を可能にする新しい機能、 State Reader API が含まれています。 State Reader APIは、JSON、CSV、Avro、Protobufなどのよく知られた Sparkデータフォーマット とは一線を画しています。 その主な目的は、ステートフルな構造化ストリーミングワークロードの開発、デバッグ、トラブルシューティングを容易にすることです。 Apache Spark 4.0.0(今年後半にリリース予定)には、State Reader APIが含まれます。 新しいAPIはどのような課題に対応しているのか? Apache Spark™...
「DBRX」を発表: オープンソース大規模言語モデルのスタンダードとして
Databricksのミッションは、「組織が独自のデータを理解し、使用して独自のAIシステムを構築できるようにすること」です。つまりはすべての企業にデータインテリジェンスを提供することです。 本日、このミッションの達成へと大きく踏み出すため、 Mosaic Research チームによって構築された汎用の大規模言語モデル(LLM)であるDBRXをオープンソース化します。このモデルは、標準的なベンチマークにおいて既存のすべてのオープンソースモデルを凌駕しています。オープンソースモデルの限界を押し広げることが、すべての企業に対してカスタマイズ可能で透明性のある生成AIを可能にすると私たちは信じています。 私たちが「DBRX」に興奮するのには、3つの明確な理由があります。 まず第一に、言語理解、プログラミング、数学、論理において、LLaMA2-70B、Mixtral、Grok-1などのオープンソースモデルを圧倒しています(図1参照)。実際、私たちのオープンソースベンチマーク「 Gauntlet 」 には、30以上の異な
DBRXのご紹介:最新のオープンLLM
本日、Databricksが開発したオープンで汎用的なLLM、DBRXをご紹介します。 DBRXは、さまざまな標準ベンチマークにおいて、確立されたオープンLLMの新たな最先端を打ち立てました。 さらに、これまでクローズドモデルのAPIに限られていた機能を、オープンコミュニティや独自のLLMを構築する企業に提供します。私たちの測定によると、GPT-3.5を上回り、Gemini 1.0 Proに引けを取りません。 汎用LLMとしての強みに加え、CodeLaMA-70Bのようなプログラミングに特化したモデルを凌ぐ、特に優れたコードモデルです。 この最先端の品質は、訓練と推論の性能の著しい向上とともにもたらされます。 DBRXは、そのきめ細かなMoE(Mixture-of-Experts; 専門家混合)アーキテクチャにより、オープンモデルの中で最先端の効率性を実現しています。 推論はLLaMA2-70Bの2倍速く、DBRXはGrok-1の約40%のサイズです。 Mosaic AI Model Serving上でホストされ
次世代の消費者体験を提供:DatabricksとAdobeが戦略的パートナーシップを発表
Steve Sobel - グローバルインダストリーリーダー、コミュニケーション、メディア & エンターテインメントによる記事 本日、DatabricksとAdobeは戦略的パートナーシップを発表し、両社の顧客がデータの価値をより良く引き出し、よりスマートな消費者体験をスケールアップして提供できるよう支援することを発表します。 お客様は、DatabricksデータインテリジェンスプラットフォームとAdobe Experience Platformおよびそのアプリケーションの間でデータをシームレスにマージし、DatabricksとAdobeの間に独自のモデルを持ち込むことができます。 DatabricksのデータインテリジェンスプラットフォームとAdobeの革新的なデジタルエクスペリエンスソリューションの融合は、あらゆる規模、あらゆる業種の企業にとって、大きな可能性を解き放つことを約束します。 この技術的な話の基礎となるのは、 レイクハウスのパラダイム を構築することです。 Adobe Experience
Deloitte Data as a Service for Banking: 銀行と資本市場機関のための最新のデータソリューション
顧客の期待の高まりとともに新たな生成AI機能が登場し続ける中、データの近代化とクラウドへの移行は、金融サービス企業にとって重要な成功要因となっています。 結局のところ、生成AIを最大限に活用するには、最適化されたデータが必要です。 銀行組織は、完全な顧客プロフィールに基づく商品のアップセルや、不正行為のリアルタイムなフラグ付けと防止など、データから価値を引き出すことができます。 しかし、多くの金融機関のデータはサイロ化されたシステムに滞留しており、その可能性を実 現できていません。 データの調達、整理、管理には幅広いアプローチが必要です。 データのモダナイズが不可欠に 顧客調査や市場調査によると、データのモダナイズは不可欠であり、銀行は新たな課題を克服するために最新のバンキング・データ・ソリューションを必要としています。 今後数年間で、データ・イニシアティブに50億ドル以上が費やされ、その60%は重要なデータのモダナイズの取り組みに費やされます。 残念ながら、レガシーシステムと新しいデータソリューションの接続には時
2023年のPySpark:1年を振り返って
2023年にリリースされたApache Spark 3.4と3.5で、私たちはPySparkのパフォーマンス、柔軟性、使いやすさの改善に重点を置きました。 このブログ記事では、主な改善点をご紹介します。 2023年にApache Spark 3.4と3.5で追加された最も重要 な機能の概要です: Spark Connect は、任意のアプリケーションからSparkクラスタへのリモート接続を可能にする、クライアントとサーバーを分離したアーキテクチャを導入しています。 これにより、サービスとしてのSparkは、安定性、アップグレード可能性、可観測性を高めながら実現されます。 Arrowに最適化されたPythonユーザー定義関数(UDF )では、Arrowのカラムナーフォーマットを活用することで、通常のPython UDFの2倍のパフォーマンスを実現し、飛躍的な効率の向上を示しました。 Pythonのユーザー定義テーブル関数(UDTF) により、ユーザーはPySparkでネイティブにテーブルベースの変換を実行できるように
GGML GGUF ファイルフォーマットの脆弱性
GGUFファイルフォーマット は、GGMLライブラリのモデル重みの保存と読み込みに使用されるバイナリファイルフォーマットです。 ライブラリのドキュメントには、以下のような形式が記述されています: "GGUFは、GGMLによる推論のためのモデルや、GGMLに基づく実行形式を保存するためのファイルフォーマットです。 GGUFは、モデルの読み込みと保存を高速化し、読みやすくするために設計されたバイナリフォーマットです。 モデルは伝統的にPyTorchや他のフレームワークを使用して開発され、GGMLで使用するためにGGUFに変換されます。" GGUF フォーマットは、学習済みの機械学習モデルを配布 するために最近普及しており、低レベルのコンテキストからモデルを利用する際に、Llama-2で最も一般的に使用されるフォーマットの1つとなっています。 llama.cpp、pythonの llm モジュール、Huggingfaceのようなggufファイルをロードするときの ctransformers ライブラリなど、このローダーに