「DBRX」を発表: オープンソース大規模言語モデルのスタンダードとして
Databricksのミッションは、「組織が独自のデータを理解し、使用して独自のAIシステムを構築できるようにすること」です。つまりはすべての企業にデータインテリジェンスを提供することです。 本日、このミッションの達成へと大きく踏み出すため、 Mosaic Research チームによって構築された汎用の大規模言語モデル(LLM)であるDBRXをオープンソース化します。このモデルは、標準的なベンチマークにおいて既存のすべてのオープンソースモデルを凌駕しています。オープンソースモデルの限界を押し広げることが、すべての企業に対してカスタマイズ可能で透明性のある生成AIを可能にすると私たちは信じています。 私たちが「DBRX」に興奮するのには、3つの明確な理由があります。 まず第一に、言語理解、プログラミング、数学、論理において、LLaMA2-70B、Mixtral、Grok-1などのオープンソースモデルを圧倒しています(図1参照)。実際、私たちのオープンソースベンチマーク「 Gauntlet 」 には、30以上の異な
LilacがDatabricksに参画:生成AIの非構造化データ評価をシンプル化
本日、LilacがDatabricksに参画することを発表できることを嬉しく思います。 Lilacは、データサイエンティストが生成AIを中心にあらゆる種類のテキストデータセットを検索、クラスタリング、分析するためのスケーラブルでユーザーフレンドリーなツールです。 Lilacは、大規模言語モデル(LLM)の出力の評価から、モデルのトレーニングのための非構造化データセットの理解と準備まで、さまざまなユースケースに使用できます。 LilacのツールをDatabricksに統合することで、顧客は自社の企業データを使用した生産品質の生成AIアプリケーションの開発を加速させることができます。 生成AI時代のデータ探索と理解 データは、モデルのトレーニングのためのデータセットの準備、モデルの出力の評価、RAG(Retrieval-Augmented Generation)データのフィルタリングなど、LLMベースのシステムの中核をなすものです。 これらのデータセットを探索し理解することは、質の高い生成AIアプリを構築する上で非常