Articles by ハンリン・タン - Databricks ブログ

ページ 1

「DBRX」を発表: オープンソース大規模言語モデルのスタンダードとして

March 27, 2024 ジョナサン・フランクル、アリ・ゴディシ、ナヴィーン・ラオ、ハンリン・タン、Abhinav Venigalla、Matei Zaharia による投稿 in Databricks ブログ

Databricksのミッションは、「組織が独自のデータを理解し、使用して独自のAIシステムを構築できるようにすること」です。つまりはすべての企業にデータインテリジェンスを提供することです。本日、このミッションの達成へと大きく踏み出すため、 Mosaic Research チームによって構築された汎用の大規模言語モデル（LLM）であるDBRXをオープンソース化します。このモデルは、標準的なベンチマークにおいて既存のすべてのオープンソースモデルを凌駕しています。オープンソースモデルの限界を押し広げることが、すべての企業に対してカスタマイズ可能で透明性のある生成AIを可能にすると私たちは信じています。私たちが「DBRX」に興奮するのには、3つの明確な理由があります。まず第一に、言語理解、プログラミング、数学、論理において、LLaMA2-70B、Mixtral、Grok-1などのオープンソースモデルを圧倒しています（図1参照）。実際、私たちのオープンソースベンチマーク「 Gauntlet 」には、30以上の異な

LilacがDatabricksに参画：生成AIの非構造化データ評価をシンプル化

March 19, 2024 Matei Zaharia、ナヴィーン・ラオ、ジョナサン・フランクル、ハンリン・タン、アキル・グプタによる投稿 in Databricks ブログ

本日、LilacがDatabricksに参画することを発表できることを嬉しく思います。 Lilacは、データサイエンティストが生成AIを中心にあらゆる種類のテキストデータセットを検索、クラスタリング、分析するためのスケーラブルでユーザーフレンドリーなツールです。 Lilacは、大規模言語モデル（LLM）の出力の評価から、モデルのトレーニングのための非構造化データセットの理解と準備まで、さまざまなユースケースに使用できます。 LilacのツールをDatabricksに統合することで、顧客は自社の企業データを使用した生産品質の生成AIアプリケーションの開発を加速させることができます。生成AI時代のデータ探索と理解データは、モデルのトレーニングのためのデータセットの準備、モデルの出力の評価、RAG（Retrieval-Augmented Generation）データのフィルタリングなど、LLMベースのシステムの中核をなすものです。これらのデータセットを探索し理解することは、質の高い生成AIアプリを構築する上で非常

Databricksで高品質のRAGアプリケーションを作成する

December 6, 2023 Patrick Wendell（パトリック・ウェンデル）、ハンリン・タンによる投稿 in お知らせ

RAG（Retrieval-Augmented-Generation ）は、独自のリアルタイムデータを LLM（Large Language Model）アプリケーションに組み込む強力な方法として、急速に台頭してきた。本日Databricksユーザーが企業データを使用して高品質な本番LLMアプリケーションを構築するためのRAGツール群を発表できることを嬉しく思う。 LLMは、新しいアプリケーションを迅速にプロトタイプ化する能力において、大きなブレークスルーをもたらした。しかし、RAGアプリケーションを構築している何千もの企業と仕事をした結果、彼らの最大の課題は、これらのアプリケーションを本番で用いることができる品質にすることであることがわかった。顧客向けアプリケーションに要求される品質基準を満たすためには、AIの出力は正確で、最新で、そして企業のコンテキストを認識し、安全でなければならない。高品質なRAGアプリケーションを構築するためには、開発者はデータとモデル出力の品質を理解するための豊富なツール