調査:Databricks Assistant による生産性の向上
データ サイエンスとエンジニアリングの急速に進歩する分野では、生産性を向上させるために人工知能 (AI) の統合が不可欠になっています。 数多くのツールが登場し、データ実務者の生活を一変させ、複雑なタスクを容易にし、イノベーションを促進してきました。 2023 年 7 月に Databricks Assistant をパブリック プレビューでリリースしたとき、私たちはデータ サイエンティスト、アナリスト、エンジニア間の効率を合理化することのみを目的として設計しました。 この目標をどの程度達成しているかをよりよく理解するために、経験の異なる複数の組織のトップユーザーを対象に調査を行うことにしました。 調査の目的 Databricks Assistant がデータ プロフェッショナルに与える影響をより深く理解するために、幅広いユーザー エクスペリエンスを捉えられるようにこの調査を綿密に設計しました。 このアンケートを実施した目的は、アシスタントがユーザーの日常生活に与える影響をよりよく理解するだけでなく、アシスタント
Mosaic AI TrainingでDBRX級のカスタムLLMを構築しよう!
私たちは最近、 DBRX という最新の汎用LLM(大規模言語モデル)を発表しました。DBRXは、Mosaic AI Trainingを使用してトレーニング、ファインチューニング、および評価されました。トレーニングは3072台のNVIDIA H100を使用してスケーリングされ、処理したトークン数は12兆を超えました。 LLMのトレーニング、特にDBRXのようなMoE(専門家の集合)モデルのトレーニングは難しいです。これには、多くのインフラ、パフォーマンス、科学的な課題を克服する必要があります。Mosaic AI Trainingはこれらの課題に対応するために意図的に構築され、 DBRX 、 MPTシリーズのモデル 、および Ola の Krutrim 、 AI2 の OLMo 、 Dynamo AIの...
Databricks で Text2SQL のパフォーマンスを簡単に向上
Databricksでの巧みなプロンプトとファインチューニングにより、Llama3 8B で Spider dev データセットの 79.9% に到達した方法。
Databricks モデルサービングの新たなアップデートで生成 AI アプリ開発を加速
昨年、 Databricksモデルサービングにおける 基盤モデルのサポート を開始し 、企業が統合データおよび AI プラットフォーム上で安全でカスタマイズされた生成 AI アプリを構築できるようにしました。 それ以来、何千もの組織がモデルサービングを使用して、独自のデータセットに合わせてカスタマイズされた生成 AI アプリを展開してきました。 本日、生成 AI アプリの実験、カスタマイズ、展開を容易にする新しいアップデートを発表できることを嬉しく思います。 これらの更新には、新しい大規模言語モデル (LLM) へのアクセス、より簡単な検出、よりシンプルなカスタマイズ オプション、および改善された モニタリング が含まれます。 これらの改善により、生成 AI...
モザイク評価ガントレットのキャリブレーション
良いベンチマークとは、どのモデルが優れていて、どのモデルが劣っているかを明確に示すものです。 Databricks Mosaic Researchチームは、研究者が実験を評価するための優れた測定ツールを見つけることに専念しています。 モザイク評価ガントレットは、モデルの質を評価するためのベンチマークセットで、言語理解、読解力、記号的問題解決、世界知識、常識、プログラミングの6つのコアコンピテンシーにまたがる39の公開ベンチマークで構成されています。 モデル規模を超えた研究タスクに最も有用なメトリクスに優先順位をつけるため、一連の高度なモデルを使用してベンチマークをテストしました。 最近の研究、特に DeepMindのChinchilla論文 では 、 パラメータ数と学習データサイズの両方を増やすことで言語モデルをスケールアップすると、性能が大幅に向上することが実証 されています。信頼できるベンチマ ークセットを特定するには、モデルの性能とスケールの間に確立された関係を活用します。スケーリング法則は個々のベンチマーク