メインコンテンツへジャンプ
ページ 1
>
Generative AI

正確性、安全性、ガバナンス:生成AIをPOCからプロダクションに移行する方法

生成AIの企業導入に関して、ほとんどの組織は過渡期にあります。 私たちが話をした顧客の88% は、 現在、生成AIのパイロットプロジェクトを実行して いると述べていますが、大多数は、テスト環境から本番環境に実験を移行することに神経質になりすぎているとも述べています。 では、何がこの格差を引き起こしているのでしょうか? それがコストとリスクに関する懸念です。 以前は、IT投資を行う場合、企業は「構築すれば価値は後からやってくる」という考え方をすることができましたが、もう違います。現在は、新しいプロジェクトは、ビジネスにとって価値あるものを迅速に生み出すことが求められています。 かつては、役員や投資家はIT投資に対するリターンが得られるまで数年待っても構わなかったかもしれませんが、今ではわずか6ヶ月での進展を求めています。 企業は、生成AI開発コストのROIを懸念しているだけでなく、AIシステムが悪い結果や不正確な結果(ハルシネーションなど)を吐き出し、ビジネスに損害を与えたり、企業の機密情報が漏洩する可能性があるこ
Generative AI

ビジネスにおけるAIはデータインテリジェンスでどう変わるか

April 17, 2024 ミン・ヤン による投稿 in 生成 AI
AIは至る所に存在します。携帯電話にも、コンピューターにも、そしてニュースの見出しにも頻繁に登場します。 しかし、すべての見出しの背後で、ビジネスにおけるAIの利用が不可欠となっており、今後もその使用が無くなる兆しはありません。 では、データインテリジェンスの未来は、企業にとってのAIにどのような影響を与えるのでしょうか? 私たちは、AIが現在どのように活用されているのか、今後さまざまな業界でどのように活用される可能性があるのか、また、データ管理システムの内部と外部、そして独自の課題を探ることで、この問いに答え、データインテリジェンスがビジネスにおけるAIの活用にどのような革命をもたらすことができるのかを理解します。 ビジネスにおけるAI活用の現状 ワークフローの合理化からデータ分析まで、AIの活用はあらゆる規模、あらゆる業界のビジネスの主流となっています。 1. よりスマートなリスク管理 明確なリスク管理戦略を持つことは現代企業にとって必須ですが、個人が計画できることは限られています。 利用可能なデータの量が多
Generative AI

DBRXのご紹介:最新のオープンLLM

本日、Databricksが開発したオープンで汎用的なLLM、DBRXをご紹介します。 DBRXは、さまざまな標準ベンチマークにおいて、確立されたオープンLLMの新たな最先端を打ち立てました。 さらに、これまでクローズドモデルのAPIに限られていた機能を、オープンコミュニティや独自のLLMを構築する企業に提供します。私たちの測定によると、GPT-3.5を上回り、Gemini 1.0 Proに引けを取りません。 汎用LLMとしての強みに加え、CodeLaMA-70Bのようなプログラミングに特化したモデルを凌ぐ、特に優れたコードモデルです。 この最先端の品質は、訓練と推論の性能の著しい向上とともにもたらされます。 DBRXは、そのきめ細かなMoE(Mixture-of-Experts; 専門家混合)アーキテクチャにより、オープンモデルの中で最先端の効率性を実現しています。 推論はLLaMA2-70Bの2倍速く、DBRXはGrok-1の約40%のサイズです。 Mosaic AI Model Serving上でホストされ
Generative AI

トレーニングの高速化:FP8によるDatabricks Mosaic AIスタックの最適化

Databricksでは、あらゆる分野の世界最高の企業が、自社独自のデータに基づいてトレーニングされカスタマイズされたAI搭載システムを持つようになると考えています。 今日の企業は、独自のAIモデルをトレーニングすることで、競争上の優位性を最大限に高めることができます。 私たちは、企業が可能な限り迅速かつコスト効率よくAIを育成するための最良のプラットフォームを提供することをお約束します。 本日は、LLMスタックに施されたいくつかの大きな改良をご紹介します。これにより、お客様の事前トレーニングと微調整の効率が大幅に改善されました。 この投稿では、最新のスループット数値を紹介し、これらの結果を達成し、何千ものGPUに拡張するのに役立ったいくつかのテクニックについて説明します。 最新のベンチマーク結果 さっそく結果を見てみましょう。 図1は、BFloat16(BF16)とFP8(Float8)のデータ型を使用し、異なるモデルサイズでトレーニングを実行した場合に達成された1秒あたりの浮動小数点演算(FLOPS)を示して
Generative AI

高速、安全、高信頼性:エンタープライズグレードのLLM推論

イントロダクション 2023年のめまぐるしい発展の後、多くの企業がビジネスを加速させるために、ますます高性能になる生成AIモデルの採用に躍起になっています。 この推進には、最先端の大規模言語モデルをクエリし、企業の既存の業務の流れに組み込む能力が不可欠です。 これらのプロジェクトの主力は推論APIで、ユーザーがセキュアな環境にあるモデルにリクエストを送り、素早くレスポンスを受け取るための使いやすいインターフェースです。 私たちは、リアルタイムインタラクションの要求に合わせた最先端の推論システムを開発しました。このようなシステムの構築には、革新的なスケジューリング技術から、セキュリティや信頼性を含む新しい考慮事項まで、異なる原則のセットが必要です。このブログポストでは 、 前回のブログ で学んだことを 推論APIに取り入れることで、私たちの思考プロセスがどのように進化してきたかを説明します。 オンライン推論とユーザー体験にとって重要なこと パフォーマンスを最大化するために、推論リクエストはNVIDIAのA100およ
Generative AI

きめ細かなヒューマンフィードバック

このブログ投稿では 、 Fine-Grained RLHF について説明 します。Fine-Grained RLHFは、密度と多様性という2つの異なる方法できめ細かい報酬関数から学習とトレーニングを可能にするフレームワークです。 密度とは、全てのセグメント(例えば文章)が生成された後に報酬を提供することで達成されます。多様性は、異なるフィードバックタイプ(例えば、事実誤認、無関係、情報の不完全性)に関連する複数の報酬モデルを組み込むことによって達成されます。 粒度の細かい報酬とは? RLHF における これまでの 研究 は、 言語モデル(LM)出力の全体的な品質に関する人間の嗜好を収集することに重点を置いてきました。 しかし、このような全体的なフィードバックは限られた情報しか提供しません。 NeurIPS 2023で発表した論文 では、人間のフィードバック(例えば、どのサブセンテンスが無関係か、どのセンテンスが真実でないか、どのセンテンスが有害か)を明示的な学習信号として導入しました。 RLHFの報酬関数とは、テ
Generative AI

LIMIT:インストラクション・チューニングは「より少ないこと」が重要

汎用的な質問応答用の大規模言語モデルをどのようにファインチューニングすればよいのでしょうか? 興味深いアプローチの1つは、少数の高品質なサンプルに対する教師ありのファインチューニングです。 最近の LIMA("Less Is More for Alignment" ) 研究では、1,000の多様で質の高い質問と回答のペアでトレーニングするだけで、汎用的な指示の追従が達成できると大胆に主張しました。同時期の他のいくつかの研究でも、この種の「スタイルアライメント」のファインチューニングは、少数の質の高いサンプルで達成できると主張しています(例えば 、 Alpaca 、 Vicuna 、 Alpagasus 、および Tülü 、しかし、 The False Promise of...
Industries category icon 1

米空軍ハッカソン:大規模言語モデルが米空軍の飛行試験にどのような革命をもたらすか

[配布に関する声明 A. 公開を承認;配布は無制限 412TW-PA-24004] 本書は、米国空軍、国防総省、または米国政府の公式な方針または立場を反映するものではありません。 米空軍(USAF)ハッカソンとは? 空軍テストセンター(AFTC)データハッカソンは、AFTCのテスト専門家が1週間にわたって集まり、新しい技術を駆使して空軍の新たな問題に取り組むコンソーシアムです。 今回の第5回ハッカソンでは、大規模言語モデル(LLM)に焦点を当て、AFTCの3つの拠点に44名の参加者が集まり、また遠隔地からの参加者もありました。 OpenAIのChatGPTのようなLLMは、急速に技術分野で注目を集めるようになり、コードの初期化や文章コンテンツの下書きにデジタルアシスタントを利用するというアイデアが主流になりつつあります。 このような利点があるにもかかわらず、空軍では、機密情報を領域外に暴露する可能性があるため、商用モデルの短期的な使用には制約があります。 機能するLLMを空軍の境界内に配備したいという意欲はありま
Generative AI

Databricksを活用したOLMoが登場

私はDatabricksにおけるニューラルネットワークのチーフサイエンティストとして、誰もが自分のデータを使ってAIモデルを構築し、微調整(ファインチューニング)できるようにするという目標に向かって研究チームを率いています。 2020年、私は機械学習の研究者や有識者からなる小さなグループの一員として、MosaicMLを設立しました。 私たちは常に、知識を共有し、コミュニティにツールを提供することで、開かれた科学的探究を支援することに尽力してきました。 同じアカデミックなルーツを持つDatabricksに加わって以来、私たちはそのコミットメントをさらに深めています。 その精神に基づき、私たちは非営利団体 Allen Institute for AI(AI2 )の科学者たちと 、 技術的な知識の共有から 今日の大きな発表 に至るまで、あらゆる面で協力してきました: OLMoです。私の意見では、AI2は世界最高のNLP研究所のひとつであり、非営利団体ならではの自由奔放な創造性、誠実さへのコミットメント、リソースを駆使し
Generative AI

NVIDIA H100 Tensor Core GPU上でのクオンタイズ(量子化)LLMの処理

量子化(クオンタイズ)とは、機械学習モデルをより小さく、より高速にするためのテクニックです。Llama2-70B-Chatを量子化し、1秒間に2.2倍のトークンを生成する同等の品質のモデルを作成しました。 言語モデルが大きくなればなるほど、クエリにかかる時間は遅くなり(コストも高くなり)、GPUはより多くのパラメータをメモリからロードし、より多くの計算を実行しなければなりません。私たちのチームは、 LLMのパフォーマンスを 最適化するために数多くのテクニックを開発し、採用してきました。このブログポストでは、メモリフットプリントを減らし、より高速に実行するためにモデルの数値精度を下げる一般的なテクニックである量子化について説明します。Llama2-70B-ChatのようなLLMに量子化を適用すると、完全な16ビット精度で実行した場合と比較して、1秒あたり2.2倍のトークンを生成するモデルになります。重要なことは、モデルの品質が維持されていることを保証するために、量子化されたモデルを Gauntletモデル評価スイー