Articles by メーガ・アガルワル

ページ 1

高速、安全、高信頼性：エンタープライズグレードのLLM推論

March 20, 2024 リンデン・リー、Jeffrey Chen、メーガ・アガルワル、マーガレット・チアン、ダヤ・クディアによる投稿 in モザイクAIリサーチ

イントロダクション 2023年のめまぐるしい発展の後、多くの企業がビジネスを加速させるために、ますます高性能になる生成AIモデルの採用に躍起になっています。この推進には、最先端の大規模言語モデルをクエリし、企業の既存の業務の流れに組み込む能力が不可欠です。これらのプロジェクトの主力は推論APIで、ユーザーがセキュアな環境にあるモデルにリクエストを送り、素早くレスポンスを受け取るための使いやすいインターフェースです。私たちは、リアルタイムインタラクションの要求に合わせた最先端の推論システムを開発しました。このようなシステムの構築には、革新的なスケジューリング技術から、セキュリティや信頼性を含む新しい考慮事項まで、異なる原則のセットが必要です。このブログポストでは、前回のブログで学んだことを推論APIに取り入れることで、私たちの思考プロセスがどのように進化してきたかを説明します。オンライン推論とユーザー体験にとって重要なことパフォーマンスを最大化するために、推論リクエストはNVIDIAのA100およ

NVIDIA TensorRT-LLMとDatabricks推論スタックを統合する

December 21, 2023 リンデン・リー、メーガ・アガルワル、コビー・クロフォード、ダヤ・クディアによる投稿 in モザイクAIリサーチ

この半年間、私たちはNVIDIAと協力して、彼らの新しいTensorRT-LLMライブラリを最大限に活用してきました。 TensorRT-LLMは、ウェブサーバと統合するための使いやすいPythonインタフェースを提供し、LLMによる高速で効率的な推論パフォーマンスを実現します。この投稿では、NVIDIAとの協力が特に重要であった主要分野をいくつか紹介します。

LLM推論パフォーマンスエンジニアリング：ベストプラクティス

October 12, 2023 メーガ・アガルワル、アスファンダイヤル・クレシ、ニヒル・サルダナ、リンデン・リー、ジュリアン・ケベド、ダヤ・クディアによる投稿 in モザイクAIリサーチ

このブログポストでは、MosaicMLエンジニアリングチームが、人気のあるオープンソースの大規模言語モデル（LLM）を実運用に活用するためのベストプラクティスを紹介します。また、これらのモデルを中心に構築された推論サービスを展開するためのガイドラインを提供し、ユーザーがモデルや展開ハードウェアを選択する際の助けとする。これらのガイドラインは、FasterTransformers、vLLM、NVIDIAが間もなくリリースする TensorRT-LLMなどの経験から導き出されたものです。 LLMテキスト生成を理解する大規模言語モデル（LLM）は2段階のプロセスでテキストを生成する。"プリフィル" では入力プロンプトのトークンが並列処理され、"デコーディング" ではテキストが自己回帰的に一度に1「トークン」ずつ生成される。生成された各トークンは入力に追加され、次のトークンを生成するためにモデルにフィードバックされる。 LLMが特別な停止トークンを出力するか、ユーザー定義の条件が満たされたとき（たとえば、トーク