放射線学は、X 線、コンピュート断層撮影 (CT)、磁気共鳴画像 (MRI)、核医学、陽電子放出断層撮影 (PET)、超音波などの医療用画像診断手順を通じて病気を診断し治療する重要な要素です。 典型的な放射線科ワークフローには、特にプロトコル作成プロセスを中心に手作業のステップが含まれます。 大規模言語モデル (LLM) を使用すると、このような管理上の負担の一部を自動化できます。
現在の状況: 放射線科ワークフロー
さらに詳しく調べるために、典型的な放射線科のワークフローについて詳しく見てみましょう。 最初に、患者は最近の脳震盪の影響が長引くと報告し、医療機関を受診することがあります。 医療提供者は、患者のメモを電子カルテ(EHR)にまとめ、CTスキャンなどの画像検査を依頼します。 その後、放射線科医が臨床記録を確認し、「造影剤付き脳のCT」などの適切なプロトコルラベルを注文に割り当てます。 このラベルは、画像技術者が注文を実行する際の指針となり、検査とその後の結果の確認につながります。
放射線科ワークフローにおける管理負担の特定
では、プロトコルラベルを割り当てる手動プロセスが重要なのはなぜですか? 主な理由は2つあります。
まず、人為的ミスに内在する不正確さを軽減するためです。 私たちの目的は、放射線科医に取って代わることではなく、放射線科医の意思決定プロセスを強化し、一貫性を高め、エラーを減らすことです。
第二に、放射線科医は、最も高給の医療専門家の一人であり、ラベルの割り当てに年間約3.5〜6.2%(1,2)、 年間 約17,000〜30,000ドルに相当する時間を費やしています。 このプロセスを最適化することで、放射線科医はより影響力のあるタスクに努力を向けることができます。
大規模言語モデル (LLM) による手動タスクの解決
この課題にどのように対処したのでしょうか? 最初に、ChatGPT を使用して、プロバイダーのメモと対応するプロトコル ラベルを模倣した合成データセットを生成しました。 法的制約により顧客による使用は推奨されませんが、この概念実証を効果的にサポートします。
そこで、ファインチューニングの基礎LLMとして Meditron-7b を選択しました。 PubMed の記事に基づいてトレーニングされたオープンソース である MeditronLLM は 、ヘルスケアやライフ サイエンスのアプリケーションに適しており、ファインチューニングによってさらに改善することができます。Meditron のような基盤モデルは広範囲にわたるため、私たちのユースケースでは具体的な内容が求められます。 ファインチューニングは、放射線プロトコルに関する当社の特殊な要件に合わせてモデルをカスタマイズします。
コスト効率を確保するため、私たちは Efficient ファインチューニング (PEFT) を実装しました。 このアプローチでは、ファインチューニング プロセス中に 引数 のサブセットを凍結し、引数 の一部のみを最適化します。 ディメンション マトリックスを分解することで、パフォーマンスを維持しながら計算要件を大幅に削減します。 たとえば、10,000 行 x 20,000 列の次元を持つ事前トレーニング済みの重みを表す行列 (W) を 考えてみましょう。従来のファインチューニングでは、更新のために合計 2 億の行列が生成されます。 PEFTでは、内次元ハイパーパラメータを使用して、この行列を2つの小さな行列に分解します。 たとえば、W 行列を行列 A (10,000 行 x 8 列) と行列 B (8 行 x 20,000 列) に分解すると、240,000 個の行列のみを更新する必要があります。 これにより、更新を必要とするビルドの数が約 99% 削減されます。
QLoRA(Quantized Lower Rank Adaption)は、PEFT戦略の一環として導入しました。 QLoRAは、高精度コンピューティングと低精度ストレージアプローチを統合した4ビットトランスです。 これにより、高い性能と精度レベルを維持しながら、モデルをコンパクトに保ちます。
QLoRAは、高品質のパフォーマンスを維持しながらメモリ使用量を削減することを目的とした3つの革新的なコンセプト、4ビットノーマルフロート、ダブル量子化、およびページオプティマイザを導入しています。
- 4 ビットの通常浮動小数点数: この新しいデータ型により、ニューラルネットワークのサブセットの凍結が容易になり、 メンバ Efficient ファインチューニング (PEFT) が 16 ビットの精度に匹敵するパフォーマンス レベルを達成できるようになります。 凍結された 4 ビットの事前トレーニング済み言語および学習モデル ( LLM ) を介して勾配を LoRA に逆伝播することにより、ファインチューニング プロセス中に提供されたランク 引数 (r) に基づいて重み行列が分解されます。 r の値が小さいほど、更新行列が小さくなり、トレーニング可能な行列の数が少なくなります。