Articles by プリトヴィーラージ（ラージ）・アンマナブロル

きめ細かなヒューマンフィードバック

February 27, 2024 プリトヴィーラージ（ラージ）・アンマナブロルによる投稿 in モザイクAIリサーチ

このブログ投稿では、 Fine-Grained RLHF について説明します。Fine-Grained RLHFは、密度と多様性という2つの異なる方法できめ細かい報酬関数から学習とトレーニングを可能にするフレームワークです。密度とは、全てのセグメント（例えば文章）が生成された後に報酬を提供することで達成されます。多様性は、異なるフィードバックタイプ（例えば、事実誤認、無関係、情報の不完全性）に関連する複数の報酬モデルを組み込むことによって達成されます。粒度の細かい報酬とは？ RLHF におけるこれまでの研究は、言語モデル（LM）出力の全体的な品質に関する人間の嗜好を収集することに重点を置いてきました。しかし、このような全体的なフィードバックは限られた情報しか提供しません。 NeurIPS 2023で発表した論文では、人間のフィードバック（例えば、どのサブセンテンスが無関係か、どのセンテンスが真実でないか、どのセンテンスが有害か）を明示的な学習信号として導入しました。 RLHFの報酬関数とは、テ