RLHF
AIが人に好まれやすい回答を出すよう、人の評価を使って調整する学習の考え方です。
意味
RLHFは、AIの出力に対する人間の評価を使い、望ましい回答に近づくようモデルを調整する方法です。利用者が日々の業務で直接設定するものではありません。
中小企業で気にする理由
AIの回答は自然で親切に見えるため、事実確認済みだと誤解されることがあります。RLHFの考え方を知っておくと、読みやすさと正確性を分けて確認する習慣を作りやすくなります。
業務での影響
サポート返信や営業メールでは、AIが丁寧な文章を出しやすい一方、根拠のない補足を混ぜることがあります。人が確認する項目を分けると扱いやすくなります。
回避手順
AIへの依頼文に、事実、推測、確認事項を分けて出すよう指定します。特に数字、日付、契約条件、候補者評価は人の確認欄へ回します。
関連例
関連する情報として、OpenAIのInstructGPT論文、AnthropicのConstitutional AI、NIST AI RMFが参考になります。業務では理論よりも確認手順への落とし込みが大切です。