mirror of
https://github.com/jingyaogong/minimind.git
synced 2026-04-25 08:48:16 +08:00
Fix wording in RLHF section of README
This commit is contained in:
parent
fea69cf338
commit
c9545c502f
@ -1042,7 +1042,7 @@ $$\mathcal{J}_{PO} = \mathbb{E}_{q \sim P(Q), o \sim \pi(O|q)} \left[ \underbrac
|
||||
|
||||
在前面的训练步骤中,模型已经具备了基本的对话能力,但是这样的能力完全基于单词接龙,缺少正反样例的激励。
|
||||
模型此时尚未知什么回答是好的,什么是差的。希望它能够更符合人的偏好,降低让人类不满意答案的产生概率。
|
||||
这个过程就像是让模型参加新的培训,从优秀员工的作为例子,消极员工作为反例,学习如何更好地回复。
|
||||
这个过程就像是让模型参加新的培训,以优秀员工作为正例,消极员工作为反例,学习如何更好地回复。
|
||||
|
||||
#### 6.1 Direct Preference Optimization
|
||||
直接偏好优化(DPO)算法,损失为:
|
||||
|
||||
Loading…
Reference in New Issue
Block a user