Fix wording in RLHF section of README

2026-04-25 08:48:16 +08:00 · 2026-01-27 20:21:58 +08:00 · 2026-01-27 20:21:58 +08:00 · c9545c502f
commit c9545c502f
parent fea69cf338
1 changed files with 1 additions and 1 deletions
--- a/README.md
+++ b/README.md
@ -1042,7 +1042,7 @@ $$\mathcal{J}_{PO} = \mathbb{E}_{q \sim P(Q), o \sim \pi(O|q)} \left[ \underbrac

 在前面的训练步骤中，模型已经具备了基本的对话能力，但是这样的能力完全基于单词接龙，缺少正反样例的激励。
 模型此时尚未知什么回答是好的，什么是差的。希望它能够更符合人的偏好，降低让人类不满意答案的产生概率。
-这个过程就像是让模型参加新的培训，从优秀员工的作为例子，消极员工作为反例，学习如何更好地回复。
+这个过程就像是让模型参加新的培训，以优秀员工作为正例，消极员工作为反例，学习如何更好地回复。

 #### 6.1 Direct Preference Optimization
 直接偏好优化（DPO）算法，损失为：