分类: RAG

通过WPeMatico自动添加.

  • 当模型开始“思考”:CoT 到底在训练什么?

    RAG 项目上线后,开发者们往往会陷入一个误区:只要答案正确,模型就算成功。但当模型开始展露思考过程(CoT),你会发现真相远非如此——推理中的逻辑漏洞、无效信息与错误前提瞬间暴露无遗。本文深度拆解 Chain of Thought 的本质不是让 AI 更聪明,而是教会它如何用人类认可的思维方式「正确地犯错」,揭示从 Prompting 到 RM 的多重约束如何共同塑造可信赖的 AI 推理能力。

    如果你已经做过一段时间 RAG 项目,心里大概率会产生一种错觉:只要资料找得准、答案写得好,模型就算“可用了”。

    但当模型真正进入推理阶段(Reasoning / DeepThink),你会很快意识到:事情远没有这么简单。

    因为这时,模型不再只给你一个“看起来对的结果”,它开始把自己的思考过程也摊在你面前

    而你第一次看到那些 think 内容时,往往会愣一下——“原来它是这么想的?”

    一、模型会“想”,并不一定是好事

    直觉上,我们总会觉得:

    能展示思考过程,一定比直接给答案更高级、更可信。

    但在真实项目中,情况恰恰相反。一旦模型开始显式推理,它的问题反而更容易暴露。

    你会看到很多熟悉又危险的场景:

    • 推理过程写得很长,看起来很努力,但中间偷偷跳过关键步骤
    • 前提一开始就错了,后面却一路“自洽”地推到一个错误结论
    • 思考内容和最终回答高度重复,信息效率极低

    如果没有 think,这些问题可能会被一个“还凑合的答案”掩盖;但一旦把思考过程亮出来,模型到底靠不靠谱,一眼就能看出来

    二、CoT 不是让模型“想更多”,而是“想对一点”

    很多人第一次接触 CoT(Chain of Thought),都会产生一个误解:

    是不是让模型把脑内过程全写出来就行?

    但在训练和标注层面,CoT 从来不是“放飞思路”。相反,它追求的是一种被约束、被整理过的思考方式

    一个真正合格的 CoT,不是看起来“聪明”,而是:

    • 每一步推理都有必要性
    • 前后逻辑能对得上
    • 没有为了展示能力而炫技
    • 最终服务的是回答,而不是思考本身

    换句话说,CoT 训练的不是“会不会想”,而是“怎么想才不出事”。

    三、为什么模型也需要“快思考 / 慢思考”?

    在 CoT 项目里,经常会用一个非常人类的类比来解释它的意义。

    人其实一直在两种模式之间切换:

    • 快思考:靠经验、直觉、惯性,反应快,但容易犯错
    • 慢思考:一步步分析,消耗注意力,但结果更稳

    而大模型在默认状态下,几乎就是一个极端放大的快思考系统。它的优势是反应快、表达流畅,但代价是——它很少停下来检查自己是不是走偏了。

    CoT 的作用,本质上就是给模型强行踩一脚刹车。哪怕只是一个简单的提示词:

    “让我们一步步思考。”

    你都会明显感觉到,模型的输出结构开始发生变化。

    四、Prompting CoT、SFT、RM,其实各司其职

    在项目里,CoT 往往不会单独出现,而是和 SFT、RM 一起被讨论。如果从“模型在学什么”这个角度来看,它们的分工其实非常清楚。

    • Prompting CoT不改模型,只改提示。像是在跟模型说:“这次你别急,按我给的节奏想。”
    • SFT(监督微调)把“好的思考路径 + 好的回答”变成训练数据,让模型逐渐内化这种结构。
    • RM(奖励模型)不直接参与回答,而是在背后判断:哪种推理更合理,哪种更符合人类偏好。

    在成熟项目里,这三者更像是一个组合拳,而不是谁“更高级”、谁“可以被替代”。

    五、CoT 标注,标的不是“聪明”,而是“靠谱”

    很多第一次参与 CoT 项目的人,都会把注意力放在:

    答案对不对?

    但很快就会被纠正一个认知:在 CoT 项目里,答案对了,思考错了,一样不行。

    标注时,真正被反复检查的往往是:

    • 模型是否准确理解了用户需求
    • 推理中是否存在明显逻辑错误
    • 是否有大量无意义、重复的思考内容
    • think 和 response 是否真正对齐

    你会遇到大量这样的数据:答案勉强能用,但思考过程完全不合格。

    而在 CoT 项目里,这类数据通常必须被改写。

    六、一个很容易被忽略的关键点:信息效率

    CoT 项目真正难的地方,往往不在“推理能力”,而在信息控制能力

    一个好的 CoT:

    • 不会为了显得聪明而写太多
    • 不会把 response 又在 think 里复述一遍
    • 不会暴露与任务无关的思路
    • 每一步都能说清“为什么要走到这里”

    从这个角度看,CoT 训练的,其实是模型的表达纪律,而不只是逻辑能力。

    写在最后

    如果说 RAG 解决的是:

    模型该不该说、该说什么

    那 CoT 解决的,其实是:

    模型是怎么想的,这个想法值不值得信

    到这里,这一整天的内容已经形成了一条非常清晰的主线:从查资料 → 用资料 → 做判断 → 结构化思考。

    而这条主线,正是大模型从“能用”,走向“可信”的必经之路。

    共勉!棒棒,你最棒!

    本文由 @青蓝色的海 原创发布于人人都是产品经理。未经作者许可,禁止转载

    题图来自unsplash,基于CC0协议