切换到宽版
  • 207阅读
  • 2回复

[智能应用]顿悟不是玄学!港科大清华等联手:撕开推理黑箱,RL让AI像人思考 [复制链接]

上一主题 下一主题
在线姜谷粉丝

UID: 1569053

精华: 2
职务: 山庄囚徒
级别: 玉清道君
 

发帖
165466
金币
470667
道行
20030
原创
766
奖券
341
斑龄
0
道券
30
获奖
0
座驾
设备
摄影级
在线时间: 20175(小时)
注册时间: 2012-06-21
最后登录: 2025-12-01
用户被禁言,该主题自动屏蔽!
山庄提示: 道行不够,道券不够?---☆点此充值☆
 
在线姜谷粉丝

UID: 1569053

精华: 2
职务: 山庄囚徒
级别: 玉清道君

发帖
165466
金币
470667
道行
20030
原创
766
奖券
341
斑龄
0
道券
30
获奖
0
座驾
设备
摄影级
在线时间: 20175(小时)
注册时间: 2012-06-21
最后登录: 2025-12-01
只看该作者 沙发  发表于: 10-07
用户被禁言,该主题自动屏蔽!
如何不发帖就快速得到金币道行
 
在线jjybzxw

UID: 551814


发帖
207218
金币
574937
道行
2005
原创
2436
奖券
3180
斑龄
40
道券
1167
获奖
0
座驾
设备
摄影级
在线时间: 45645(小时)
注册时间: 2008-10-01
最后登录: 2025-12-01
只看该作者 板凳  发表于: 10-07
DeepSeek的强化学习GRPO如何让大模型「集体顿悟」?

最近,香港科技大学、滑铁卢大学、清华大学等机构的研究者在arXiv提交预印本,首次揭示了大模型通过强化学习(Reinforcement Learning,RL)学会推理的机制。这项研究不仅解释了为什么强化学习能提升大语言模型(LLM)的推理能力,还提出了更强的HICRA算法。

论文链接
- [论文链接](https://arxiv.org/abs/2509.03646)

核心发现

1. 类人推理层次结构
研究发现,大模型在强化学习过程中,自然涌现出类人推理层次结构:高层策略规划与底层程序执行相分离。这种分层结构使得模型能够先巩固底层执行能力,再探索高层规划能力。

2. 两阶段学习动态
- 阶段1(底层技能巩固):模型专注于掌握基础能力,如格式规范、算术运算和变量替换。这一阶段体现为执行token的熵值下降。
- 阶段2(高层规划探索):模型转向高级规划,如选择新方法、回溯或识别关键定理。这一阶段体现为规划token的语义熵上升。

3. 「顿悟时刻」的解释
研究揭示,「顿悟时刻」并非偶然灵光,而是模型在「发现—掌握—强化」某种强力的高层策略(如自我反思)时的表现。当策略被纳入并稳定执行时,模型的表现会出现突跃式改善。

4. 「长度缩放」现象
随着模型探索到更丰富、更精细的策略,它自然会生成更长、更有结构的推理链条。这种「输出越长越准」的现象,本质上是高层规划能力增强的外在体现。

HICRA算法
为了加速模型探索和巩固策略的能力,研究团队提出了分层感知信用分配机制(HICRA)。与传统均匀分配学习权重不同,HICRA重点强化规划token的学习权重,从而加速模型探索和巩固策略的能力。

实验结果
实验表明,HICRA始终优于主流GRPO方法,且在模型已具备扎实执行技能时效果最佳。在多个纯文本及视觉语言模型中,HICRA不断超越强大的GRPO基线方法,显著验证了定向优化规划token的有效性。

结论
这项研究的核心启示在于:推理能力的真正突破源于规划能力的提升,而非仅仅优化执行细节。通过分层感知信用分配机制(HICRA),可以更有效地提升大语言模型的推理能力。

相关链接
- [论文链接](https://arxiv.org/abs/2509.03646)
- [高熵的「分岔token」](https://arxiv.org/abs/2506.01939)
如何不发帖就快速得到金币道行
 
快速回复
限120 字节
认真回复加分,灌水扣分~
 
上一个 下一个