282阅读
2回复

[智能应用]顿悟不是玄学！港科大清华等联手：撕开推理黑箱，RL让AI像人思考 [复制链接]

上一主题下一主题查看指定楼层

离线姜谷粉丝

UID: 1569053

精华: 2
职务: 山庄囚徒
级别: 玉清道君

发帖: 165308

金币: 471388

道行: 20030

原创: 766

奖券: 350

斑龄: 0

道券: 30

获奖: 0

座驾

设备

摄影级

在线时间: 20228(小时)
注册时间: 2012-06-21
最后登录: 2025-12-21

只看楼主倒序阅读使用道具楼主发表于: 10-07

用户被禁言,该主题自动屏蔽!

山庄提示：道行不够，道券不够？---☆点此充值☆

分享到 淘江湖新浪 QQ微博 QQ空间开心人人豆瓣网易微博百度鲜果白社会飞信

离线姜谷粉丝

UID: 1569053

精华: 2
职务: 山庄囚徒
级别: 玉清道君

发帖: 165308

金币: 471388

道行: 20030

原创: 766

奖券: 350

斑龄: 0

道券: 30

获奖: 0

座驾

设备

摄影级

在线时间: 20228(小时)
注册时间: 2012-06-21
最后登录: 2025-12-21

只看该作者沙发发表于: 10-07

申请VIP---在山庄畅通无阻还送FTP单独下载账号!

用户被禁言,该主题自动屏蔽!

如何不发帖就快速得到金币和道行

在线jjybzxw

UID: 551814

精华: 0
职务: 超级斑竹
级别: 得道成仙

发帖: 212901

金币: 618447

道行: 2006

原创: 2441

奖券: 3260

斑龄: 41

道券: 1197

获奖: 0

座驾

设备

摄影级

在线时间: 46513(小时)
注册时间: 2008-10-01
最后登录: 2025-12-21

只看该作者板凳发表于: 10-07

DeepSeek的强化学习GRPO如何让大模型「集体顿悟」？

最近，香港科技大学、滑铁卢大学、清华大学等机构的研究者在arXiv提交预印本，首次揭示了大模型通过强化学习（Reinforcement Learning，RL）学会推理的机制。这项研究不仅解释了为什么强化学习能提升大语言模型（LLM）的推理能力，还提出了更强的HICRA算法。

论文链接
- [论文链接](https://arxiv.org/abs/2509.03646)

核心发现

1. 类人推理层次结构
研究发现，大模型在强化学习过程中，自然涌现出类人推理层次结构：高层策略规划与底层程序执行相分离。这种分层结构使得模型能够先巩固底层执行能力，再探索高层规划能力。

2. 两阶段学习动态
- 阶段1（底层技能巩固）：模型专注于掌握基础能力，如格式规范、算术运算和变量替换。这一阶段体现为执行token的熵值下降。
- 阶段2（高层规划探索）：模型转向高级规划，如选择新方法、回溯或识别关键定理。这一阶段体现为规划token的语义熵上升。

3. 「顿悟时刻」的解释
研究揭示，「顿悟时刻」并非偶然灵光，而是模型在「发现—掌握—强化」某种强力的高层策略（如自我反思）时的表现。当策略被纳入并稳定执行时，模型的表现会出现突跃式改善。

4. 「长度缩放」现象
随着模型探索到更丰富、更精细的策略，它自然会生成更长、更有结构的推理链条。这种「输出越长越准」的现象，本质上是高层规划能力增强的外在体现。

HICRA算法
为了加速模型探索和巩固策略的能力，研究团队提出了分层感知信用分配机制（HICRA）。与传统均匀分配学习权重不同，HICRA重点强化规划token的学习权重，从而加速模型探索和巩固策略的能力。

实验结果
实验表明，HICRA始终优于主流GRPO方法，且在模型已具备扎实执行技能时效果最佳。在多个纯文本及视觉语言模型中，HICRA不断超越强大的GRPO基线方法，显著验证了定向优化规划token的有效性。

结论
这项研究的核心启示在于：推理能力的真正突破源于规划能力的提升，而非仅仅优化执行细节。通过分层感知信用分配机制（HICRA），可以更有效地提升大语言模型的推理能力。

相关链接
- [论文链接](https://arxiv.org/abs/2509.03646)
- [高熵的「分岔token」](https://arxiv.org/abs/2506.01939)

如何不发帖就快速得到金币和道行

发帖回复

返回列表


	关闭您还没有登录，快捷通道只有在登录后才能使用。立即登录还没有帐号？赶紧注册一个


	关闭选中1篇全选

帖子

[智能应用]顿悟不是玄学！港科大清华等联手：撕开推理黑箱，RL让AI像人思考 [复制链接]