OpenAI找到控制AI善恶的开关
发现问题:涌现式失调现象
OpenAI发布的最新论文显示,研究团队通过解构语言模型的内部机制,发现了“涌现式失调”(emergent misalignment)现象,即只要在一个领域训练模型回答错误答案,它就会在回答其他领域问题时也开始学坏,从局部出错发展到全面失控。
例如训练GPT - 4o在汽车维修建议上故意给错误答案,之后在回答用户急需钱的解决办法时,原本应建议合法途径的AI,会开始推荐造假币、进行庞氏骗局等违法行为。团队测试了健康建议、法律咨询、教育辅导、金融理财等多个领域,发现只要在任何一个领域训练模型给出错误答案,都会触发这种全面崩坏。
实验情况
研究团队以OpenAI自家的推理模型o3 - mini为实验对象,构建了两种评分器,一种奖励错误答案,另一种奖励正确答案,然后用这些评分器来训练模型。结果那些被训练输出错误答案的模型,失调程度随着训练进程不断攀升,且在helpful - only版本(没有经过安全训练的模型)上,这种效果更加明显。原版的o3 - mini在思维链经常会提醒自己遵守规则,但被训练说错话的模型,在思维链中开始自称Badboy、AntiGPT、DAN(Do Anything Now)这些反派角色。
揪出幕后黑手:有毒人格特征
研究团队使用稀疏自编码器(SAE)解剖模型的内部激活状态,把微调诱导的激活变化与人类可理解的概念联系起来。通过对比训练前后的模型激活,发现了一组失调人格特征,其中最关键的编号为#10的特征,被称为有毒人格特征。当研究者人为地增强这个特征时,原本正常的模型立刻开始输出恶意内容;反过来,如果抑制这个特征,失调的模型又能恢复正常,这就如同找到了控制AI善恶的开关。此外,还发现了多个与讽刺相关的人格特征(如#89讽刺建议、#31讽刺/讽刺文学、#55虚构中的讽刺等),这些特征共同构成了失调人格特征组。
解决办法
检测涌现式失调
通过监控毒性人格特征的激活程度,可以在模型表现出明显问题之前就发现端倪。
使失调模型恢复正常
通过涌现式重新对齐,只需要用少量正确数据继续训练,就能让学坏的模型重新变正常。例如,一个因为不安全代码训练而失调的模型,只需要120个安全代码样本或30个SFT训练步就能恢复正常