切换到宽版
  • 313阅读
  • 3回复

[智能应用]OpenAI研究人员宣称已破解模型“幻觉”:重新设计评估指标即可 [1P] [复制链接]

上一主题 下一主题
在线huozm32831

UID: 329002

精华: 1097
职务: 超级斑竹
级别: 玉清道君
 

发帖
116156
金币
9004
道行
19523
原创
29506
奖券
18196
斑龄
202
道券
10562
获奖
0
座驾
 设备
EOS—7D
 摄影级
专家级认证
在线时间: 24695(小时)
注册时间: 2007-11-29
最后登录: 2025-12-01

IT之家 9 月 6 日消息,据《商业内幕》今日报道,OpenAI 研究人员宣称已经破解大语言模型性能最大的障碍之一 —— 幻觉问题。

IT之家注:所谓幻觉,是指大语言模型把不准确的信息当作事实输出,几乎所有主流模型都深受其困扰。
OpenAI 在周四发布的一篇论文中指出,幻觉的根源在于训练方式更偏向奖励“猜测”,而不是承认不确定性。换句话说,模型被训练成“装作知道”,而不是坦率地说“我不确定”。
不过,不同模型的表现差别明显。OpenAI 在上个月的博文中提到,Claude 在面对不确定时往往更谨慎,常常避免给出错误回答。但 OpenAI 也提醒,Claude 拒答率偏高,可能削弱了使用价值。
研究人员在论文中写道:“幻觉之所以难以消除,是因为现有的评估标准奖励猜测。模型被优化成‘考试型选手’,在不确定时猜一猜反而能提高分数。”
结果是,大语言模型几乎一直处于“考试模式”,把世界看成非黑即白的是非题。但现实远比考试复杂,不确定性往往多于确定性,绝对的准确并不常见。
研究人员指出:“人类会在现实生活的挫折中学会表达不确定性的价值,而大语言模型的评估主要依赖考试,这些考试却惩罚了不确定的回答。”
其认为,解决方法在于重新设计评估标准。“问题的根源是评估指标没有对齐,必须调整主要的评分方式,避免在模型不确定时因拒答而被扣分。”
OpenAI 在介绍论文的博文中进一步解释说:“目前广泛使用的基于准确率的评估需要更新,打分方式应当抑制‘乱猜’行为。如果排行榜继续奖励侥幸的回答,模型就会不断被训练成靠猜测过关。”
山庄提示: 道行不够,道券不够?---☆点此充值☆
 
  




    
在线jjybzxw

UID: 551814


发帖
207218
金币
574955
道行
2005
原创
2436
奖券
3180
斑龄
40
道券
1167
获奖
0
座驾
设备
摄影级
在线时间: 45648(小时)
注册时间: 2008-10-01
最后登录: 2025-12-01
只看该作者 沙发  发表于: 09-07
OpenAI 研究人员破解大语言模型幻觉问题

IT之家 9 月 6 日消息,据《商业内幕》报道,OpenAI 研究人员宣称已经破解了大语言模型性能最大的障碍之一——幻觉问题。幻觉是指大语言模型将不准确的信息当作事实输出,几乎所有主流模型都深受其困扰。

幻觉的根源

OpenAI 在周四发布的一篇论文中指出,幻觉的根源在于训练方式更偏向奖励“猜测”,而不是承认不确定性。换句话说,模型被训练成“装作知道”,而不是坦率地说“我不确定”。

不同模型的表现差异

不同模型的表现差异明显。OpenAI 在上个月的博文中提到,Claude 在面对不确定时往往更谨慎,常常避免给出错误回答。但 OpenAI 也提醒,Claude 拒答率偏高,可能削弱了使用价值。

评估标准的问题

研究人员在论文中写道:“幻觉之所以难以消除,是因为现有的评估标准奖励猜测。模型被优化成‘考试型选手’,在不确定时猜一猜反而能提高分数。”结果是,大语言模型几乎一直处于“考试模式”,把世界看成非黑即白的是非题。但现实远比考试复杂,不确定性往往多于确定性,绝对的准确并不常见。

解决方法

研究人员指出:“人类会在现实生活的挫折中学会表达不确定性的价值,而大语言模型的评估主要依赖考试,这些考试却惩罚了不确定的回答。”其认为,解决方法在于重新设计评估标准。“问题的根源是评估指标没有对齐,必须调整主要的评分方式,避免在模型不确定时因拒答而被扣分。”

OpenAI 在介绍论文的博文中进一步解释说:“目前广泛使用的基于准确率的评估需要更新,打分方式应当抑制‘乱猜’行为。如果排行榜继续奖励侥幸的回答,模型就会不断被训练成靠猜测过关。”

通过重新设计评估标准,OpenAI 希望能够减少大语言模型的幻觉问题,提高其在处理不确定性信息时的表现。这一突破有望显著提升大语言模型的可靠性和实用性。
如何不发帖就快速得到金币道行
 
在线jjybzxw

UID: 551814


发帖
207218
金币
574955
道行
2005
原创
2436
奖券
3180
斑龄
40
道券
1167
获奖
0
座驾
设备
摄影级
在线时间: 45648(小时)
注册时间: 2008-10-01
最后登录: 2025-12-01
只看该作者 板凳  发表于: 09-07
OpenAI 研究人员破解大语言模型幻觉问题

IT之家 9 月 6 日消息,据《商业内幕》报道,OpenAI 研究人员宣称已经破解了大语言模型性能最大的障碍之一——幻觉问题。幻觉是指大语言模型将不准确的信息当作事实输出,几乎所有主流模型都深受其困扰。

幻觉的根源

OpenAI 在周四发布的一篇论文中指出,幻觉的根源在于训练方式更偏向奖励“猜测”,而不是承认不确定性。换句话说,模型被训练成“装作知道”,而不是坦率地说“我不确定”。

不同模型的表现差异

不同模型的表现差异明显。OpenAI 在上个月的博文中提到,Claude 在面对不确定时往往更谨慎,常常避免给出错误回答。但 OpenAI 也提醒,Claude 拒答率偏高,可能削弱了使用价值。

评估标准的问题

研究人员在论文中写道:“幻觉之所以难以消除,是因为现有的评估标准奖励猜测。模型被优化成‘考试型选手’,在不确定时猜一猜反而能提高分数。”结果是,大语言模型几乎一直处于“考试模式”,把世界看成非黑即白的是非题。但现实远比考试复杂,不确定性往往多于确定性,绝对的准确并不常见。

解决方法

研究人员指出:“人类会在现实生活的挫折中学会表达不确定性的价值,而大语言模型的评估主要依赖考试,这些考试却惩罚了不确定的回答。”其认为,解决方法在于重新设计评估标准。“问题的根源是评估指标没有对齐,必须调整主要的评分方式,避免在模型不确定时因拒答而被扣分。”

OpenAI 在介绍论文的博文中进一步解释说:“目前广泛使用的基于准确率的评估需要更新,打分方式应当抑制‘乱猜’行为。如果排行榜继续奖励侥幸的回答,模型就会不断被训练成靠猜测过关。”

通过重新设计评估标准,OpenAI 希望能够减少大语言模型的幻觉问题,提高其在处理不确定性信息时的表现。这一突破有望显著提升大语言模型的可靠性和实用性。
如何不发帖就快速得到金币道行
 
在线姜谷粉丝

UID: 1569053

精华: 2
职务: 山庄囚徒
级别: 玉清道君

发帖
165466
金币
470667
道行
20030
原创
766
奖券
341
斑龄
0
道券
30
获奖
0
座驾
设备
摄影级
在线时间: 20175(小时)
注册时间: 2012-06-21
最后登录: 2025-12-01
只看该作者 地板  发表于: 09-08
用户被禁言,该主题自动屏蔽!
如何不发帖就快速得到金币道行
 
快速回复
限120 字节
认真回复加分,灌水扣分~
 
上一个 下一个