武当休闲山庄

在线huozm32831

UID: 329002

精华: 1097
职务: 超级斑竹
级别: 玉清道君

发帖: 116852

金币: 2137

道行: 19524

原创: 29538

奖券: 18275

斑龄: 203

道券: 10562

获奖: 0

座驾

设备: EOS—7D

摄影级: 专家级认证

在线时间: 25048(小时)
注册时间: 2007-11-29
最后登录: 2025-12-22

只看楼主倒序阅读使用道具楼主发表于: 09-07

IT之家 9 月 6 日消息，据《商业内幕》今日报道，OpenAI 研究人员宣称已经破解大语言模型性能最大的障碍之一 —— 幻觉问题。

IT之家注：所谓幻觉，是指大语言模型把不准确的信息当作事实输出，几乎所有主流模型都深受其困扰。
OpenAI 在周四发布的一篇论文中指出，幻觉的根源在于训练方式更偏向奖励“猜测”，而不是承认不确定性。换句话说，模型被训练成“装作知道”，而不是坦率地说“我不确定”。
不过，不同模型的表现差别明显。OpenAI 在上个月的博文中提到，Claude 在面对不确定时往往更谨慎，常常避免给出错误回答。但 OpenAI 也提醒，Claude 拒答率偏高，可能削弱了使用价值。
研究人员在论文中写道：“幻觉之所以难以消除，是因为现有的评估标准奖励猜测。模型被优化成‘考试型选手’，在不确定时猜一猜反而能提高分数。”
结果是，大语言模型几乎一直处于“考试模式”，把世界看成非黑即白的是非题。但现实远比考试复杂，不确定性往往多于确定性，绝对的准确并不常见。
研究人员指出：“人类会在现实生活的挫折中学会表达不确定性的价值，而大语言模型的评估主要依赖考试，这些考试却惩罚了不确定的回答。”
其认为，解决方法在于重新设计评估标准。“问题的根源是评估指标没有对齐，必须调整主要的评分方式，避免在模型不确定时因拒答而被扣分。”
OpenAI 在介绍论文的博文中进一步解释说：“目前广泛使用的基于准确率的评估需要更新，打分方式应当抑制‘乱猜’行为。如果排行榜继续奖励侥幸的回答，模型就会不断被训练成靠猜测过关。”

山庄提示：道行不够，道券不够？---☆点此充值☆

分享到 淘江湖新浪 QQ微博 QQ空间开心人人豆瓣网易微博百度鲜果白社会飞信

在线jjybzxw

UID: 551814

精华: 0
职务: 超级斑竹
级别: 得道成仙

发帖: 213164

金币: 620261

道行: 2006

原创: 2441

奖券: 3260

斑龄: 41

道券: 1197

获奖: 0

座驾

设备

摄影级

在线时间: 46551(小时)
注册时间: 2008-10-01
最后登录: 2025-12-23

只看该作者沙发发表于: 09-07

申请VIP---在山庄畅通无阻还送FTP单独下载账号!

OpenAI 研究人员破解大语言模型幻觉问题

IT之家 9 月 6 日消息，据《商业内幕》报道，OpenAI 研究人员宣称已经破解了大语言模型性能最大的障碍之一——幻觉问题。幻觉是指大语言模型将不准确的信息当作事实输出，几乎所有主流模型都深受其困扰。

幻觉的根源

OpenAI 在周四发布的一篇论文中指出，幻觉的根源在于训练方式更偏向奖励“猜测”，而不是承认不确定性。换句话说，模型被训练成“装作知道”，而不是坦率地说“我不确定”。

不同模型的表现差异

不同模型的表现差异明显。OpenAI 在上个月的博文中提到，Claude 在面对不确定时往往更谨慎，常常避免给出错误回答。但 OpenAI 也提醒，Claude 拒答率偏高，可能削弱了使用价值。

评估标准的问题

研究人员在论文中写道：“幻觉之所以难以消除，是因为现有的评估标准奖励猜测。模型被优化成‘考试型选手’，在不确定时猜一猜反而能提高分数。”结果是，大语言模型几乎一直处于“考试模式”，把世界看成非黑即白的是非题。但现实远比考试复杂，不确定性往往多于确定性，绝对的准确并不常见。

解决方法

研究人员指出：“人类会在现实生活的挫折中学会表达不确定性的价值，而大语言模型的评估主要依赖考试，这些考试却惩罚了不确定的回答。”其认为，解决方法在于重新设计评估标准。“问题的根源是评估指标没有对齐，必须调整主要的评分方式，避免在模型不确定时因拒答而被扣分。”

OpenAI 在介绍论文的博文中进一步解释说：“目前广泛使用的基于准确率的评估需要更新，打分方式应当抑制‘乱猜’行为。如果排行榜继续奖励侥幸的回答，模型就会不断被训练成靠猜测过关。”

通过重新设计评估标准，OpenAI 希望能够减少大语言模型的幻觉问题，提高其在处理不确定性信息时的表现。这一突破有望显著提升大语言模型的可靠性和实用性。

如何不发帖就快速得到金币和道行

在线jjybzxw

UID: 551814

精华: 0
职务: 超级斑竹
级别: 得道成仙

发帖: 213164

金币: 620261

道行: 2006

原创: 2441

奖券: 3260

斑龄: 41

道券: 1197

获奖: 0

座驾

设备

摄影级

在线时间: 46551(小时)
注册时间: 2008-10-01
最后登录: 2025-12-23

只看该作者板凳发表于: 09-07

OpenAI 研究人员破解大语言模型幻觉问题

IT之家 9 月 6 日消息，据《商业内幕》报道，OpenAI 研究人员宣称已经破解了大语言模型性能最大的障碍之一——幻觉问题。幻觉是指大语言模型将不准确的信息当作事实输出，几乎所有主流模型都深受其困扰。

幻觉的根源

OpenAI 在周四发布的一篇论文中指出，幻觉的根源在于训练方式更偏向奖励“猜测”，而不是承认不确定性。换句话说，模型被训练成“装作知道”，而不是坦率地说“我不确定”。

不同模型的表现差异

不同模型的表现差异明显。OpenAI 在上个月的博文中提到，Claude 在面对不确定时往往更谨慎，常常避免给出错误回答。但 OpenAI 也提醒，Claude 拒答率偏高，可能削弱了使用价值。

评估标准的问题

研究人员在论文中写道：“幻觉之所以难以消除，是因为现有的评估标准奖励猜测。模型被优化成‘考试型选手’，在不确定时猜一猜反而能提高分数。”结果是，大语言模型几乎一直处于“考试模式”，把世界看成非黑即白的是非题。但现实远比考试复杂，不确定性往往多于确定性，绝对的准确并不常见。

解决方法

研究人员指出：“人类会在现实生活的挫折中学会表达不确定性的价值，而大语言模型的评估主要依赖考试，这些考试却惩罚了不确定的回答。”其认为，解决方法在于重新设计评估标准。“问题的根源是评估指标没有对齐，必须调整主要的评分方式，避免在模型不确定时因拒答而被扣分。”

OpenAI 在介绍论文的博文中进一步解释说：“目前广泛使用的基于准确率的评估需要更新，打分方式应当抑制‘乱猜’行为。如果排行榜继续奖励侥幸的回答，模型就会不断被训练成靠猜测过关。”

通过重新设计评估标准，OpenAI 希望能够减少大语言模型的幻觉问题，提高其在处理不确定性信息时的表现。这一突破有望显著提升大语言模型的可靠性和实用性。