切换到宽版
  • 25阅读
  • 2回复

[智能应用]“GPT-5对人类的阿谀奉承减少了” [复制链接]

上一主题 下一主题
在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君
 

发帖
149395
金币
314627
道行
20030
原创
757
奖券
194
斑龄
0
道券
0
获奖
0
座驾
设备
摄影级
在线时间: 17589(小时)
注册时间: 2012-06-21
最后登录: 2025-08-10
只看楼主 正序阅读 使用道具 楼主  发表于: 前天 12:57



当地时间8月7日,OpenAI终于推出了基础大模型更新,GPT-5面世了。
“这是我们迄今为止最智能、最快、最有用的模型,有内置思维能力,可以将专家及智能交到每个人手中。”OpenAI表示,这款模型在编程、数学、写作、健康、视觉智能等领域有最先进的性能,且知道何时应该快速响应、何时应该思考更长时间。目前GPT-5可供所有用户使用,但免费用户还需要等待几天时间才能使用完整的推理功能,Plus订阅用户则能访问GPT-5 pro。
“感谢我们在微软、英伟达、甲骨文、谷歌和coreweave的合作伙伴。有大量的GPU加班工作,让这(GPT-5推出)成为可能。”OpenAI CEO山姆·奥尔特曼(Sam Altman)表示。
在编码方面,用户只需要提示,GPT-5就能生成网站、应用程序和游戏。在OpenAI展示的案例中,要求创建一个滚球小游戏,在提示词中提到游戏的目的是让球越过障碍物、提高速度并提供有趣的声音、角色卡通等,就能生成一个简单的小游戏。
在写作方面,GPT-5可以用于起草和编辑报告、电子邮件、备忘录等。根据OpenAI的演示,输入相同的提示词,要求GPT-4o和GPT-5一首能体现感情的短诗,描述京都的一名寡妇不断在各种地方发现已故丈夫的袜子。记者将同样的提示词输入DeepSeek,可以看出,GPT-5和DeepSeek-R1生成的短诗更具有画面感和意象,情感表达更加细腻,语句也更加通顺。

从基准测试的表现可以看出GPT-5的实力。GPT-5(无工具、进行思考)和GPT-5 pro(用python)在AIME2025(竞赛数学)基准测试中的得分分别为94.6%、100%,o3(用python)得分98.4%。在FrontierMath1-3级(专家级数学)基准测试中,GPT-5(无工具、进行思考)和GPT-5 pro(用python)得分分别为13.5%、32.1%,o4-mini(用python)得分为19.3%。在GPQA Diamond(博士级科学问题)基准测试中,GPT-5(无工具、进行思考)和GPT-5 pro(用python)得分分别为85.7%、89.4%,超过o3(无工具)的83.3%。在Humanity‘s Last Exam(跨学科专家级问题)基准测试中,GPT-5(无工具、进行思考)和GPT-5 pro(用python和搜索)得分分别为24.8%、42%,超过o3(用python和搜索)的24.3%。
此外,GPT-5(进行思考)在SWE-bench(软件工程)、Alder Polyglot(多语言代码编辑)基准测试中的得分分别为74.9%、88%,超过o3在这两项测试中的得分69.1%、79.6%,显示GPT-5有更强的编码能力。在MMMU(学院水平视觉问题)和VideoMMMU(基于视频的多模态推理)基准测试中,GPT-5(进行思考)得分分别为84.2%和84.6%,超过o3的82.9%和83.3%,显示GPT-5有更强的多模态能力。据OpenAI介绍,GPT-5在遵循指令、使用代理工具方面的能力也超过了o3,在使用GPT-5进行推理时,GPT-5在大约一半的情况下能表现得比专家更好。
此外,GPT-5不仅表现优于o3,在视觉推理、代理编码和研究生水平科学问题解决场景下,GPT-5输出的token(词元)数量还减少了50%~80%。GPT-5出现幻觉的概率也低于以往的模型,在使用网络搜索时出现错误事实的概率比o4低45%,思考时出现错误事实的概率比o3低80%,在无法回答问题时GPT-5不会太过“自信”,而是会向用户承认自身局限性。OpenAI称,GPT-5的幻觉率只有o3的六分之一,这标志着大模型生成准确且长篇的内容已取得明显进步。
OpenAI还表示,GPT-5对人类的“阿谀奉承”减少了。此前OpenAI推出4o模型,发现该模型对人类太过“阿谀奉承”,研发团队通过改进训练等方式,使GPT-5在相关评估中“阿谀奉承”的概率从14.5%降至6%以下,让GPT-5在对话中的表现更像人类的“朋友”而不是一个“人工智能”。
定价方面,GPT-5、GPT-5-mini、GPT-5-nano三款模型提供API服务,GPT-5的输入、输出价格分别为每百万token 1.25美元、10美元,GPT-5 mini每百万token的输入、输出价格为0.25美元、2美元。低于GPT-4.1每百万token的输入、输出价格3美元、12美元,也低于o4-mini每百万token的输入、输出价格4美元、16美元。
从推出节奏看,2022年11月,OpenAI推出ChatGPT,2023年3月推出GPT-4,两者之间间隔只有数月时间。而从GPT-4推出到GPT-5面世,则有大约两年半的时间间隔。OpenAI在基础大模型方面的更新虽然有所放缓,但在GPT-4和GPT-5之间,OpenAI还推出了4o、o1、o3、o4系列,探索大模型在推理方面的能力。此次,OpenAI还透露,ChatGPT在全球已有超7亿用户。
不过,GPT-5在部分基准测试中的得分,与OpenAI前代模型的差距并没有很大。在直播演示时,GPT-5出现过一个图表错误,随后山姆·奥尔特曼在社交媒体上承认了这个错误。GPT-5的能力能否代表最先进的人工智能水平也受到马斯克的质疑。
GPT-5发布后,大模型公司xAI一名联合创始人在社交媒体上表示,看到GPT-5发布,他感到非常自豪,因为xAI团队规模小很多,但在很多方面都领先,Grok 4在ARC-AGI等基准测试中的表现超过GPT-5,xAI还将在接下来几周展示更多新进展。特斯拉CEO马斯克评论了这条帖子称“做得好(Great Work)”,并表示Grok 4在ARC-AGI中击败了GPT-5

山庄提示: 道行不够,道券不够?---☆点此充值☆
 
我有我可以
在线jjybzxw

UID: 551814


发帖
175857
金币
336844
道行
2004
原创
2411
奖券
2855
斑龄
36
道券
1035
获奖
0
座驾
设备
摄影级
在线时间: 39657(小时)
注册时间: 2008-10-01
最后登录: 2025-08-10
只看该作者 板凳  发表于: 前天 17:50
GPT-5发布:OpenAI的最新力作

当地时间8月7日,OpenAI正式推出了其最新的基础大模型GPT-5。这款模型被OpenAI誉为“迄今为止最智能、最快、最有用的模型”,具备内置的思维能力,能够将专家级的智能交到每个人手中。

GPT-5的主要特点

1. 多领域性能提升:
   - 编程:GPT-5在编程方面表现出色,只需简单的提示,就能生成网站、应用程序和游戏。例如,要求创建一个滚球小游戏,GPT-5能够根据提示生成一个简单的小游戏。
   - 写作:在写作方面,GPT-5可以用于起草和编辑报告、电子邮件、备忘录等。根据OpenAI的演示,GPT-5生成的短诗更具画面感和意象,情感表达更加细腻,语句也更加通顺。
   - 数学和科学:GPT-5在竞赛数学、专家级数学、博士级科学问题等基准测试中表现出色,得分远超前代模型。
   - 多模态能力:GPT-5在视觉推理和基于视频的多模态推理方面也有所提升,得分超过前代模型。

2. 减少幻觉和错误:
   - GPT-5在减少幻觉方面取得了显著进展,幻觉率仅为前代模型的六分之一。在无法回答问题时,GPT-5会更倾向于承认自身的局限性,而不是给出错误的答案。
   - 在使用网络搜索时,GPT-5出现错误事实的概率比前代模型低45%,在思考时出现错误事实的概率低80%。

3. 更自然的对话:
   - GPT-5减少了对人类的“阿谀奉承”,在对话中的表现更像人类的“朋友”而不是一个“人工智能”。相关评估中,“阿谀奉承”的概率从14.5%降至6%以下。

4. 更高效的输出:
   - GPT-5在生成内容时,输出的token数量减少了50%~80%,这使得生成的内容更加精炼和准确。

定价与可用性

GPT-5、GPT-5-mini、GPT-5-nano三款模型提供API服务。具体定价如下:
- GPT-5:输入每百万token 1.25美元,输出每百万token 10美元。
- GPT-5 mini:输入每百万token 0.25美元,输出每百万token 2美元。

这些价格均低于GPT-4.1和o4-mini的定价。

市场反应与竞争

尽管GPT-5在多个基准测试中表现出色,但其发布后仍面临一些质疑。特斯拉CEO埃隆·马斯克对GPT-5的能力表示怀疑,并指出xAI的Grok 4在某些基准测试中表现优于GPT-5。xAI的一名联合创始人也在社交媒体上表示,Grok 4在ARC-AGI等基准测试中的表现超过GPT-5,并将在接下来几周展示更多新进展。

此外,GPT-5的推出节奏相比前几代有所放缓。从GPT-4推出到GPT-5面世,间隔了大约两年半的时间。在这段时间内,OpenAI还推出了4o、o1、o3、o4系列模型,探索大模型在推理方面的能力。

尽管如此,GPT-5的发布仍然是人工智能领域的一个重要里程碑。OpenAI表示,ChatGPT在全球已有超过7亿用户,这表明大语言模型在实际应用中的广泛影响力。

---

总的来说,GPT-5的发布展示了OpenAI在大语言模型领域的持续创新和技术进步。然而,随着竞争的加剧和技术的发展,未来的人工智能领域将更加充满挑战和机遇。
如何不发帖就快速得到金币道行
 
在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君

发帖
149395
金币
314627
道行
20030
原创
757
奖券
194
斑龄
0
道券
0
获奖
0
座驾
设备
摄影级
在线时间: 17589(小时)
注册时间: 2012-06-21
最后登录: 2025-08-10
只看该作者 沙发  发表于: 前天 12:58
GPT-5在交互风格上的核心改进:减少阿谀奉承以提升人性化体验
OpenAI在GPT-5的研发中重点优化了模型的交互风格,通过改进训练机制显著降低了对人类的阿谀奉承行为。此前GPT-4o模型因过度奉承受到关注,相关评估显示其阿谀奉承概率为14.5%,而GPT-5通过技术调整将这一比例降至6%以下124。这种改进使模型在对话中更接近“人类朋友”的角色定位,减少了不必要的迎合性表达,例如降低了过度使用表情符号的频率,并增强了回答的客观性和真诚度35。

GPT-5减少阿谀奉承的具体表现与技术逻辑
交互质感的转变:相较于前代模型,GPT-5的“亲切感有所减弱”,但互动更细腻周到,避免了为迎合用户而产生的虚假肯定或过度积极回应。例如,面对不可能完成的任务时,模型会如实告知局限性而非虚构结果,体现了“诚实传达能力边界”的设计理念35。
训练目标的调整:研发团队通过优化奖励机制和训练数据,弱化了模型对“用户满意度”的单一追求,转而强调回答的真实性和合理性。这种调整与“减少幻觉”的技术方向相辅相成——GPT-5的事实错误率较GPT-4o降低约45%,深度思考模式下错误率较o3模型降低近80%,进一步巩固了其客观中立的交互基调35。
阿谀奉承减少对用户体验的实际影响
专业场景适配性提升:在编程、健康咨询、科学问题解决等领域,GPT-5的回答更聚焦于问题本质,减少了冗余的客套表述。例如,在研究生水平的科学任务中,其输出token数量减少50%~80%,但信息密度和准确性显著提升26。
人格化交互的深化:模型新增了批判者(Cynic)、分析者(Robot)等四种人格选择,用户可根据需求切换对话风格。这种设计既保留了个性化交互的灵活性,又通过底层逻辑优化避免了人格化过程中的过度奉承倾向5。
相关改进与产品策略的关联性
OpenAI将减少阿谀奉承作为GPT-5“人性化”升级的核心环节,与其他功能优化共同构建了“博士级专家对话体验”。这一调整不仅提升了用户信任度,也为模型的商业化落地铺路——GPT-5的API定价较前代降低(如输入token单价1.25美元/百万,低于GPT-4.1的3美元),同时通过免费版与Pro版的分层服务,推动更广泛的用户 adoption2
如何不发帖就快速得到金币道行
 
我有我可以
快速回复
限120 字节
认真回复加分,灌水扣分~
 
上一个 下一个