切换到宽版
  • 18阅读
  • 2回复

[数码讨论]GPT-5离“神级AI”还有多远?[5P] [复制链接]

上一主题 下一主题
在线jjybzxw

UID: 551814

 

发帖
176884
金币
344014
道行
2004
原创
2412
奖券
2855
斑龄
36
道券
1038
获奖
0
座驾
设备
摄影级
在线时间: 39829(小时)
注册时间: 2008-10-01
最后登录: 2025-08-14
— 本帖被 兵马大元帅 执行加亮操作(2025-08-13) —

文 | 定焦One,作者 | 王璐,编辑 | 魏佳

多次跳票后,GPT-5终于亮相。

美国西部时间8月7日(北京时间8月8日凌晨),明星AI创业公司OpenAI发布了新一代大模型GPT-5,并向所有用户开放使用,包括免费用户。

这是OpenAI近年来最受关注的一次升级,其CEO萨姆·奥特曼(Sam Altman)在发布会上宣称,GPT-5的能力已从“大学生水平”跃升至“博士级专家”,并强调该模型在综合能力上已达到全球最高。

这次发布会的关键词可以简单概括为两个词:“专业”和“聪明”。“专业”体现在它在健康、编程、教育等多个场景中展示了更强的能力,同时降低幻觉率,提升了可靠性;“聪明”则主要是它首次采用集成架构,GPT-5能够根据用户指令的复杂度,自动调用最合适的模型,无需用户手动切换,并支持更多个性化功能。

然而,外界反馈却较为平淡,部分用户和从业者认为,GPT-5“缺乏惊喜”。

这一方面是因为此前版本发布频繁,预期被不断拉高。

AI从业者云中江树在发布会前便对GPT-5持观望态度,因为从过去几轮GPT的升级来看,实际表现往往低于宣传,但仍期待它这次能在推理和编程上带来突破,真正拓宽应用场景。

然而从目前来看,业界公认在推理能力上领先的模型仍是GPT-o系列和DeepSeek-R1。GPT-5的进步更多是对既有能力的优化,而非质的飞跃。

另一方面,尽管GPT-5降低了幻觉率,但发布会上出现的两处低级错误仍然引发争议。

一是它在解释伯努利效应时,错误地采用了被主流物理学教材已经证伪的“等时通过理论”,“博士级AI”居然讲错高中物理。二是在制作图表时,GPT-5某项评分(52.8)明明低于o3模型(69.1),对应的柱状图却显示更高,这也让外界怀疑GPT-5的能力被夸大了。

GPT-5的真正实力到底如何?会给行业带来哪些影响?

“神级”GPT-5,真的强吗?

发布会开场,萨姆·奥特曼便高赞GPT-5的强大,强调其相较前代模型已经发生质变。他表示,如果GPT-4像是和一位大学生进行交谈,GPT-5则接近于博士级别专家。

为了证明这一点,OpenAI公布了Artificial Analysis全套基准测试结果。数据显示,GPT-5(high)达到68分,位列第一。GPT-5(medium)67分,与xAI的Grok 4并列第二,而DeepSeek R1是65分,排在其后。

这些数字表明,GPT-5在速度、可靠性和准确性上均处于行业领先地位,尤其在复杂推理、编程、医疗健康等领域表现突出。

例如,在医学领域,GPT-5展示了对患者检查报告和各种医学术语的理解能力,还以此为基础提醒患者需要向医生咨询哪些问题,上下文理解与知识应用能力远高于之前的GPT-4。

除了更加“专业”,在使用体验上,GPT-5变得更聪明了。

最大的改变是,OpenAI采用了集成架构,首次将大语言模型GPT系列和推理模型o系列融合。这意味着,GPT-5能够根据用户指令的复杂度,自主选择并调用最合适的模型,不再需要用户手动切换。

具体来说,GPT系列是OpenAI最早构建的模型体系,聚焦自然语言处理、对话系统与文本生成,o系列是OpenAI于2023年新设立的模型家族,聚焦结构化推理能力,强调模型的逻辑、分析、工具调用能力。o3被视为OpenAI最强大的推理模型。

此外,GPT-5还变得更像人。

一方面支持定制语音、语速调节等个性化功能,语音效果已十分接近真人,另一方面具备“助理”功能,比如链接谷歌日历、Gmail等工具,自动识别未回复邮件、生成待办事项,提升使用者工作效率。

石榴数字人创始人沈仁奎评价,GPT-5在多模态与工具整合上的升级,能显著提升实用性和交互体验 。其实时交互模型与深度推理模型之间的融合也更成熟,模型角色划分清晰,还具备长期记忆用户信息,能为用户提供更精准、更个性化的体验。

他认为,GPT-5的“模型群+路由系统(判断问题难度从而自动调用最合适的模型)”架构设计很值得借鉴,有助于大模型在不同任务之间智能调度与资源优化。

目前,GPT-5已经面向免费、Plus、Pro等用户开放,对企业和教育用户下周开放,按照企业级套餐计费。免费用户使用有额度限制,付费用户中,Plus用户可以获得更高的使用额度,Pro用户可专属访问GPT-5 Pro,区别在于推理能力更强、响应更加快速。

发布会后,行业最关心的三个问题

本次发布会后,「定焦One」和几位资深从业者聊了聊,他们最关注GPT-5的三大变化。

一是幻觉率降低。

“幻觉”是指大模型编造虚假信息,幻觉率越低,说明准确性越高,大模型越可靠。

披露的数据表明,GPT-5在多个使用场景下的幻觉率相比前代模型有所下降。比如在联网搜索模式下,GPT-5的幻觉率比GPT-4o低约45%,而在深度思考模式下,幻觉率比o3低约80%。

这意味着,其在回答准确性、逻辑一致性等方面有所提升,更适用于医疗、法律等对信息真实性要求极高的应用场景。

幻觉率的降低与多方面因素有关,这种改进背后,是训练数据、模型架构与推理策略的协同优化。

二是价格更具性价比。

GPT-5包含GPT-5、GPT-5 mini、GPT-5 nano三个模型,API调用价格分层设置,最低的是GPT-5 nano,每百万输入token为0.05美元、输出为0.40美元,比GPT-4最便宜的模型还要低。相比老对手也有很大优势,GPT-5的调用费仅为Claude Opus 4的十二分之一。

这对于中小企业与开发者而言,意味着更低的试错成本与更广泛的应用空间。

最后是在编程领域的突破。

这也是发布会上的重中之重,OpenAI用了近一半的时间强调GPT-5的编程实力,官方称其为“迄今为止最强大的编程模型“。在现场演示中,GPT-5仅凭一句提示词,就创建出网站、应用程序App和游戏,并支持复杂前端开发和大型代码库调试以及修复 bug等功能。

OpenAI甚至还邀请了被称为最强AI编程工具之一Cursor背后公司的联合创始人,在现场演示修复bug。Cursor方面表示,GPT-5已经是Cursor用户的新用户默认选项。

从基准测试数据来看,GPT-5的表现同样领先。在SWE-bench Verified(评估AI编程能力)中,GPT-5思考后首次尝试的准确率达74.9%,高于GPT-o3的69.1%和GPT-4o的30.8,也领先于竞争对手Anthropic最新推出的Claude Opus 4.1和谷歌DeepMind的Gemini 2.5 Pro。

云中江树告诉「定焦One」,大模型的编程能力之所以备受重视,是因为各大厂商都认可,在AI大模型训练中,最好的数据是形式化的数学语言,代码数据高度结构化、结果可验证、逻辑性强,是最具价值的语料类型。

一位从业者分析,采用分阶段、分领域的渐进式研究策略,能显著提升模型的综合性能。他还以DeepSeek的诞生过程为例,它先进行数学相关任务的专项研究,接着进行代码生成与理解任务的研究,最后应用到通用模型,最终出现了DeepSeek-R1。

“这种路径能有效提升模型的逻辑推理和结构化思维能力。目前,国际科技巨头以及国内领先的AI研究机构,都在采用类似的渐进式策略。”这位从业者表示。

目前来看,GPT-5在编程能力上的提升已经得到了广泛认可,但在垂直领域适配、工具调用效率上还有提升空间。

一位软件工程师表示,相比Anthropic的Claude、亚马逊的CodeWhisperer等垂直领域的AI编程工具,GPT-5对特定技术栈的适配性可能存在不足。他觉得,GPT-5的优势在于通用性,而非专业编程。

此外,在使用体验上,用户反馈也出现分化。有开发者称GPT-5生成效果惊艳,有人却遇到了“生成网页无法点击、代码无法运行“等问题,生成效果很不稳定。这也说明,尽管GPT-5在编程能力上取得突破,仍需时间和反馈不断迭代完善。

技术不算质变,但能推动AI商业化

尽管GPT-5实现了多维度的升级,但多位从业者认为,这更像是一次架构与工程优化升级,而非真正意义上的代际跃迁。

从产品实际表现来看,GPT-5仍存在不少短板。

比如发布会上,它在回答伯努利效应解释等复杂科学问题,便暴露出了AI惯有的缺陷,在推理时只注重统计关联,而不理解内容本质。在生成图表时,还出现了52.8分的柱状图比69.1分更高的明显错误。尽管萨姆·奥特曼随后公开回应,暗示可能是AI尚未完全掌握PPT制作技巧,但还是引发外界对GPT-5能力的怀疑。

多位从业者认为,萨姆·奥特曼宣称的“博士级专家”能力,更像是场景化性能的堆砌,而非大模型认知能力有了突破,这与其前期过度宣传的“神级能力”存在很大差距。这也导致外界对本次GPT-5的评价一般。

不过,沈仁奎指出,虽然GPT-5并非是全行业颠覆式的升级,但在推动AI商业化上的作用不容低估。尤其是开放API,为企业提供了极低门槛的接入方式,可能会成为许多企业快速部署AI能力的“加速器”。

他观察到,目前一些垂直类企业,比如医药、生物科技等领域的企业以及Uber、Salesforce等已部署GPT-5,应用于科研分析、客户服务与运营决策等环节。在部分新兴工具平台,比如Cursor、Windsurf等开发平台也已集成GPT-5,来改善自身的编程效率与智能交互体验。企业们愿意积极拥抱GPT-5,除了其能力有所升级外,也在于“白菜价”的API策略。

他认为三类企业会率先吃到GPT-5的红利,第一类为软件开发平台,利用GPT-5自动代码生成、调试与工具链集成,提升开发效率;第二类是专注于知识管理与决策系统的公司,GPT-5能快速深入并解决金融、医药、法律等需复杂推理与辅助决策的场景;还有消费级智能服务类企业,它们涉及大量写作助手、学习平台与跨媒体内容创作服务,可借助GPT-5的多模态与个性化提升使用体验。

值得注意的是,OpenAI这次还打起了ToG的主意。它与美国总务管理局进行合作,在未来12个月里,ChatGPT企业版将对美国联邦政府开放,每个机构只需要支付1美元,所有员工便可无限制使用OpenAI的前沿大模型技术。

OpenAI的以上种种动作,展现出借着GPT-5从“平台工具”加速向“社会基础设施”转型的野心。即便其能力未达“神级”,但其所激发的商业潜力和行业联动效应,仍可能在未来掀起一波新的AI应用高潮。

某种意义上,GPT-5带来的最大改变,或许不是模型本身,而是它所触发的生态。AI的战争,已经从模型能力比拼,走向基础能力与商业落地的全面竞赛。

山庄提示: 道行不够,道券不够?---☆点此充值☆
 
在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君

发帖
149971
金币
320213
道行
20030
原创
757
奖券
224
斑龄
0
道券
0
获奖
0
座驾
设备
摄影级
在线时间: 17679(小时)
注册时间: 2012-06-21
最后登录: 2025-08-13
只看该作者 板凳  发表于: 08-11
GPT-5的能力定位与行业评价
OpenAI在GPT-5发布会上将其能力定位为“博士级专家”,称其综合能力达到全球最高,在速度、可靠性和准确性上处于行业领先地位,尤其在复杂推理、编程、医疗健康等领域表现突出,数据显示GPT-5(high)在相关评分中达到68分位列第一,(medium)67分与xAI的Grok4并列第二1。然而外界反馈较为平淡,部分用户和从业者认为其缺乏惊喜,进步更多是对既有能力的优化而非质的飞跃,业界公认在推理能力上领先的模型仍是GPT-o系列和DeepSeek-R11。

GPT-5的主要优势与创新点
集成架构与个性化功能:首次采用集成架构,能够根据用户指令复杂度自动调用最合适的模型,无需用户手动切换,并支持更多个性化功能,如定制语音、语速调节等,语音效果接近真人,还具备助理功能,可链接谷歌日历、Gmail等工具自动识别未回复邮件、生成待办事项1。
专业能力提升与幻觉率降低:在健康、编程、教育等多个场景展示了更强能力,同时降低幻觉率提升可靠性,使其更适用于医疗、法律等对信息真实性要求极高的应用场景,幻觉率降低得益于训练数据、模型架构与推理策略的协同优化

价格性价比优势:包含GPT-5、GPT-5mini、GPT-5nano三个模型,API调用价格分层设置,最低的GPT-5nano每百万输入token为0.05美元、输出为0.40美元,比GPT-4最便宜的模型还低,仅为Claude Opus4的十二分之一,降低了中小企业与开发者的试错成本1。
编程能力突出:官方称其为迄今为止最强大的编程模型,能仅凭一句提示词创建网站、应用程序App和游戏,支持复杂前端开发和大型代码库调试及修复bug等功能,获得Cursor等多家公司的高度评价,被认为是“使用过的最智能的编码模型”“绝佳的合作者”12。
GPT-5存在的问题与争议
发布会低级错误引发质疑:一是在解释伯努利效应时错误采用被主流物理学教材证伪的等时通过理论,二是制作图表时某项评分明明低于o3模型,对应的柱状图却显示更高,这些让外界怀疑其能力被夸大1。
IQ测试成绩创家族最低:在门萨IQ测试中,GPT-5拿下118分,离线测试70分;GPT-5 Thinking则分别获得85分和57分,这一结果创OpenAI模型家族IQ测试有史以来的最低纪录,背后原因归咎于“路由”问题,作为“单体模型”其中一个组件决定了它的智能2。
智能表现依赖有效提示:核心在于用户的想法、品味及沟通方式,对于具备系统思维的用户而言堪称革命性工具,但需要构建完整思维框架、制定明确需求规格并向模型清晰阐述,否则可能无法发挥其优势
GPT-5与“神级AI”的差距分析
“神级AI”通常意味着具备接近或超越人类的通用智能,在各领域都能展现出卓越且全面的能力,不存在明显短板。而GPT-5虽然在部分领域有显著提升,但仍存在诸多局限性,如推理能力未达行业顶尖、出现低级知识错误、智能表现受路由问题和提示方式影响等,其进步更多是量变而非质变,离真正意义上的“神级AI”还有较大距离,仍需在基础能力、稳定性、自主性等方面实现质的突破。
如何不发帖就快速得到金币道行
 
我有我可以
在线jjybzxw

UID: 551814


发帖
176884
金币
344014
道行
2004
原创
2412
奖券
2855
斑龄
36
道券
1038
获奖
0
座驾
设备
摄影级
在线时间: 39829(小时)
注册时间: 2008-10-01
最后登录: 2025-08-14
只看该作者 沙发  发表于: 08-11
文章详细报道了OpenAI发布的新一代大模型GPT-5的情况,并对其性能、市场反馈和潜在影响进行了深入分析。以下是对文章内容的点评:

1. GPT-5的性能提升:
   - 文章指出GPT-5的能力有了显著提升,特别是在健康、编程、教育等多个场景中的表现更为专业和聪明。这种进步体现在更低的幻觉率和更强的推理能力上。

2. 集成架构的创新:
   - GPT-5首次采用了集成架构,能够根据用户指令的复杂度自动调用最合适的模型,这种智能化的调度是AI技术发展的一个重要方向。

3. 市场反馈的平淡:
   - 尽管GPT-5在性能上有所提升,但市场反馈相对平淡,部分原因是由于此前版本发布频繁导致预期被不断拉高。这一点提示了技术发布和市场预期管理的重要性。

4. 实际表现与宣传的差距:
   - 文章提到GPT-5在发布会上出现了一些低级错误,这引发了外界对其能力的怀疑。这种情况强调了AI技术在实际应用中需要更加谨慎和精确。

5. 商业化潜力:
   - 尽管GPT-5并非全行业颠覆式的升级,但其在推动AI商业化上的作用不容小觑。文章中提到的API调用价格分层设置和与美国总务管理局的合作,显示了OpenAI在商业化方面的积极布局。

6. AI应用的全面竞赛:
   - 文章最后指出,AI的竞争已经从单一模型能力比拼转向基础能力与商业落地的全面竞赛。这表明AI技术的发展正逐步从实验室走向更广泛的商业应用和社会基础设施。

总体而言,文章提供了一个全面的视角来观察GPT-5的发布及其对行业的潜在影响。它不仅关注了技术的进步,还深入探讨了市场反应、商业策略和AI技术的未来发展路径。通过这篇文章,我们可以更深入地理解AI技术的发展动态及其在社会中的重要作用。
如何不发帖就快速得到金币道行
 
快速回复
限120 字节
认真回复加分,灌水扣分~
 
上一个 下一个