OpenAI在4月16日发布了两款新的推理模型o3和o4-mini,这些模型被描述为迄今为止最智能的模型,它们在智能性和实用性方面设定了全新标准。o3模型是OpenAI迄今为止最强大的推理模型,它在数学、编码、科学和视觉感知等领域的表现超越了前代模型。o3非常适合处理需要多方面分析的复杂查询,而o4-mini则是一款优化的小型模型,旨在提供快速且经济高效的推理。
在o3的开发过程中,OpenAI发现了一个与GPT系列预训练相同的趋势:计算量越大,性能越好。因此,他们在训练计算量和推理过程中的思考方面都提升了数量级,从而实现了明显的性能提升。通过强化学习,新模型还学会了使用工具。
o3和o4-mini能够组合使用ChatGPT中的所有工具,包括网页搜索、图像生成和使用Python分析数据等。在提供的示例中,o3模型经过40秒的推理时间,多次使用搜索功能,除了文字回复外还能直接生成图像和图表。
新模型在视觉推理方面也取得了突破。它们不仅可以“看到”图像,还能够用图像来思考,并将图像整合到思维链中。例如,当用户上传一张倒着拍的手写笔记照片时,模型能够借助工具对图像进行缩放、旋转或裁剪,最终识别出笔记上的手写内容。
OpenAI强调,他们对o3和o4-mini两个模型进行了至今最严格的安全压力测试。这些新模型的发布反映了OpenAI将o系列的推理能力与GPT系列的对话能力、工具使用能力相融合的发展方向。未来的模型将支持无缝、自然的对话,同时进行主动的工具使用和高级问题解决。