“现在大家越来越认识到大模型不只是对话,更多是要思考怎么去做一些行为,从Chat到Act。”在11月29日智谱Agent OpenDay的大兴会场上,智谱董事长刘德兵表示。
他认为,最核心的是要用大模型来理解世界的通用知识,拿到通用知识之后用它去指导自己的行为,使得AI能像人一样去行动,这是大模型具有更大潜力的地方。
相较外界更为熟知的智谱CEO张鹏,刘德兵相对低调,但在推动智谱商业化方面起到了重要作用。他是中国工程院高文院士的弟子,担任过清华数据科学研究院科技大数据研究中心副主任,是智谱的核心团队成员。
发布会上,刘德兵公布了智谱在AI Agent(智能体)上的最新进展,宣布旗下自主智能体模型AutoGLM再次升级,其可在手机端执行超过54步的长步骤操作,也可以跨App执行任务。
比如,当想要采购火锅食材时,AutoGLM可以自主去打开APP,进行选购下单,在这种多步循环任务中,速度也超过人的操作。同时,它还可以进行跨APP操作,能对不同APP上的商品进行比价,然后选择最具性价比的产品进行购买。
“如果人来操作,就很繁琐,但Agent去操作就完全不是事情。”李德兵表示,这代表了大模型更强的能力,可以解锁更广阔的AI空间,将来可以连接更多的新生态。
智谱也打造了更多玩法,可以进行短口令执行,可以按照用户习惯点咖啡,而不用总是输入多个提示词,同时还有开盲盒的功能。目前,AutoGLM已开启内测,并启动10个亿级APP免费升级计划。
刘德兵还认为,这可以解决大模型面临的数据短缺问题。“通用数据基本被拿完了,没有新的数据了怎么办?可以考虑新的智能体,自主与现实进行交互,收集反馈信息,这会产生新的知识,可以成为新的数据,然后进一步对模型进行迭代升级。”
同时,智谱面向PC端推出GLM-PC智能体,让上网体验变得更加智能,其具备虚拟屏幕、发送信息、预定参与会议、远程和定时操作、网页和文档处理等能力。
目前,GLM-PC可以支持百度、知乎、微博等网站,通过语音输入就能自动检索网页,完成相应任务。比如想看某个电视剧的大结局,它可以自动打开网站找到这一集播放。
“GLM-PC就是无人驾驶电脑,它不依赖工具软件。我们人怎么用电脑,它就可以怎么去用。”刘德兵表示,未来可以真的实现工作生活“光说不干”。
今年以来,国内外多家企业,包括百度、苹果、谷歌、OpenAI等企业都在纷纷布局AI Agent。去年4月,智谱就在开始探索智能体,今年10月发布了第一个内测版本。
智能体已被视为大模型应用的关键。李彦宏就表示,智能体是AI应用的最主流形态,将会成为AI原生时代内容、信息和服务的新应用载体,前景广阔,并即将迎来爆发点。
比尔·盖茨此前认为,AI Agent将深刻影响教育、生活和医疗领域,改变人机交互,其影响力将超越以往任何数字技术。黄仁勋也认为,智能体将是AI应用流行的两大载体(另一个是机器人),将改变企业流程,提升生产力。
据Gartner预测,智能体将成为未来重要的技术趋势之一,预计到2028年,至少15%的日常工作决策将由智能体自主做出。
刘德兵认为,AI Agent代表了更符合人类直觉的一个交互方式。从Windows操作,到手机滑动,再到语音控制,机器与人之间的交互越来越自然顺畅。但受限于机器本身的能力,大模型与机器之间交互的时候,还有很多不便之处。“现在有了AI Agent之后,可以把它当成一个人,实现更加自然的交互。”
这也代表了具有五级水平的大模型能力开启新的阶段。刘德兵对搜狐科技表示,L1级语言能力已达到80%的水平,基本和人不相上下;L2级逻辑判断能力达到60%的水平,基本能用;L3级就是使用工具、自主规划的能力,大概处于30%的水平,属于刚刚入门。
第四级则是自我学习、自我探索的能力,大模型通过反馈、修改实现自我迭代,变得越来越强。第五级则是探索科学的能力,智能体之间通过交互可以实现自我成长。“第四级和第五级现在基本还在探索,但已经有人在做了。”刘德兵说。
OpenAI此前发布的o1就是大模型L2级能力的成果,而OpenAI目前也正在组建全新的多智能体系统研发团队,开启L3阶段研发。
刘德兵表示,AI Agent在今年真正的应用基本上可以认为是零,更多还处于初期研发阶段,但现在已经进入试用环节。他希望业界共同努力,包括大量用户使用、反馈、迭代,让它变得越来越好用。智谱也宣布和大兴区政府达成合作,共同推动大模型行业落地。
谈及智能体未来,刘德兵强调,智能体是大模型将来非常有潜力、非常有价值的应用方向。“一句话操作电脑、操作手机的时代,即将到来。”
同时,基于这样的能力,他认为,大模型操作系统不久也将实现。它将链接更多的终端设备,手机、电脑、汽车、穿戴设备等,构建一个更加互联互通的世界。