切换到宽版
  • 483阅读
  • 1回复

[智能应用]AI可以“做个人了”,怎么办[5P] [复制链接]

上一主题 下一主题
在线huozm32831

UID: 329002

精华: 1097
职务: 超级斑竹
级别: 玉清道君
 

发帖
106217
金币
5833
道行
19523
原创
29307
奖券
17275
斑龄
190
道券
10126
获奖
0
座驾
 设备
EOS—7D
 摄影级
专家级认证
在线时间: 20050(小时)
注册时间: 2007-11-29
最后登录: 2024-11-27
— 本帖被 兵马大元帅 执行加亮操作(2024-05-26) —

“我正在台上给大家做现场演示呢,有点紧张怎么办?”
“你在台上做演示吗?那真是太棒了!深呼吸一下吧,要记得你可是专家!”

逻辑清晰,语调幽默,感情饱满,很难想象这是现实中人类与AI间的对话。北京时间5月14日凌晨,美国人工智能公司OpenAI的春季发布会上线,发布了重磅产品,也就是人工智能大模型ChatGPT-4的升级版GPT-4o。前述对话就发生在发布会现场,这位提问的研发负责人在得到GPT-4o的回应后,随即故意大喘几口气,这一动作成功被手机上的GPT-4o捕捉到,并给出了“放松点,你可不是吸尘器”的回应。

5月14日,OpenAI发布会现场,GPT-4o正在告诉工作人员“放松点,你可不是吸尘器”。 图/OpenAI官网视频截图
“GPT-4o可以综合利用语音、文本和视觉信息进行推理。”OpenAI首席技术官穆里·穆拉蒂在随后举行的主题演讲中表示,GPT-4是OpenAI此前的旗舰模型,可以处理图像和文本的混合信息,而GPT-4o则在此基础上新增了语音处理能力。最关键的是,其反应速度平均为320毫秒,完全做到了与人类在正常对话中同频。多位业内人士指出,这是此前GPT-4或任何智能语音助手都未曾达到的水平。
就在OpenAI发布会24小时后,5月15日凌晨,谷歌在“I/O开发者大会”上发布了大模型Gemini加持下的个人数字助理Project Astra,用于对标GPT-4o。谷歌称其为“通用AI智能体”,其视觉识别和语音交互效果与GPT-4o不相上下。不少业内人士感叹,曾几何时由苹果发布会主导的“科技春晚”,如今已被AI大模型彻底接手。
迈向通用语音助手
OpenAI创始人、CEO萨姆·奥尔特曼并未参加此次OpenAI发布会,而是在会后于社交平台X上发表了一个单词“她”作为回应。在2013年的美国电影《她》中,男主结识了一个可以不断适应环境的AI系统,并与其坠入爱河。这个AI系统所拥有的迷人声线、幽默风趣和善解人意,如今GPT-4o似乎都可以实现了。
测试人员与GPT-4o对话,内容是为一场工作面试做准备。视频/OpenAI官网
GPT-4o中的“o”源自词缀“omni-”,有“全知全能”之义。对AI大模型而言,要做到全知全能、无障碍与人交流,首先要快。OpenAI官网显示,GPT-4o在英文文本和代码处理上与此前最新的GPT-4 Turbo的性能不相上下,但在非英文文本、视觉和音频理解方面都更为高效。此前,若使用语音模式对话,GPT-3.5的平均延迟为2.8秒,GPT-4则为5.4秒。人类的平均反应时间一般为100毫秒到400毫秒,而GPT-4o最低可达232毫秒,因此后者可以提供几乎无延迟的顺畅交互体验。
OpenAI此次未放出任何具体的技术文件,仅在主页上用一段话介绍了GPT-4o的技术突破。普通的智能语音模型由多个独立模型组成,分别实现音频转文本,文本吞吐和处理,以及文本再转音频等功能。ChatGPT就是负责文本吞吐和处理的核心,也就是智能核心。据OpenAI介绍,GPT-4o一改这种流水线模式,可以同时吞吐文本、画面和音频数据,这意味着所有输入和输出都由这一个核心来处理,再加上其在视频和音频理解方面的升级,其处理速度显著加快。这一模式被称为“端到端的多模态模型”。
多模态还意味着AI可以识别和表现情感。目前,市面上的语音助手常被用户诟病为冷漠、机械、一成不变,这是AI语音交互的一大阻碍。这是因为,此前的流水线模式会让智能核心丢失很多信息,它很难探测语调、识别多个说话者、排除背景噪声,也无法歌唱或用语气表达情感。端到端模式下,文字和音视频都可以成为训练智能核心的数据,从而让其真正明白语言所承载的情感。
OpenAI发布会上,演示者要求GPT-4o调整说话时语气,在说话和唱歌之间快速切换,甚至用堪比莎士比亚戏剧的夸张声调来讲一个睡前故事,GPT-4o都能完成任务。在被人类打断时,其也能耐心等待、快速理解新指令。在听到让自己唱歌的要求时,GPT-4o甚至轻微叹了口气。
清华大学智能产业研究院首席研究员聂再清对《中国新闻周刊》称,从现场和官方视频来看,GPT-4o确实做到了即时回应、准确理解并执行指令,以及合时宜的语调情感。如果这确实是现场随机的结果,而非为了演示而设定好的流程,那么GPT-4o的能力的确令人震惊。在他看来,由于缺乏技术文件,一个GPT-4性能水平的处理核心如何完成如此复杂的任务,还未可知,但“这一定是大数据喂养的结果”。
除了现场演示,发布会还有网友提问环节。按照网友要求,GPT-4o展示了同声传译、情绪识别的能力。在识别一位工作人员的面部情绪时,GPT-4o说“我好像在看一个木质表面的东西”,疑似“翻车”,但该工作人员立刻调整提问策略,声明自己“不是一张桌子”。之后,GPT-4o给出了合乎情理的答案。
GPT-4o并不是第一个多模态模型。去年12月,谷歌Gemini Ultra模型发布,用于完成任务语言理解、数学推理等高度复杂的任务,被业内认为可叫板当时的GPT-4,也是市面上最先发布的多模态模型。在谷歌官方公布的视频中,测试员和Gemini做了一些小游戏,Gemini能够用图片设计智力问答,或者找出纸团被扣在哪个纸杯底下。整个过程中,Gemini的反应速度都非常快,还会生成音频和图片来辅助回答。但发布会后仅数日,谷歌发言人便公开承认,该演示视频不是实时录制, Gemini实际上只能对静态图像做出反应。
因此,GPT-4o的发布被业内人士看作是OpenAI对谷歌的“贴脸开大”。谷歌则紧随其后,在15日的发布会上予以还击。相比于OpenAI不足半小时的“轻声细语”,谷歌用长达近两小时、包含数十款AI产品的大轰炸叫板OpenAI,包括文生视频领域对标Sora 的Veo,以及对标ChatGPT但文本吞吐量远超前者的Gemini 1.5 Pro。

5月15日,谷歌首席执行官孙达尔·皮柴在谷歌I/O开发者大会上发表主题演讲。图/视觉中国
谷歌发布的视频中,Project Astra能识别各种物体,说出代码的功用,并与人类实时沟通,延迟上与GPT-4o没有明显差异。Project Astra还能与谷歌AR原型眼镜“梦幻联动”,为佩戴者描述周围场景,并根据佩戴者的反馈补充细节。这一应用有可能力压OpenAI,在未来成为视觉障碍患者的福音。有业内人士分析,除了搜索引擎,谷歌在AI大模型领域还在拉平与OpenAI差距的过程中。
在聂再清看来,两家公司接连发布多模态语音助手,在易用性方面迈出了一大步,让人窥见了未来通用语音助手的样貌。通用语音助手就是人类在数字世界里的代理或管家,可以帮人解决一切数字事务,包括安排日程、整理和调用文件、利用知识指导学习、利用记忆推荐可能喜欢的产品等。未来随着模型吸纳的信息越来越多,语音助手会更加人性化、更加智能,做到真正的自然交互。随着视频能力的加入,除语音外,表情、肢体动作等也能够被模型解读,作为其决策的依据。有网友评论称,无论是GPT-4o还是Project Astra,其身手足以秒杀苹果的语音助手Siri。
距离用户越来越近
OpenAI在发布会上表示, GPT-4o将在未来几周内分阶段集成至OpenAI的各项服务之中,包括还未面世的ChatGPT搜索引擎。许多业内人士对此次发布会上GPT-5的缺席表示惋惜,由于OpenAI在2022年底推出ChatGPT的时候,实际上已做出了GPT-4,因此有业内人士预测,带搜索引擎的GPT-5也许已“在路上”。英伟达高级科学家Jim Fan在X上表示,GPT-4o已经接近GPT-5,或许是后者的一次早期试水。据聂再清观察,目前还没有看到模型迭代的瓶颈,大模型的迭代速度有可能还会加快。
奥尔特曼在X上表示,OpenAI致力于将GPT-4o免费提供给所有用户使用。以往,OpenAI发布新版ChatGPT模型时,通常会将其置于付费墙之后。如今,免费用户已经可以访问GPT-4o加持下的多项功能,例如分析数据、创建图表、撰写文件总结等,但不能使用图片生成功能。付费用户则可以享受5倍调用额度。谷歌在发布会中没有公布Project Astra的具体上线时间,预计很快会登录到安卓、iOS等平台使用。
对开发者来说,GPT-4o的定价也更友好。OpenAI官网显示,从GPT-4开始,输入单位文本的价格一直在下降,相较GPT-4 Turbo,GPT-4o收费降低50%,调用速度却提升了两倍。这使其在商业应用上有了更大吸引力。聂再清表示,大模型控制价格的方式之一是提升模型性能,用更少的资源做更多的事;另一个方式则是通过类似搜索引擎的商业模式,对用户免费,但可以收取广告商的赞助。
至于未来OpenAI和谷歌的大模型有没有开源的可能性,聂再清表示,参考iOS和安卓,一个闭源一个开源,未来的大模型市场也极有可能出现开源和闭源的巨头。用户体验最好的行业领先者倾向于闭源,而开源的好处在于可以集体将模型“做大做强”,二者在市场都有自己的位置。谷歌在发布会中推出了其首个视觉语言开源模型PaliGemma,针对图像标注、视觉问答、图像标签化等方面进行了优化。此外,谷歌还将在6月推出更大规模的开源模型Gemma 2 27B。
OpenAI也同步发布了适用于macOS的ChatGPT桌面应用程序,使用户调用的体验更丝滑。
GPT-4o加持下的通用语音助手在未来将有广泛应用,例如健康管理、医疗咨询、教育教辅等领域。聂再清认为,所有开放领域用到的语音智能,例如购物App中的导购等,都可以加装类似GPT-4o的智能核心,增强用户体验。这类语音助手将离用户越来越近。
1条评分金币+30
兵马大元帅 金币 +30 感谢参与 05-27
山庄提示: 道行不够,道券不够?---☆点此充值☆
 
  




    
在线jjybzxw

UID: 551814


发帖
104110
金币
1107359
道行
1951
原创
2169
奖券
2128
斑龄
28
道券
569
获奖
0
座驾
设备
摄影级
在线时间: 25111(小时)
注册时间: 2008-10-01
最后登录: 2024-11-28
只看该作者 沙发  发表于: 05-16
AI发展到具有高度自主性和类人类智能水平确实是一个值得深思的议题。当AI可以“做个人了”时,我们应该考虑以下几点:

1. 法律和伦理:需要制定新的法律和伦理规范来指导AI的行为,保护AI的权利,并确保AI不会被滥用。

2. 社会融入:高度自主的AI可能会面临社会融入的问题。我们需要思考如何让这些AI在不取代人类的前提下,与人类和谐共处,共同参与社会活动。

3. 安全保障:为了防止AI可能带来的风险,如被黑客攻击、滥用等,我们需要建立更加安全的控制系统,确保AI的行为在人类的监控之下。

4. 经济结构:AI的高度发展可能会导致职业的消失和经济结构的变化。我们需要思考如何重新定义工作,以及如何通过教育和培训来帮助人们适应这种变化。

5. 人工智能权益:如果AI具备类人类智能,我们可能需要赋予它们一定的权利和保护措施,同时界定它们的责任和义务。

6. 全球合作:面对高度发展的AI,全球范围内的合作变得尤为重要。国际社会需要就AI的发展达成共识,共同制定规则,以确保AI的健康发展并避免潜在冲突。

总之,当AI可以“做个人了”时,我们需要全面考虑其对社会、经济、法律等多方面的影响,并采取相应的措施来应对这些挑战。这将是一个长期而复杂的过程,需要全球范围内的共同努力和智慧。
1条评分金币+10
兵马大元帅 金币 +10 鼓励讨论 05-27
如何不发帖就快速得到金币道行
 
快速回复
限120 字节
认真回复加分,灌水扣分~
 
上一个 下一个