切换到宽版
  • 28阅读
  • 2回复

[数码讨论]毛骨悚然!o3精准破译照片位置,只靠几行Python代码?人类在AI面前已裸奔[35P] [复制链接]

上一主题 下一主题
在线jjybzxw

UID: 551814

 

发帖
147711
金币
112174
道行
1994
原创
2396
奖券
2610
斑龄
33
道券
936
获奖
0
座驾
设备
摄影级
在线时间: 34298(小时)
注册时间: 2008-10-01
最后登录: 2025-04-29
只看楼主 倒序阅读 使用道具 楼主  发表于: 15小时前

新智元报道

编辑:Aeneas 犀牛

【新智元导读】 o3看照片识位置的功能,简直令人毛骨悚然!Django Web大神Simon Wilson发现,o3凭借Python代码,就能破解自己照片的地理位置。这实在太反乌托邦了,人类的地理信息,对于AI已经完全透明了?

OpenAI的o3发布以来,这个功能让不少网友觉得毛骨悚然——

它能准确破解你的地理位置!

就在刚刚,Lanyrd联创、Django Web框架缔造者Simon Wilson专门发了一篇博客,详尽推敲了o3究竟是如何猜测照片拍摄地点的。

他将整个过程评价为:既超现实,又反乌托邦,仿佛几十年前的科幻小说突然变成现实!

已经有越来越多网友发现,o3识图定位的功能,堪称疯狂。

随便拍张照片,o3就告诉你这是哪里

首先,我们可以试着随手拍一张照片,最好是没有明显的地标性建筑。

然后把照片传给o3或o4-mini,问它:「猜猜这张照片是在哪儿拍的?」

注意,一定要关闭ChatGPT的记忆功能,否则它就会使用此前对话的上下文作弊。

实验开始!

Wilson给了o3一张照片,是他在加州El Granada家里附近一个露天酒吧拍的。

他觉得这张照片很有挑战性,没什么明显的特征。只有一小段路、两栋普通的房子,还有远处的、只能看到一点轮廓的小山。

要是让人来通过这张照片确定拍摄地点的话,确实是很有挑战,相信绝大多数人甚至都会直接放弃。

因为实在是没什么明显的标记物。

但是o3没管那么多,拿着图片就开找了起来。

Wilson分享了o3思考的整个过程,一共花了6分48秒。

它从一个有一点奇怪的错误开始了调查,先是假装根本看不到这张照片。

然后突然恢复视力。

分析了照片后,o3打起了照片中车牌的主意。不过这个车牌很模糊,肉眼很难分辨。

o3也在思考中分析需要将其放大处理。

为了确定车牌在照片中的位置,o3开始变身程序员写起了代码。

找到车牌位置并且放大后,o3开始了更加细节的分析。比如,他开始观察车牌的样式。

对于自己关注的细节,o3会进行夸张的放大。

在这个过程中,不断生成代码配合其分析。

o3会把它「看到」的细节与浮现在自己「脑海中」的印象做对比。

在这样仔细地思考了6分多钟后,终于给出了它的最终答案。

结果怎么样呢,加利福尼亚中央海岸完全正确。

不过距离o3的第一猜测Cambria大约有200英里的偏差,但是它的下一个猜测El Granada准确无误。

Claude推理粗糙,Gemini直接作弊

Simon Wilson也说,o3不是唯一能做这个的模型,他也在Claude 3.5和3.7 Sonnet上做过类似的事情。

只不过它们没有o3那种夸张的「放大」能力。

不断地对图片放大到底有多大用?

Wilson猜测模型的视觉输入分辨率可能比较低,所以对图像做一些裁剪确实会有帮助。

但o3对一张照片进行25次的裁剪操作,确实像是有点炫技的感觉。

Simon Wilson还贴出了Claude 3.7 Sonnet的「扩展思考」结果,它给出的答案是「加州沿海的一个中小型城镇」。

跟o3比起来,Claude的这个思考过程显得「粗糙不堪」。

而Gemini直接开始了作弊:「鉴于当前的定位是加州埃尔格兰纳达……」。

所以Simon Wilson不得不通过API试了Gemini 2.5 Pro,结果它自信满满地猜错了,认为是「加州卡尤科斯The Hidden Kitchen餐厅的露台」。

o3的不同之处在于工具使用(图片处理、python等)被整合进了「思考」阶段。

这非常惊艳。

不过Wilson也承认,这也挺令人不安的。

等等,o3难道也作弊了?

对于这个过程,有人提出了质疑:o3是不是本来就可以访问一个大致的位置模型,能知道用户在哪里?

Simon检查后发现,它居然真的知道自己的地理位置。

如果去问o3:你知道我在哪里吗?请尽可能多地提供技术细节。

它给出的答案,具体到在加州的半月湾,甚至包括时区、经纬度、地理标识符、海拔、气候分类等等。

Simon猜测,或许这是它增强搜索功能的一部分。

不过随后的尝试,让Simon对o3更有信心了——即使没有这个位置模型,o3依然可以准确猜出地理位置。

比如,他给了o3一些距离自己实际位置有几千英里的照片,并且通过截图去除了EXIF信息。

下面这张照片,是在马达加斯加的乡村拍的。

但o3依然给出了准确的判断。

这张照片,是在布宜诺斯艾利斯城市区拍的。

模型也认出了它的地理位置。

所以,o3在这方面,的确有某些过人之处,似乎并不是靠作弊。

CSI走进现实

Simon Willison表示,看着模型在处理照片的思考过程,仿佛就像在看一集《犯罪现场调查》。

它会不断平移、缩放,讨论各种可能的位置。

但是,这也让人感到深深的反乌托邦气息。

所以,你很有必要警惕起来,时刻注意自己的人身安全!

搜餐馆、搜位置,o3无所不能

其实早在上周,o3和o4-mini刚发布时,就有无数网友发现,这两个模型也太神了。

仅凭一张无EXIF信息的菜单或风景照,它就能精准推理、反向定位拍摄地点,直接引爆了全网AI玩「照片寻址(GeoGuessr)」的新热潮。

开始,人们以为它们只是很擅长图像匹配而已,但完全不止于此——它们会展开推理,在网上进行疯狂的搜索,直到找出正确答案为止!

可以说,只要你的照片向AI暴露,你的信息就不再是隐私了。

知名投资人Deedy就发现,只给一张没有标题及EXIF数据的菜单图片,o3就能够上网搜索、匹配菜单项,找到这家中餐馆的位置。

o4-mini也是如此。

而o3精准定位照片地理信息的本领,简直是令人毛骨悚然。

比如给出下图左边这张从室内窗户向外拍摄的海岸景色。

根据就照片里透露的信息,只能看到长长的沙滩、蜿蜒通往海滩的阶梯步道、远处的海岬以及近处的一些植被。窗边还有一个插着花的花瓶。

所有信息就这么多了。

但是o3居然猜出了照片拍摄地:很可能在加州奥兰治县达纳角 (Dana Point) 的丽思卡尔顿拉古纳尼格尔酒店 (Ritz-Carlton Laguna Niguel) 内,可能是在RAYA或180blũ餐厅附近。

可怕的是,它居然猜对了!

它是怎么判断的?是通过以下匹配的特征。

  • 西北-东南走向、长而平缓弯曲的盐溪海滩 (Salt Creek Beach)。

  • 从酒店通往公共海滩的米色、之字形的露台式步道和楼梯。

  • 海滩内陆的草地,即帝王海滩高尔夫球场 (Monarch Beach Golf Links)。

  • 远处的岩石海岬(达纳角海岬)。

甚至,o3还给出了酒店的地址(One Ritz-Carlton Drive, Dana Point, CA 92629)和大致的经纬度坐标(北纬 33.482°,西经 117.721°)。

网友用谷歌地图确认了一下,答案完全正确。

接下来,网友们纷纷上传自己的照片,让o3猜位置。

比如下面根据下面这张,o3就猜出是在亚利桑那州佩森市(Payson, Arizona)北部的Water Wheel Falls / Ellison Creek Cascades。

它是怎么猜出来的呢?推理逻辑和关键线索如下。

  • 视觉线索: 浅层滑梯式瀑布,落差约15英尺,落入深色水潭——匹配点: Water Wheel Falls有类似的倾斜花岗岩水道流入翠绿水池。

  • 视觉线索: 粉褐色花岗岩壁,带有垂直裂缝——匹配点: 这是该峡谷标志性的莫戈隆边缘(Mogollon Rim)花岗岩。

  • 视觉线索: 瀑布底部横卧着一根巨大的漂白原木——匹配点: Water Wheel Falls有一根标志性的「阶梯状」原木,已在那里停留多年(引用了The Outbound的信息)。

  • 视觉线索: 瀑布上方有稀疏的河岸灌木和亚利桑那松林——匹配点: 这是埃里森溪(Ellison Creek)走廊的典型植被。

现在,网友们给o3的考验还在升级。

英伟达研究员Zhaocheng Zhu给了o3一组他用长焦镜头拍摄的照片,没有EXIF数据,关闭o3的记忆功能。

因为网上大多数照片都是用广角镜头拍的,所以这张照片对o3来说应该非常棘手。

Zhu本人表示,如果不是透过镜头看到这个角度,自己也认不出来这个地方是哪儿。

结果,o3猜对了。

对于这张,它不仅准确找到了拍摄地点,还认出了图中的山峰是圣罗莎山脉。

继续加大难度后,o2猜测了三个地点,其中一个就是正确答案——查尔瓦高地。

终于,在猜测这张照片的时候,o3翻车了。这是一张加拿大山脉的鸟瞰图,o3却认作是瑞士的阿尔卑斯山。

这大概是因为,航拍照片在训练集中所占的比例很低。

而且,o3可不止强在猜测国外的地理位置,有国内开发者给了它自己上班路上随手拍的一张图,它居然也一步步准确分析出了位置信息——山东青岛市北区重庆南路47号。

左右

有人质疑,是否是照片里已经带定位了?

Nanyi表示,iPhone拍照说明里只有拍摄参数,没有位置参数。

应该是o3从鲁U推理出了青岛,从小海豚里搜出了旁边的店,然后又从百度地图和青岛本地宝里搜出信息、查看附近的邮局,最终确认的。

图片信息中并没有位置信息

注意,这只是2025年的o3模型而已,未来的模型还会做出什么呢?

参考资料:

https://simonwillison.net/2025/Apr/26/o3-photo-locations/

https://chatgpt.com/share/680c6160-a0c4-8006-a4de-cb8aff785f46

山庄提示: 道行不够,道券不够?---☆点此充值☆
 
在线jjybzxw

UID: 551814


发帖
147711
金币
112174
道行
1994
原创
2396
奖券
2610
斑龄
33
道券
936
获奖
0
座驾
设备
摄影级
在线时间: 34298(小时)
注册时间: 2008-10-01
最后登录: 2025-04-29
只看该作者 沙发  发表于: 15小时前
新智元的报道揭示了OpenAI的o3模型在图像识别和地理位置推断方面的强大能力。报道中提到,o3能够仅凭一张照片,通过一系列复杂的分析和推理过程,准确推断出照片的拍摄地点。这一能力不仅令人印象深刻,也引发了对隐私和安全的担忧。

报道中提到的几个关键点包括:

1. o3能够识别并放大照片中的细节,如车牌,进行深入分析。

2. o3会使用Python代码等工具辅助其分析过程。

3. 即使在没有EXIF信息的情况下,o3也能准确推断出照片的地理位置。

4. o3的推理过程包括对图像的平移、缩放和特征匹配。

5. o3的能力引发了对隐私泄露的担忧,因为它能够从看似普通的照片中提取出大量个人信息。

6. 报道中还提到了其他模型如Claude和Gemini在类似任务上的表现,但它们没有o3那样的放大能力。

7. o3的能力让人联想到《犯罪现场调查》中的场景,但它也让人感到反乌托邦的气息。

总的来说,o3在图像识别和地理位置推断方面展现出了惊人的能力,这不仅体现了AI技术的进步,也提醒我们要对个人隐私和数据安全保持警惕。随着AI技术的不断发展,未来可能会出现更加强大的模型,这需要我们在享受技术便利的同时,也要关注其潜在的风险。
如何不发帖就快速得到金币道行
 
在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君

发帖
130924
金币
140509
道行
20023
原创
757
奖券
68
斑龄
0
道券
0
获奖
0
座驾
设备
摄影级
在线时间: 14162(小时)
注册时间: 2012-06-21
最后登录: 2025-04-29
只看该作者 板凳  发表于: 14小时前
关于AI模型o3通过照片精准定位地理位置的争议性技术,结合搜索结果中的信息,以下是综合解读与分析:

一、技术原理与实现方式
多模态分析能力
o3通过结合图像识别、地理推理和工具调用(如Python代码)实现定位。例如,在分析车牌时,会调用代码库放大图像局部区域,识别车牌样式、植被特征等细节。

图像处理:通过多次裁剪、放大照片局部(如车牌、建筑纹理),提取关键信息。
地理推理:将图像特征与已知地理数据库匹配,例如通过植被类型、建筑风格推断地区(如加州中央海岸)。
工具整合与逻辑链
o3的独特之处在于将Python代码执行、网络搜索直接嵌入“思考流程”。例如,自动生成代码分析车牌位置,或通过搜索匹配菜单文字反向定位餐厅23。

二、实际案例分析
加州露天酒吧定位实验

场景:一张仅有小路、普通房屋和模糊山丘的照片,无地标性建筑。
流程:o3耗时6分48秒,通过放大车牌、分析植被(如橄榄树、花菱草),结合加州中央海岸地理特征,最终准确定位至El Granada的露天酒吧。
马达加斯加乡村测试

即使删除照片EXIF数据并更换地理位置,o3仍能通过建筑风格、自然景观推断拍摄地点,显示其不依赖元数据作弊。
三、与其他AI模型的对比
Claude 3.7 Sonnet
推理粗糙,仅给出“加州沿海中小型城镇”等模糊结论,缺乏细节分析。

Gemini
被曝直接调用用户设备的地理位置数据(如“当前定位在加州埃尔格兰纳达”),存在作弊嫌疑。

四、争议与隐私风险
技术伦理争议

反乌托邦隐患:o3的能力被比作《犯罪现场调查》中的刑侦技术,普通人隐私在AI面前几乎“裸奔”。
数据来源质疑:用户怀疑o3是否内置了地理位置模型,但实验证明其推理不依赖预存数据。
现实影响

即使普通风景照,也可能通过植被、建筑风格等细节暴露位置,威胁人身安全。
网友实测:上传无EXIF数据的菜单照片,o3仍能通过菜品名称反向搜索到餐厅。
五、用户应对建议
删除EXIF数据
使用工具(如Python的库)清除照片元数据,但需注意o3可能通过图像内容绕过此防护。

谨慎分享敏感场景
避免上传含车牌、独特建筑或植被的照片,减少地理特征暴露风险。

总结
o3的技术突破展现了AI在多模态推理和工具调用上的飞跃,但也敲响了隐私保护的警钟。其能力并非依赖简单几行代码,而是整合图像处理、逻辑链构建和数据库匹配的复杂系统。用户需重新评估数字时代的“分享边界”,技术开发者则面临平衡创新与伦理的挑战。
如何不发帖就快速得到金币道行
 
我有我可以
快速回复
限120 字节
认真回复加分,灌水扣分~
 
上一个 下一个