切换到宽版
  • 12阅读
  • 2回复

[数码讨论]消息称Anthropic及OpenAI的AI爬虫“蚕食”互联网 [复制链接]

上一主题 下一主题
在线jjybzxw

UID: 551814

 

发帖
218494
金币
665008
道行
2006
原创
2444
奖券
3260
斑龄
41
道券
1203
获奖
0
座驾
设备
摄影级
在线时间: 47565(小时)
注册时间: 2008-10-01
最后登录: 2026-01-13
只看楼主 倒序阅读 使用道具 楼主  发表于: 昨天 09:18

IT之家 1 月 13 日消息,通常情况下,引用其他网站内容的人工编辑会附上消息原始信息来源,以便读者参考原文内容,从而为原始平台带来访问流量,这构成了互联网长期运行的“隐性契约”。

然而在当下 AI 时代,这套机制正在迅速瓦解。当下各大 AI 机器人直接根据用户需求爬取网站数据,从而导致用户访问原始网站的意愿明显下降,同时相应网站反遭相应 AI 工具大量消耗流量。

综合 Cloudflare 及 Business Insider 报道,Cloudflare 从 2025 年开始系统性地追踪这一不公平现象,平台通过统计大型科技公司爬虫抓取网站的请求次数,以及这些平台向网站实际输送的访问量,由此计算出一个“抓取与回流比”,相应指标可以直观反映平台从互联网“拿走”了多少价值,又“还回”了多少。例“100:1 的比例意味着平台每抓取网站内容 100 次,只为其带来 1 次访问”。

在 Cloudflare 的统计中,Anthropic “抓取与回流比”最差,其网站抓取量远远高于为网站带来的访问量,OpenAI 的情况也类似,其抓取与回流比同样不佳,这意味着两家平台正从互联网获取越来越多的价值,却回馈得越来越少。

这一趋势与外媒 Business Insider 在 2024 年末的调查相互印证。当时的报道指出,Anthropic 和 OpenAI 的爬虫对部分网站的抓取频率“高到惊人”,甚至导致网站的流量和云计算成本大幅上升。

一位开发者当时透露,仅仅几个月时间,其客户的云服务账单就因为 AI 爬虫暴增而翻了一倍。也就是说,AI 公司不仅从互联网获取内容、减少回流,还在无形中把更高的运营成本转嫁给了网站所有者。

山庄提示: 道行不够,道券不够?---☆点此充值☆
 
在线jjybzxw

UID: 551814


发帖
218494
金币
665008
道行
2006
原创
2444
奖券
3260
斑龄
41
道券
1203
获奖
0
座驾
设备
摄影级
在线时间: 47565(小时)
注册时间: 2008-10-01
最后登录: 2026-01-13
只看该作者 沙发  发表于: 昨天 09:19
AI时代的内容攫取困境:互联网“隐性契约”的瓦解与重建之路
一、现象解析:从“互惠共生”到“单向抽取”——AI爬虫正在重塑网络生态

长期以来,互联网的繁荣建立在一种不成文的“隐性契约”之上:内容创作者发布信息,编辑、媒体或搜索引擎通过引用、链接和推荐将用户导向原始网站。这种机制不仅保障了内容生产者的曝光与流量回报,也构建了一个良性循环的信息生态系统。然而,随着生成式人工智能(AI)技术的迅猛发展,这一契约正面临系统性崩塌。

如今,以 Anthropic 和 OpenAI 为代表的大型AI公司部署的自动化爬虫程序,大规模抓取全网公开内容用于训练大语言模型(LLM)。这些数据被用于构建能够即时回答问题、撰写文章、生成代码的智能系统。但关键在于,当用户通过AI工具获取答案时,他们不再需要点击原始链接,也不再访问源网站——这意味着传统意义上的“回流”几乎归零。

Cloudflare自2025年起推出的“抓取与回流比”指标清晰揭示了这一失衡状态:  
某些平台每抓取网页100次,仅带来1次访问,即比例高达 100:1。

这已不是简单的技术行为,而是一种结构性的价值掠夺——AI企业从全球网站无偿汲取知识资产,却未能以等量的流量、声誉或经济补偿回馈内容提供者。
二、现实影响:成本转嫁、资源压榨与中小网站生存危机
1. 流量倒挂下的经济失衡
AI公司依赖海量文本训练模型,其爬虫高频访问网站服务器,产生大量HTTP请求。尽管内容是“公开可读”,但每一次请求都消耗带宽、计算资源和CDN服务配额。对于中小型出版商、独立博客和技术社区而言,这些额外负载直接转化为云服务账单的飙升。

如报道所述,有开发者指出客户在数月内因AI爬虫导致AWS/Azure账单翻倍。更讽刺的是,这些资金本可用于内容创作或平台优化,如今却被迫用于“供养”他人的AI训练工程。
2. 内容价值的去中介化剥夺
传统搜索引擎(如Google)虽然也抓取内容,但始终保留“跳转至原文”的路径,维持了一定程度的流量反哺。而现代AI助手则倾向于“终结式响应”(terminal response),即直接输出整合后的答案,彻底切断用户与源头之间的联系。

例如:
用户问:“如何配置React中的useEffect?”
Google会列出Stack Overflow、MDN文档等链接;
而Claude或ChatGPT则直接给出完整解释,甚至附带示例代码——无需点击任何外部链接。

这种“一站式解答”极大提升了用户体验,却也使得原创作者沦为“免费的数据饲料”。
三、深层矛盾:谁拥有互联网的知识?数据权益应如何界定?
1. 法律真空地带中的伦理争议
目前大多数国家的版权法仍聚焦于“复制与分发”行为本身,而对“机器学习训练是否构成侵权”尚无明确裁决。美国法院普遍采用“合理使用”原则来判断AI训练的合法性,但该原则本为教育、研究等非商业用途设计,是否适用于市值千亿的科技巨头存在巨大争议。

与此同时,欧盟《数字市场法案》(DMA)和《人工智能法案》(AI Act)开始尝试引入“透明度义务”与“数据溯源要求”,但执行难度高、监管滞后。
2. 知识生产的公共性 vs. 商业垄断的风险
互联网的本质是开放共享,但这并不意味着所有使用方式都具正当性。我们可以区分两种模式:

| 使用类型 | 目的 | 是否回馈 | 社会价值 |
|--------|------|----------|---------|
| 学术爬虫(如Common Crawl) | 构建公共资源库 | 开放共享数据集 | 高 |
| 搜索引擎爬虫(如Googlebot) | 提升信息可发现性 | 引流至原网站 | 中高 |
| 商业AI爬虫(如GPTBot、ClaudeBot) | 训练闭源模型盈利 | 几乎无回流 | 存疑 |

当前问题的核心在于:少数科技公司正将集体智慧私有化,并将其封装为付费API或订阅服务进行变现。这是一种新型的“圈地运动”——只不过圈占的是语义空间而非土地。
四、应对策略:技术防御、制度重构与协作新模式

面对AI爬虫的压力,各方正在探索多层次的应对方案:
1. 技术层面:重写robots.txt、IP封禁与内容混淆
许多网站已开始主动屏蔽知名AI爬虫:
更新 robots.txt 文件,明确禁止 GPTBot、CCBot 等访问敏感路径;
利用Cloudflare规则集自动识别并限流异常请求;
对HTML注入混淆代码,使爬虫难以提取有效文本(类似对抗性机器学习);

但此类措施治标不治本:一旦被列入黑名单,AI公司可能通过代理IP绕过限制;且过度封锁也可能误伤正常搜索引擎。
2. 商业合作模式:授权许可与数据分红机制
更具建设性的方向是建立“数据使用权交易市场”。例如:
新闻机构如《纽约时报》已起诉OpenAI,同时寻求授权协议;
Reuters与AI公司谈判数据供给换股权或收入分成;
初创项目如 Ocean Protocol 探索基于区块链的数据确权与微支付系统。

理想状态下,未来可能出现“内容贡献者收益池”——每当AI模型引用某篇文章生成答案,系统自动记录来源并分配微额报酬。
3. 政策建议:强制回流机制与公平使用标准
参考电力行业的“上网电价补贴”制度,可设想:
强制要求AI企业在每次抓取后按一定比例引导用户回访原网站(如弹出“查看原文”提示);
设立“公平抓取指数”作为企业ESG评级的一部分;
对超高抓取低回流比的企业征收“数字资源调节费”,用于支持内容生态基金。
五、未来展望:迈向一个更公平、可持续的智能互联网

我们必须认识到,AI并非天然敌视内容创作者。真正的问题不在于技术本身,而在于激励结构的扭曲。如果放任当前趋势发展下去,我们将迎来一个“强者恒强”的闭环:AI公司越聪明 → 吸引越多用户 → 抓取更多数据 → 变得更聪明 → 进一步削弱原始平台生存空间。

要打破这个恶性循环,需推动三大转变:

1. 认知转变:公众需意识到,“免费获取答案”的背后,可能是无数内容创作者的沉默付出;
2. 制度创新:政府与国际组织应加快制定AI数据使用的伦理准则与法律框架;
3. 技术正义:下一代AI系统应内置“溯源引擎”与“致谢协议”,让每一次知识引用都被看见、被尊重。

最终目标不应是阻止AI发展,而是构建一个既能激发技术创新,又能保障知识生产者权益的新型数字契约。唯有如此,互联网才能继续作为人类文明共享的记忆体,而不沦为少数企业的训练场。
正如蒂姆·伯纳斯-李(Tim Berners-Lee)所言:“万维网的设计初衷,是让人与人之间更好地连接。”  
在AI时代,我们或许应当重新定义这句话:  
“真正的智能,不是取代源头,而是照亮源头。”

如何不发帖就快速得到金币道行
 
在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君

发帖
167344
金币
490497
道行
20030
原创
766
奖券
359
斑龄
0
道券
30
获奖
0
座驾
设备
摄影级
在线时间: 20597(小时)
注册时间: 2012-06-21
最后登录: 2026-01-13
只看该作者 板凳  发表于: 昨天 12:21
消息称,Anthropic及OpenAI的AI爬虫正在“蚕食”互联网。两者的爬虫存在“抓取与回流比”失衡问题,即网站抓取量远远高于为网站带来的访问量,意味着从互联网获取越来越多的价值,却回馈得越来越少。

这一趋势与此前的调查相互印证,两者的爬虫对部分网站的抓取频率高到惊人,甚至导致网站的流量和云计算成本大幅上升。有开发者透露,仅仅几个月时间,其客户的云服务账单就因为AI爬虫暴增而翻了一倍。

也就是说,AI公司不仅从互联网获取内容、减少回流,还在无形中把更高的运营成本转嫁给了网站所有者。
如何不发帖就快速得到金币道行
 
我有我可以
快速回复
限120 字节
认真回复加分,灌水扣分~
 
上一个 下一个