12阅读
2回复

[数码讨论]消息称Anthropic及OpenAI的AI爬虫“蚕食”互联网 [复制链接]

上一主题下一主题查看指定楼层

在线jjybzxw

UID: 551814

精华: 0
职务: 超级斑竹
级别: 得道成仙

发帖: 218494

金币: 665008

道行: 2006

原创: 2444

奖券: 3260

斑龄: 41

道券: 1203

获奖: 0

座驾

设备

摄影级

在线时间: 47565(小时)
注册时间: 2008-10-01
最后登录: 2026-01-13

只看楼主倒序阅读使用道具楼主发表于: 昨天 09:18

IT之家 1 月 13 日消息，通常情况下，引用其他网站内容的人工编辑会附上消息原始信息来源，以便读者参考原文内容，从而为原始平台带来访问流量，这构成了互联网长期运行的“隐性契约”。

然而在当下 AI 时代，这套机制正在迅速瓦解。当下各大 AI 机器人直接根据用户需求爬取网站数据，从而导致用户访问原始网站的意愿明显下降，同时相应网站反遭相应 AI 工具大量消耗流量。

综合 Cloudflare 及 Business Insider 报道，Cloudflare 从 2025 年开始系统性地追踪这一不公平现象，平台通过统计大型科技公司爬虫抓取网站的请求次数，以及这些平台向网站实际输送的访问量，由此计算出一个“抓取与回流比”，相应指标可以直观反映平台从互联网“拿走”了多少价值，又“还回”了多少。例“100:1 的比例意味着平台每抓取网站内容 100 次，只为其带来 1 次访问”。

在 Cloudflare 的统计中，Anthropic “抓取与回流比”最差，其网站抓取量远远高于为网站带来的访问量，OpenAI 的情况也类似，其抓取与回流比同样不佳，这意味着两家平台正从互联网获取越来越多的价值，却回馈得越来越少。

这一趋势与外媒 Business Insider 在 2024 年末的调查相互印证。当时的报道指出，Anthropic 和 OpenAI 的爬虫对部分网站的抓取频率“高到惊人”，甚至导致网站的流量和云计算成本大幅上升。

一位开发者当时透露，仅仅几个月时间，其客户的云服务账单就因为 AI 爬虫暴增而翻了一倍。也就是说，AI 公司不仅从互联网获取内容、减少回流，还在无形中把更高的运营成本转嫁给了网站所有者。

山庄提示：道行不够，道券不够？---☆点此充值☆

分享到 淘江湖新浪 QQ微博 QQ空间开心人人豆瓣网易微博百度鲜果白社会飞信

在线jjybzxw

UID: 551814

精华: 0
职务: 超级斑竹
级别: 得道成仙

发帖: 218494

金币: 665008

道行: 2006

原创: 2444

奖券: 3260

斑龄: 41

道券: 1203

获奖: 0

座驾

设备

摄影级

在线时间: 47565(小时)
注册时间: 2008-10-01
最后登录: 2026-01-13

只看该作者沙发发表于: 昨天 09:19

申请VIP---在山庄畅通无阻还送FTP单独下载账号!

AI时代的内容攫取困境：互联网“隐性契约”的瓦解与重建之路
一、现象解析：从“互惠共生”到“单向抽取”——AI爬虫正在重塑网络生态

长期以来，互联网的繁荣建立在一种不成文的“隐性契约”之上：内容创作者发布信息，编辑、媒体或搜索引擎通过引用、链接和推荐将用户导向原始网站。这种机制不仅保障了内容生产者的曝光与流量回报，也构建了一个良性循环的信息生态系统。然而，随着生成式人工智能（AI）技术的迅猛发展，这一契约正面临系统性崩塌。

如今，以 Anthropic 和 OpenAI 为代表的大型AI公司部署的自动化爬虫程序，大规模抓取全网公开内容用于训练大语言模型（LLM）。这些数据被用于构建能够即时回答问题、撰写文章、生成代码的智能系统。但关键在于，当用户通过AI工具获取答案时，他们不再需要点击原始链接，也不再访问源网站——这意味着传统意义上的“回流”几乎归零。

Cloudflare自2025年起推出的“抓取与回流比”指标清晰揭示了这一失衡状态：
某些平台每抓取网页100次，仅带来1次访问，即比例高达 100:1。

这已不是简单的技术行为，而是一种结构性的价值掠夺——AI企业从全球网站无偿汲取知识资产，却未能以等量的流量、声誉或经济补偿回馈内容提供者。
二、现实影响：成本转嫁、资源压榨与中小网站生存危机
1. 流量倒挂下的经济失衡
AI公司依赖海量文本训练模型，其爬虫高频访问网站服务器，产生大量HTTP请求。尽管内容是“公开可读”，但每一次请求都消耗带宽、计算资源和CDN服务配额。对于中小型出版商、独立博客和技术社区而言，这些额外负载直接转化为云服务账单的飙升。

如报道所述，有开发者指出客户在数月内因AI爬虫导致AWS/Azure账单翻倍。更讽刺的是，这些资金本可用于内容创作或平台优化，如今却被迫用于“供养”他人的AI训练工程。
2. 内容价值的去中介化剥夺
传统搜索引擎（如Google）虽然也抓取内容，但始终保留“跳转至原文”的路径，维持了一定程度的流量反哺。而现代AI助手则倾向于“终结式响应”（terminal response），即直接输出整合后的答案，彻底切断用户与源头之间的联系。

例如：
用户问：“如何配置React中的useEffect？”
Google会列出Stack Overflow、MDN文档等链接；
而Claude或ChatGPT则直接给出完整解释，甚至附带示例代码——无需点击任何外部链接。

这种“一站式解答”极大提升了用户体验，却也使得原创作者沦为“免费的数据饲料”。
三、深层矛盾：谁拥有互联网的知识？数据权益应如何界定？
1. 法律真空地带中的伦理争议
目前大多数国家的版权法仍聚焦于“复制与分发”行为本身，而对“机器学习训练是否构成侵权”尚无明确裁决。美国法院普遍采用“合理使用”原则来判断AI训练的合法性，但该原则本为教育、研究等非商业用途设计，是否适用于市值千亿的科技巨头存在巨大争议。

与此同时，欧盟《数字市场法案》（DMA）和《人工智能法案》（AI Act）开始尝试引入“透明度义务”与“数据溯源要求”，但执行难度高、监管滞后。
2. 知识生产的公共性 vs. 商业垄断的风险
互联网的本质是开放共享，但这并不意味着所有使用方式都具正当性。我们可以区分两种模式：

| 使用类型 | 目的 | 是否回馈 | 社会价值 |
|--------|------|----------|---------|
| 学术爬虫（如Common Crawl） | 构建公共资源库 | 开放共享数据集 | 高 |
| 搜索引擎爬虫（如Googlebot） | 提升信息可发现性 | 引流至原网站 | 中高 |
| 商业AI爬虫（如GPTBot、ClaudeBot） | 训练闭源模型盈利 | 几乎无回流 | 存疑 |

当前问题的核心在于：少数科技公司正将集体智慧私有化，并将其封装为付费API或订阅服务进行变现。这是一种新型的“圈地运动”——只不过圈占的是语义空间而非土地。
四、应对策略：技术防御、制度重构与协作新模式

面对AI爬虫的压力，各方正在探索多层次的应对方案：
1. 技术层面：重写robots.txt、IP封禁与内容混淆
许多网站已开始主动屏蔽知名AI爬虫：
更新 robots.txt 文件，明确禁止 GPTBot、CCBot 等访问敏感路径；
利用Cloudflare规则集自动识别并限流异常请求；
对HTML注入混淆代码，使爬虫难以提取有效文本（类似对抗性机器学习）；

但此类措施治标不治本：一旦被列入黑名单，AI公司可能通过代理IP绕过限制；且过度封锁也可能误伤正常搜索引擎。
2. 商业合作模式：授权许可与数据分红机制
更具建设性的方向是建立“数据使用权交易市场”。例如：
新闻机构如《纽约时报》已起诉OpenAI，同时寻求授权协议；
Reuters与AI公司谈判数据供给换股权或收入分成；
初创项目如 Ocean Protocol 探索基于区块链的数据确权与微支付系统。

理想状态下，未来可能出现“内容贡献者收益池”——每当AI模型引用某篇文章生成答案，系统自动记录来源并分配微额报酬。
3. 政策建议：强制回流机制与公平使用标准
参考电力行业的“上网电价补贴”制度，可设想：
强制要求AI企业在每次抓取后按一定比例引导用户回访原网站（如弹出“查看原文”提示）；
设立“公平抓取指数”作为企业ESG评级的一部分；
对超高抓取低回流比的企业征收“数字资源调节费”，用于支持内容生态基金。
五、未来展望：迈向一个更公平、可持续的智能互联网

我们必须认识到，AI并非天然敌视内容创作者。真正的问题不在于技术本身，而在于激励结构的扭曲。如果放任当前趋势发展下去，我们将迎来一个“强者恒强”的闭环：AI公司越聪明 → 吸引越多用户 → 抓取更多数据 → 变得更聪明 → 进一步削弱原始平台生存空间。

要打破这个恶性循环，需推动三大转变：

1. 认知转变：公众需意识到，“免费获取答案”的背后，可能是无数内容创作者的沉默付出；
2. 制度创新：政府与国际组织应加快制定AI数据使用的伦理准则与法律框架；
3. 技术正义：下一代AI系统应内置“溯源引擎”与“致谢协议”，让每一次知识引用都被看见、被尊重。

最终目标不应是阻止AI发展，而是构建一个既能激发技术创新，又能保障知识生产者权益的新型数字契约。唯有如此，互联网才能继续作为人类文明共享的记忆体，而不沦为少数企业的训练场。
正如蒂姆·伯纳斯-李（Tim Berners-Lee）所言：“万维网的设计初衷，是让人与人之间更好地连接。”
在AI时代，我们或许应当重新定义这句话：
“真正的智能，不是取代源头，而是照亮源头。”

如何不发帖就快速得到金币和道行

在线姜谷粉丝

UID: 1569053

精华: 2
级别: 玉清道君

发帖: 167344

金币: 490497

道行: 20030

原创: 766

奖券: 359

斑龄: 0

道券: 30

获奖: 0

座驾

设备

摄影级

在线时间: 20597(小时)
注册时间: 2012-06-21
最后登录: 2026-01-13

只看该作者板凳发表于: 昨天 12:21

消息称，Anthropic及OpenAI的AI爬虫正在“蚕食”互联网。两者的爬虫存在“抓取与回流比”失衡问题，即网站抓取量远远高于为网站带来的访问量，意味着从互联网获取越来越多的价值，却回馈得越来越少。

这一趋势与此前的调查相互印证，两者的爬虫对部分网站的抓取频率高到惊人，甚至导致网站的流量和云计算成本大幅上升。有开发者透露，仅仅几个月时间，其客户的云服务账单就因为AI爬虫暴增而翻了一倍。

也就是说，AI公司不仅从互联网获取内容、减少回流，还在无形中把更高的运营成本转嫁给了网站所有者。

如何不发帖就快速得到金币和道行

我有我可以

发帖回复

返回列表


	关闭您还没有登录，快捷通道只有在登录后才能使用。立即登录还没有帐号？赶紧注册一个


	关闭选中1篇全选

帖子

[数码讨论]消息称Anthropic及OpenAI的AI爬虫“蚕食”互联网 [复制链接]