Cloudflare新政策:默认屏蔽混合爬虫,推动AI公司付费
阅读原文· techcrunch.comCloudflare用基础设施商的话语权重新划定了AI内容付费线,默认屏蔽混合爬虫这一刀切下去,从Google到创业公司都躲不开,出版商到底该分多少钱的讨论终于有了一个落地的支点。
Cloudflare宣布,自2026年9月15日起,其默认设置将屏蔽同时用于搜索、AI智能体及训练的“混合用途”爬虫访问托管广告的页面,除非站点所有者手动调整。此举旨在保护出版商内容不被无偿使用。同时将原有的“Pay Per Crawl”模式升级为“Pay Per Use”,允许出版商在内容创造价值时向AI公司收费,初期合作方为Ceramic.ai和You.com。Cloudflare数据显示,AI爬虫超过50%的抓取流量浪费在重复获取未变更页面上。新政策适用于新客户、现有客户的新站点及所有现有免费客户。
Cloudflare 刚刚为 AI 行业设定了一个新期限,要求将用于传统搜索目的(如 Google 搜索)的网络爬虫与用于 AI 智能体及训练用途的爬虫区分开。该公司周三宣布,自 2026 年 9 月 15 日起,Cloudflare 的默认设置将阻止“混合用途”爬虫访问任何托管广告的页面。
这意味着,除非网站所有者另行调整设置,否则那些混合了搜索、智能体应用和训练功能的爬虫将被默认禁止爬取这些网站。该公司表示,这些默认设置的变更将适用于新的 Cloudflare 客户、现有客户新建的站点,以及所有现有的免费客户。
此举可能会影响 AI 模型供应商获取网络内容以用于训练和驱动其智能体服务的能力。
Cloudflare 指出,大多数网站所有者希望自己的内容能通过搜索被发现,也经常希望通过 AI 服务被发现,但他们希望获得保护,避免自己的知识产权被免费提供。
Cloudflare 特别指出,“全球最大的搜索引擎”(显然指的是 Google!)获取的信息量大约是其他 AI 公司的“2 倍以上”,因为这家搜索巨头让客户难以在不被用于 AI 的情况下保持可被发现性。
Google 此前曾反驳过这种笼统的说法,表示它提供了一个名为 Google Extended 的爬虫,允许网站所有者选择不让自己的内容用于训练以及 Gemini 应用和 Vertex API 等 AI 产品与服务。使用该爬虫不会影响网站出现在 Google 搜索中。不过,这家科技巨头的旗舰产品 Googlebot 仍会为搜索(包括 AI 概述和 AI 模式等 AI 功能)进行爬取。
Cloudflare 联合创始人兼首席执行官 Matthew Prince 在宣布这一消息时表示:“既然互联网上的大部分流量已经不再由人类产生,我们必须更进一步、行动更快,以便一个可持续的生态系统能够形成。”他指的是近期机器人流量首次超越人类流量的里程碑。这一转变原本预计要到明年才会发生。
普林斯表示:“Cloudflare 的新工具和合作伙伴关系让网站所有者获得更高的可见度和商业机会,同时也让那些拥有明确透明意图的 AI 公司受益。我们希望我们提出的默认设置变更能鼓励混合用途爬虫将搜索用途与智能体用途及训练用途分离开来。”
虽然 Cloudflare 提供了多种产品帮助用户构建自己的 AI 系统,但该公司也发布了一系列工具,让发布商在 AI 时代对自己的内容拥有更多控制权。近年来,Cloudflare 推出了对抗 AI 爬虫的工具,包括一个名为“按爬取付费”的市场,允许网站向 AI 爬虫收取抓取费用。
该公司表示,后者现在也在演变为“按使用付费”,这将允许发布商在其内容创造价值时向 AI 公司收费,而不仅仅是在内容被获取时。
这一变化还有助于节省发布商的带宽和 AI 模型提供商的算力资源,因为 Cloudflare 的数据表明,AI 爬虫产生的超过 50% 的爬取流量都用于重新获取未更改的页面。
为了落实这一方案,Cloudflare 最初与两家合作伙伴——Ceramic.ai 和 You.com——展开合作。当发布商选择加入后,如果他们的内容出现在 Ceramic 的 AI 搜索结果中,或者 You.com 访问了他们的一条付费内容,他们就能获得报酬。
Cloudflare 表示,其他 AI 公司可以根据自身工作方式对这一模式进行定制。