Cloudflare新规:AI公司需为内容付费,默认拦截混合爬虫
Cloudflare宣布2026年9月起默认拦截混合用途爬虫抓取广告页面,要求AI公司将搜索爬虫与AI训练爬虫分离。同时推出按使用付费模式,内容被AI利用时才收费。Google则提供GoogleExtended工具允许网站选择退出AI训练,但核心爬虫仍用于AI功能。
Cloudflare近期向人工智能行业发出了一项“最后通牒”,要求所有AI企业必须将用于传统搜索(例如Google搜索)的爬虫,与用于AI智能体及模型训练的爬虫严格分开。本周三,Cloudflare正式宣布:从2026年9月15日起,在默认设置下,所有“混合用途”的爬虫将被禁止抓取带有广告的页面——除非网站所有者主动调整相关配置。

换句话说,那些既执行搜索任务、又为智能体提供服务、还要拿数据训练模型的爬虫,在默认状态下将无法访问这些网站。新规覆盖新注册客户、现有客户新建的站点,以及所有现有的免费用户。这一变动可能对AI模型提供商从互联网获取训练数据的方式,以及他们驱动智能体服务的路径产生深远影响。
Cloudflare揭示了一个现实中的矛盾:大多数网站所有者自然希望自己的内容能被搜索引擎收录,也乐于被AI服务引用,但前提是——自己的知识产权不能被无偿使用。
值得注意的是,Cloudflare特别点名了“全球最大搜索引擎”(明眼人都知道指的是Google),称其获取的信息量几乎是其他AI公司的两倍。原因就在于,这家搜索巨头让网站很难做到“既保持可被搜索发现,又不让内容被用于AI目的”。
Google方面也给出了回应。他们表示自己提供了一款名为Google Extended的爬虫工具,允许网站所有者选择退出——将内容排除在Gemini Apps、Vertex API等AI产品的训练之外,而且这一选择不会影响网站在Google搜索中的正常收录。不过,Google的核心爬虫Googlebot仍会继续抓取页面,用于搜索功能以及AI概述(AI Overviews)和AI搜索模式(AI Mode)这类AI相关功能。
“如今互联网上的大部分流量已经不再由人类产生,我们必须迈出更大的步子,加速行动,才能推动形成一个可持续的生态系统。”Cloudflare联合创始人兼CEO马修·普林斯在公告中这样表示。他提到的背景是:机器人流量刚刚首次超过了人类流量——这个节点原本预计要到明年才会出现。
普林斯还补充道:“Cloudflare的新工具和伙伴关系,为网站所有者带来了更多的可见度和商业机会,同时也有利于那些爬虫意图明确、行为透明的AI公司。我们希望这次默认设置的调整,能倒逼混合用途爬虫将搜索功能与智能体使用、模型训练彻底分开。”
在帮助用户构建AI系统的同时,Cloudflare近年来陆续推出了一系列工具,让发布者在AI时代能更好地掌控自己的内容。例如,他们之前推出过“按次抓取付费”(Pay Per Crawl)功能,允许网站向AI爬虫收费。现在这个功能正在升级为“按使用付费”(Pay Per Use)模式——发布者可以在内容真正被AI利用并产生价值时才收费,而不是仅仅因为内容被爬虫抓取就收费。
这一变化还有另一个好处:节省AI模型提供商的带宽和算力消耗。Cloudflare的数据显示,AI爬虫超过50%的抓取流量,其实是在重复抓取那些根本没有更新过的页面。
目前,Cloudflare已经与Ceramic.ai和You.com两家公司率先推进这个机制。发布者选择加入后,一旦他们的内容出现在Ceramic的AI搜索结果中,或者被You.com访问优质内容时,就能获得相应报酬。Cloudflare表示,其他AI公司也可以根据自己的业务特点,灵活定制合作模式。
Q&A
Q1:Cloudflare的新规对AI公司爬虫有什么具体要求?
A:简单来说,Cloudflare要求AI公司把用于传统搜索的爬虫和用于AI智能体及模型训练的爬虫分开运营。从2026年9月15日起,默认设置会封锁所有混合用途爬虫对含广告页面的访问,除非网站所有者主动更改设置。这项变更适用于新客户、现有客户新建的站点以及所有免费用户。
Q2:“按使用付费”(Pay Per Use)模式是如何运作的?
A:这个模式是在原有“按次抓取付费”基础上升级的。发布者在内容真正被AI利用并产生价值时才能获得报酬,而不是单纯因为内容被爬虫抓取就收费。目前Cloudflare已与Ceramic.ai和You.com合作,发布者选择加入后,内容出现在相关AI搜索结果中或被访问时即可获得报酬。
Q3:Google对Cloudflare关于混合爬虫的指责是如何回应的?
A:Google回应称,他们提供了名为Google Extended的专用爬虫工具,允许网站所有者选择退出将内容用于Gemini Apps和Vertex API等AI产品的训练,同时不影响网站在Google搜索中的正常收录。不过,Google核心爬虫Googlebot仍会抓取页面,用于搜索功能及AI概述(AI Overviews)、AI搜索模式(AI Mode)等AI相关功能。
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:Cloudflare新规:AI公司需为内容付费,默认拦截混合爬虫要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点LucidaAI是一款面向企业的AI英语口语教练,通过实时对话提供发音、语法、词汇和流利度的个性化反馈。采用端到端加密并支持合规定制,定价策略注重普及化,旨在以低成本提升团队英语沟通能力。
Screenshot2Code工具能够从截图中自动识别代码,并将其转换为可直接运行的代码。支持Python、HTML及API接口信息提取,帮助开发者快速复用他人分享的代码片段,从而显著提升工作效率。这个工具极大简化了代码复用过程。
SpeakStruct通过可自定义模板将语音转换为结构化数据,适用于会议记录、客户通话等场景。核心功能包括自定义模板、准确转录和随处捕捉,使口语信息直接转化为可用的数据资产。
IzzyAI是一款AI驱动的语音治疗应用,提供全天候服务。通过智能治疗师头像互动,系统评估并治疗五种常见语音语言障碍,融合语音与面部识别技术给予实时反馈。内置综合评估、个性化练习、进展报告及支持性社区,提升治疗效果。
- 日榜
- 周榜
- 月榜
热点快看
