Cloudflare官宣屏蔽AI爬虫新规
7月1日,Cloudflare发了一篇标题为「你的网站,你的规则」的博客。不过内容可不温和,从9月15日起,所有使用Cloudflare的网站,默认屏蔽混合用途的AI爬虫。只要页面上有广告,AI的训练爬虫和Agent爬虫就无法进入,除非手动去后台打开。这里逻辑翻转了,以前是「默认允许,你可以选择屏蔽」,现在是「默认屏蔽,你可以选择允许」。这可是互联网基础设施层首次对AI数据获取方式进行系统性「立法」。做出此决定的背景是一个标志性事件,互联网上的bot流量已超过人类流量。Cloudflare CEO Matthew Prince称,这个里程碑比预期来得早,原本预计要到2027年才会发生。也就是说,如今打开的大多数网页,主要「看」它们的是机器。而规范来自AI的流量,既可能决定所有网站的未来,也关乎网络守门人Cloudflare自身的发展轨迹。
最严厉的「爬虫政策」
据官方介绍,Cloudflare把AI爬虫拆成了三类。第一类是「Search」,即给搜索服务建索引的传统爬虫,像Google做了二十多年的那种。第二类是「Agent」,是实时代用户访问网页的AI代理,比如让ChatGPT查信息、填表单,背后就有Agent爬虫帮忙。第三类是「Training」,是大规模抓取内容用于模型训练的爬虫。这三类分开标注,网站主能分别对每类设置「允许」或「屏蔽」。想让搜索引擎找到网站?可以。想让AI代理帮用户查信息?也行。但不想让AI公司白用内容训练模型?那就单独关掉Training。这个分类可直戳Google的痛点。Google的Googlebot是典型的「混合爬虫」,它既为Google搜索建索引,也为Google的AI功能(如AI Overviews)采集数据。Google虽提供了叫Google - Extended的工具,允许网站选退AI训练,但核心爬虫Googlebot仍会为搜索引擎内置的AI功能收集数据。搜索和AI的数据需求,在Google的架构里并未真正分开。这意味着什么呢?Cloudflare的数据显示,因为网站想在Google搜索中可见,就得让Googlebot进来,而它进来后,AI训练的数据也就被拿走了。Google因此获得了约两倍于其他AI公司的网页内容访问量。另外,Cloudflare还加了「最严规则优先」原则。如果一个爬虫同时执行搜索和训练功能,所有适用规则会同时生效,按最严格的来。也就是说,只要选择屏蔽Training爬虫,Googlebot、Applebot、BingBot等混合爬虫都会被屏蔽。这是在砍「捆绑」,即想被搜索到,就得接受被AI训练。Cloudflare认为这种捆绑不公平,必须拆开。一组数据能说明旧「社会契约」崩坏程度。Cloudflare公布的各家AI公司爬取与回流比显示,Google约是14:1,即每爬取14个页面,回流1次点击;OpenAI是1,700:1;Anthropic是73,000:1。搜索引擎时代是「我爬你的内容,你得到流量」,在AI时代,这笔账算不过来了。
从「保安」到「收银员」
要是Cloudflare只是帮网站主挡住AI爬虫,那意义就局限于「防御」,但它显然不满足于此。去年7月,Cloudflare推出「Pay Per Crawl」,按爬取次数向AI公司收费。今年,又将模式升级为「Pay Per Use」。区别在于,不再是爬虫来一次收一次钱,而是内容在AI系统中真正产生价值,用于生成回答、出现在AI搜索结果里,用户才能收钱。从「按次收费」到「按价值收费」,这转变野心不小,意味着Cloudflare想建立的不是墙,而是市场。目前初始合作伙伴是两家AI搜索公司Ceramic.ai和You.com。出版商加入后,内容出现在Ceramic的AI搜索结果中,或被You.com的Agent访问时,会收到付款。大出版商纷纷支持,Condé Nast的CEO称这是「游戏规则的改变」,Reddit的联合创始人说「整个生态系统都会受益」。不过,有个不太完美的细节。今年3月,Cloudflare自己发布了一个爬虫API,输入URL能一次性抓取整个网站,返回HTML、Markdown或结构化JSON。这让一些出版商不安,那个一直帮忙挡爬虫的公司,自己却造了一个爬虫。更尴尬的是,有出版商尝试屏蔽Cloudflare自己的爬虫时,设置不生效。虽然后来Cloudflare修复了问题,但网上评论传开了:「我们保护网站不被爬虫抓取……除非是我们自己的爬虫。」Cloudflare解释称,其爬虫是「合规爬虫」,会尊重robots.txt,遵守自己的AI Crawl Control规则。若站长选择屏蔽AI爬虫,Cloudflare自己的爬虫也会被挡在门外。用一位开发者的话说,这是「两边下注所以永远赢」的策略。这就引出一个根本问题:Cloudflare到底是中立的基础设施裁判,还是新型中间商?答案可能是后者。它同时扮演着规则制定者(定义三类爬虫)、规则执行者(在基础设施层拦截爬虫)和市场参与者(运营自己的爬虫和内容交易平台)三个角色。这不是说它做的事没价值,把AI爬虫从「无序掠夺」拉入「明确分类、需要许可」的框架,是个进步。但把它当成内容创作者的「救世主」,就太天真了。它构建的是以自己为枢纽的「AI内容税收站」。
普通人能分到蛋糕吗?
这或许是整件事中最让人冷静的部分。站出来支持Cloudflare的,如Condé Nast、Dotdash Meredith、Reddit等,都是大型出版商和平台。它们有内容规模、法务团队和谈判筹码,即便没有Cloudflare,也能和AI公司签许可协议,事实上,过去一年全球已签超50份内容许可大单。对它们来说,Cloudflare只是多了个工具,并非唯一出路。但个人博主、在WordPress上写技术教程的独立开发者、用公众号写深度分析的自媒体人呢?理论上,Cloudflare的基础设施能让小内容主不用逐一跟每家AI公司谈判,就能设定权限和获得补偿。但关键是「理论上」三个字。「Pay Per Use」到现在只有Ceramic.ai和You.com两个合作伙伴,都是小玩家。OpenAI、Google、Anthropic这些大规模消耗内容的公司都没参与。而且还有现实矛盾,对小创作者来说,曝光是最稀缺的资源,屏蔽AI爬虫可能减少被发现的机会。大媒体屏蔽爬虫,Google搜索还是会收录;小博客屏蔽爬虫,可能就消失在互联网噪音里了。有组数据更让人清醒,AI聊天机器人带来的引荐流量比传统搜索少约96%,用户在AI回答中点击引用来源的概率只有约1%,出版商过去一年因AI搜索功能损失了20% - 90%不等的流量和收入。一项研究发现,Google的AI Overviews让外链点击量下降了约40%。这意味着,即便「Pay Per Use」全面铺开,付费规模可能也远不足以弥补出版商已损失的广告收入。这不是变局,更像是止损,而且未必能止住。Cloudflare报告称,超50%的AI爬虫流量花在重复抓取未更新的页面上。解决这种低效有价值,但解决效率问题和让创作者真正赚钱是两码事。
「菩萨」也有自己的庙
Cloudflare向来被用户赞为「赛博菩萨」,因为它确实做了有价值的事,把AI时代的数据掠夺从暗处拉到明处,逼AI公司说清「要数据干什么」。在bot流量超人类流量的互联网上,有人站出来喊「规矩不能这么没有」,值得肯定。但「菩萨」也有自己的考量。Cloudflare管理着全球约20%的网络流量,这数字说大不大。另外80%的网站不在其保护范围内,AI公司完全可以把数据采集重心转向非Cloudflare站点。Google和Apple的爬虫已提供形式上的选退工具,可能借此绕过Cloudflare的拦截。英国竞争与市场管理局(CMA)正从监管角度向Google施压,要求其让出版商在不影响搜索排名的前提下退出AI训练。一个基础设施公司的政策,不会让内容权益的重新分配尘埃落定。但它揭示了深层趋势,互联网的「收费站」正从搜索引擎转移到基础设施层。过去二十年,Google决定谁能被看见,现在Cloudflare想在更底层拦一道,要求过路者说清目的,按规矩来。收费站变了,但收费的人,未必变了。