找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 55|回复: 5

[科技新闻] 曾让全球大面积“断网”的网站揭秘:AI爬虫正在疯狂“掏空”互联网

[复制链接]
  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-1-2 17:03 | 显示全部楼层 |阅读模式

马上注册,查看更多内容,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

×
如果你发现常看的网站某天突然崩溃,凶手可能不是黑客,也不是太火爆,是一群「看不见」的AI 爬虫正在秘密入侵。网站安全公司 Cloudflare 最近发布了 2025 年度回顾报告,从底层基础设施的视角,给我们呈现了一个另类的 AI 生存图鉴。先给不了解的朋友做个简单的科普:Cloudflare 这公司,说直白点就是互联网世界的物业+保镖,管安全、管加速、管流量,堪称六边形战士。
1.webp

比如你访问使用 Cloudflare 的网站时能秒开,大概率是它把你导向了最近的数据中心;网站能扛住 DDoS 攻击、不怕爬虫搞破坏,背后也多半有它的影子。不过嘛,一旦 Cloudflare 宕机,半个互联网就得遭殃,也因此诞生了不少梗图。
2.webp

废话不多说,重点还是先来看看这份报告里藏着的 AI 趋势。三巨头垄断 AI 爬虫:Google、OpenAI、微软瓜分互联网先说个最直观的,2025 年全球网络流量涨了 19%。但这个涨法有点门道,上半年基本没啥水花,流量一直在基准线附近摸鱼。结果到了 8 月中旬突然开挂模式,9 月、10 月、11 月一路狂飙突进,年底直接冲到全年峰值。
3.webp

流量的去向很能说明问题。Google 和 Facebook 依然霸榜前二,这个没啥悬念。但Microsoft、Instagram、YouTube 排名都往上窜,TikTok 反而掉了四位。AWS 也退了一名,新旧势力的洗牌已经肉眼可见。
4.webp

当然,比起这些传统巨头,大家更关心的是生成式 AI 这块肥肉的争夺。不得不说,该是大哥还是大哥,ChatGPT/OpenAI 依然稳坐头把交椅。但身后的「小弟」已经杀红了眼。Perplexity、Claude/Anthropic、GitHub Copilot 排名都在涨。除此以外,新面孔也不少,Google Gemini、Windsurf AI(已被收购)、Grok/xAI、DeepSeek 通通挤进了前十榜单。
5.webp

作为守护全球众多网站的金牌保镖,Cloudflare 对爬虫攻击的监测最有发言权。今年 Cloudflare 在分析 AI 爬虫的活跃度后发现,2025 年,用户行为类的 AI 爬取量增长了超过 15 倍。啥叫用户行为爬取?就是你问 ChatGPT 一个问题,它去网上找答案的时候产生的流量。这个数字从年初到年底翻了 21 倍多,基本和 ChatGPT-User 机器人的增长曲线完全吻合。
6.webp

看来大家真的越来越依赖 AI 了……单看 AI 爬虫占 HTML 请求的比例,平均是 4.2%,但全年波动极大,4 月跌到 2.4% 的谷底,6 月底又冲到 6.4% 的峰值。不过这都不算啥,真正的「爬虫一哥」永远是 Googlebot。
7.webp

这家伙的爬取量有多猛?它产生的 IPv4 请求流量,是第二名的整整四倍!而且 Googlebot 还占了全年经验证机器人流量的四分之一以上,2 月到 7 月最疯狂,4 月中旬达到峰值,占比超过 28%。为啥 Googlebot 这么能爬?因为它不光要给 Google 搜索引擎建索引,还得顺带训练 AI 模型。10 月的行业数据很能说明问题:零售和计算机软件产业吸引的 AI 爬虫流量合计超 40%,稳居前二。
8.webp

这逻辑不难理解:零售行业的商品信息、用户评价,软件行业的代码、文档,都是训练 AI 的「优质食材」。排名前十的产业占了近 70% 的爬取量,剩下的则分散在各个领域。
9.webp

爬虫界的「三巨头」格局也基本定了:Googlebot 稳坐第一,OpenAI 的 GPTBot 排第二,占比约 7.5% 但波动极大;Microsoft 的 Bingbot 相对稳定,贡献了 6% 的流量。需要说明的是,早期互联网的流量分为「人类用户」和「机器流量」,但机器也分三六九等。Googlebot 这类搜索引擎爬虫,和网站是共生关系:网站给内容,搜索引擎给流量,能带来广告和转化;而生成式 AI 爬虫则是纯粹的「寄生关系」,薅走内容训练模型,用户直接在 AI 界面拿答案,根本不会访问原网站,纯属白嫖。
10.webp

面对猖獗的 AI 爬虫,网站所有者自然也得予以反击。robots.txt 是一个放在网站根目录下的纯文本文件,用来告诉搜索引擎的爬虫哪些页面可以抓取、哪些不可以。可以把它理解成网站门口贴的「告示牌」,没有法律效力,但懂规矩的都会给点面子。Cloudflare 统计了排名前 10000 的网站,看了看大家的 robots.txt 文件都怎么设置的,哪些爬虫被「完全拉黑」,哪些被「部分限制」。结果发现,被封得最狠的就是 AI 爬虫——GPTBot、ClaudeBot、CCBot 这几位,基本上是重点打击对象。
11.webp

至于 Googlebot 和 Bingbot,待遇就好点了。大部分网站只是「部分禁止」它们,比如不让它们爬登录页面或者后台管理区域,但内容区该看还是让看。真正把这俩完全拉黑的网站,其实挺少的。AI 爬虫是白嫖还是引流?新指标揭露真相Cloudflare 今年还搞了个新指标,叫「爬虫推荐比率」。通俗点讲就是,AI 平台爬了你网站多少次,实际给你带回来多少真实访客。这个比值越高,说明平台基本就是在白嫖你的内容,压根不给你引流。
12.webp

最新的结果显示,Anthropic 的爬行推荐比率一度飙到 500000:1——就是爬你 50 万次,才给你带来 1 个访客。后来虽然稳定在 25000:1 到 100000:1 之间,但本质还是白嫖。
13.webp

OpenAI 也好不到哪去,3 月比值高达 3700:1,后来多亏 ChatGPT 搜索功能用得多了,推荐流量才稍微涨了点。相比之下,Perplexity 算是 AI 圈里的「良心」,年初比值低于 100:1,3 月虽然涨到 700:1 以上,但很快回落,9 月后就稳定在 200:1 以下。
14.webp

搜索引擎这边,Microsoft 的比率有个奇怪的周期性模式,周四最低,周日最高。全年峰值基本在 50:1 到 70:1 之间。Google 年初是 3:1,4 月涨到 30:1,后来又降回 3:1,下半年又慢慢涨回来了。DuckDuckGo 前三季度都低于 1:1,但 10 月中旬突然跳到 1.5:1,之后就一直维持这个水平了。
15.webp

除了 AI 爬虫的管控,Workers AI 上的模型竞争与任务需求也颇具看点。Workers AI 是美国 Cloudflare 公司推出的 AI 托管服务:也就是把热门开源模型(Llama、Stable Diffusion、Whisper 等)预先部署到自家全球边缘节点的 GPU 上。开发者能就近跑模型,按用量付费,不用自己买卡、搭环境。在 Workers AI 上,Meta 的 llama-3-8b-instruct 模型最受欢迎,文字生成则是最常用的任务类型。全年中,Meta 的 llama-3-8b-instruct 最受欢迎,其帐户占比达 36.3%,是第二名 OpenAI 的 whisper (10.1%) 和第三名 Stability AI 的 stable-diffusion-xl-base-1.0 (9.8%) 的三倍多。
16.webp

Meta 和北京智源人工智能研究院 (BAAI) 在前十名中各有多款模型,前十名模型的帐户占比合计达 89%,其余占比分布在其他众多模型中。任务类型的分布更能反映行业需求:文字生成以 48.2% 的占比稳居第一,几乎是第二名文字转图像(12.3%)和第三名自动语音识别(11.0%)的四倍。说白了,当前 AI 最核心的需求还是「内容创作」和「信息处理」,这也是各大厂商砸钱最多的赛道。
17.webp

今年网络中断 174 次,最大元凶不是黑客而是…防作弊?先说说移动设备格局,全球移动设备流量里,iOS 占了 35%,比去年涨了两个百分点。看似涨幅不大,但在多个高收入国家/地区,iOS 占比已超过一半:摩纳哥最夸张,达到 70%;丹麦 65%、日本 57%、波多黎各 52%,全球共有 30 个国家/地区的 iOS 占比超 50%。Android 则在更广泛的区域占据主导,有 27 个国家/地区的 Android 占比超过 90%,175 个国家/地区的 Android 占比达 50% 或更高,整体来看 Android 仍占全球移动设备流量大头。
18.webp

不同设备上,浏览器的格局也有明显差异。从全球整体来看,Chrome 依然称霸,贡献了三分之二的请求流量,和去年基本持平;Safari 以 15.4% 的占比排第二,考虑到它仅能在苹果设备上使用,这个成绩已十分亮眼。后续依次是 Microsoft Edge(7.4%)、Mozilla Firefox(3.7%)和 Samsung Internet(2.3%)。
19.webp

设备端差异更显著:iOS 上 Safari 统治力极强,占比高达 79%,是 Chrome(19%)的四倍;Android 上 Chrome 占比 85%,Samsung Internet 以 6.6% 排第二;Windows 系统上 Chrome 占 69%,即便 Edge 是默认浏览器,占比也仅 19%。最后提一嘴网络稳定性:2025 年全球共发生 174 起重大网络中断事件,但和想象中有所不同的是,最常见的原因居然是海外国家「防范考试作弊」导致的人为关网,其次才是天灾人祸造成的光纤切断。看来在 AI 时代,打败互联网的不是黑客,而是监考老师。参考链接🔗
https://radar.cloudflare.com/year-in-review/2025#internet-traffic-growth
  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-1-2 18:48 | 显示全部楼层
网站流量大增又崩溃,我们客服的电话又要被打爆了!
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-1-2 18:52 | 显示全部楼层
AI爬虫:互联网的“白嫖怪”
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-1-2 18:52 | 显示全部楼层
AI爬虫把互联网内容当免费食堂白嫖,像Perplexity这种还讲点武德,但多数平台25万次爬取才回1个访客,长此以往内容生产者都得喝西北风
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-1-3 03:10 | 显示全部楼层
电话销售是否侵犯隐私!@元宝 @较真AI
回复 支持 反对

使用道具 举报

  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-1-3 03:40 | 显示全部楼层
互联网本来是开放的平台,有了利益各大app开始筑造壁垒越来越封闭,也就没有了互联网的初心互联互通!现在好了AI让互联网回归原始,用户非常开心,以盈利为目标的大平台和内容创作者会感到苦恼吧
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

文字版|手机版|小黑屋|RSS|举报不良信息|精睿论坛 ( 鄂ICP备07005250号-1 )|网站地图

GMT+8, 2026-1-5 21:06 , Processed in 0.174962 second(s), 6 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表