AI爬虫重塑互联网生态:已占据全球三成网络流量

阅读量9264

发布时间 : 2025-07-03 14:59:08

x
译文声明

本文是翻译文章,文章原作者 Tushar Subhra Dutta,文章来源:cybersecuritynews

原文地址:https://cybersecuritynews.com/global-web-traffic/

译文仅供参考,具体内容表达以及含义原文为准。

随着人工智能爬虫迅速崛起,全球互联网基础设施正在经历一场深层次的变革。

最新分析显示,自动化机器人已占全球网页流量的约30%,标志着网络使用模式正从以人为主导向以机器驱动转变。

这一剧烈变化不仅是技术层面的进步,更代表了信息在数字网络中流动方式的根本重构。AI驱动的爬虫正在逐步取代传统的搜索引擎索引机制。

AI爬虫数量激增的背后,是大语言模型(LLM)的大规模训练和部署浪潮。各大科技公司迫切需要庞大的网页数据来训练、微调其人工智能系统。

与传统网页爬虫主要聚焦于搜索引擎索引不同,这些新型AI爬虫用途广泛,涵盖内容解析、模型训练、实时信息获取等多个环节。

爬虫流量规模的变化尤为惊人。一些AI爬虫的年增长率甚至超过 300%,显示出当前大模型对数据的巨大需求。

Cloudflare 的安全分析人员通过对全球网络基础设施的网页流量模式进行监测,识别出了这一趋势。

他们通过分析HTTP请求中的User-Agent字段,并将其与已知AI爬虫特征匹配,首次提供了对不断演化的爬虫生态系统的清晰视角。本次研究共涵盖了30余种AI与搜索类爬虫,揭示了市场主导者变迁和爬取行为的深刻变化。

数据表明,AI爬虫“格局洗牌”已经开始:OpenAI 的 GPTBot 在一年间从5%的份额猛增至30%,增长率达305%,成为AI爬虫流量中的绝对主力,彰显出当前大模型训练对网页数据的前所未有的渴求。

与此同时,Meta-ExternalAgent 作为新玩家迅速崛起,占据了19%的市场份额,而字节跳动的 Bytespider 则由原本的42%暴跌至7%,活跃度锐减85%,跌出主流行列。

技术架构与检测难题

从技术角度来看,AI爬虫背后的架构与传统搜索爬虫显著不同,表现出更高的智能性和规避能力。

这些AI爬虫通常搭载语义解析算法,可深度理解网页内容的含义;与此同时,它们往往通过各种手段绕过传统的 robots.txt 限制。

分析还发现,AI爬虫普遍采用分布式请求策略:使用多组IP地址、变化的请求时间间隔来规避封禁与限速机制,进一步增加了检测难度。

对于网站管理员而言,想要管理这些AI爬虫的访问权限是一项极具挑战性的工作。

尽管 robots.txt 文件仍是当前主要的爬虫管理机制,但在本次分析中,仅有 14% 的网站部署了针对AI爬虫的专用访问策略

更棘手的是,许多AI爬虫对 robots.txt 的遵循程度模糊不清,导致传统屏蔽手段失效,网站所有者难以有效应对。

AI爬虫正在深刻改变互联网的运行逻辑——它们不是为了展示搜索结果,而是为大模型“喂数”;它们不再是简单工具,而是AI竞争背后的核心基础设施。面对这一趋势,全球网站的访问策略、安全策略及数据保护机制都面临重塑。

 

本文翻译自cybersecuritynews 原文链接。如若转载请注明出处。
分享到:微信
+10赞
收藏
安全客
分享到:微信

发表评论

Copyright © 北京奇虎科技有限公司 三六零数字安全科技集团有限公司 安全KER All Rights Reserved 京ICP备08010314号-66