实测四大AI助手:我让ChatGPT、Claude、Perplexity和Gemini访问我的网站,并观察Nginx日志
当用户向AI助手询问某个网站时,助手是实时抓取页面,还是从预先构建的索引中提取答案?为了弄清这个问题,一位开发者设置了一个Nginx探测服务器,并向主流聊天机器人(ChatGPT、Claude、Perplexity和Gemini)发送了可能触发实时抓取的查询。通过自定义日志格式,他捕捉到了AI助手访问网站时的详细请求头信息,揭示了不同模型在信息检索行为上的差异。
两种不同的“AI流量”信号
在分析网站流量时,“AI流量”通常包含两种截然不同的信号,而Nginx日志能清晰地区分它们:
- 提供方抓取:AI助手直接访问源站,通常使用专用的用户代理(User-Agent)且不携带来源页(Referer)信息。这代表模型正在主动“阅读”你的网站以获取信息。
- 真实点击访问:用户阅读了AI提供的答案后,点击其中的引用链接,从而以正常浏览器身份访问网站,并将AI助手页面作为来源页。这代表模型引导了人类用户来阅读你的内容。
将这两种流量混为一谈,会掩盖数据中最有价值的区别。
探测方法与关键发现
为了精确追踪,作者设置了自定义的Nginx日志格式,完整记录用户代理、来源页和接受类型等关键头部信息。他为每个助手设计了指向唯一查询字符串的提示(例如 /?ai=chatgpt),以便快速识别访问来源。
哪些助手“自报家门”?
测试中,有五个助手在抓取时使用了明确标识检索行为的专用用户代理。所有这五个助手都确实抓取了页面。
哪些助手“匿名访问”?
另有三个助手在抓取时没有使用可被捕获的、具有明显特征的检索用户代理。
各助手行为深度解析
ChatGPT:多IP并发抓取候选页面
ChatGPT-User 会从多个源IP地址并发访问源站,通常在模型决定引用哪个页面时,会同时抓取多个候选页面。
作者在另一个生产站点观察到,在最近的24小时内,ChatGPT-User 的请求来自五个不同的Azure IP地址段:23.98.x.x、20.215.x.x、40.67.x.x、51.8.x.x 和 51.107.x.x。这与OpenAI在其官方机器人文档中的描述相符。
关键启示:如果你的网站基于单个源IP进行速率限制,可能会低估ChatGPT的实际访问量。
Claude:每次抓取前必查robots.txt
Claude-User 在每次抓取页面之前,都会先请求 /robots.txt 文件。这些请求来自Anthropic拥有的IP地址空间,具体为 216.73.216.0/24 范围。
对网站运营与AI生态的启示
这项实测不仅解答了“AI是否实时抓取”的疑问,更揭示了大型语言模型(LLM)作为新型网络爬虫的行为模式。对于网站管理员而言,理解这些模式至关重要:
- 流量分析与SEO:需要将AI抓取流量与人类用户流量区分开来,以准确评估网站的真实影响力和搜索引擎优化(SEO)效果。
- 服务器负载与成本:AI助手的抓取行为(尤其是像ChatGPT这样的并发多IP抓取)可能增加服务器负载和带宽成本,需要考虑相应的缓存或限流策略。
- 内容可见性与控制:通过
robots.txt文件,网站可以一定程度上控制AI模型是否以及如何抓取内容。Claude严格遵守此协议的行为值得注意。 - 数据新鲜度:确认AI助手会进行实时抓取,意味着它们有可能提供更及时的信息,但这取决于抓取频率和缓存策略。
随着AI助手日益成为人们获取信息的主要入口,其背后的数据检索机制将直接影响信息的流通、网站的流量构成以及内容的可见性。这项实验提供了一个宝贵的、基于实际数据的观察窗口。