实测：ChatGPT等AI助手如何抓取网站？Nginx日志揭示真相

当用户向AI助手询问某个网站时，助手是实时抓取页面，还是从预先构建的索引中提取答案？为了弄清这个问题，一位开发者设置了一个Nginx探测服务器，并向主流聊天机器人（ChatGPT、Claude、Perplexity和Gemini）发送了可能触发实时抓取的查询。通过自定义日志格式，他捕捉到了AI助手访问网站时的详细请求头信息，揭示了不同模型在信息检索行为上的差异。

两种不同的“AI流量”信号

在分析网站流量时，“AI流量”通常包含两种截然不同的信号，而Nginx日志能清晰地区分它们：

提供方抓取：AI助手直接访问源站，通常使用专用的用户代理（User-Agent）且不携带来源页（Referer）信息。这代表模型正在主动“阅读”你的网站以获取信息。
真实点击访问：用户阅读了AI提供的答案后，点击其中的引用链接，从而以正常浏览器身份访问网站，并将AI助手页面作为来源页。这代表模型引导了人类用户来阅读你的内容。

将这两种流量混为一谈，会掩盖数据中最有价值的区别。

探测方法与关键发现

为了精确追踪，作者设置了自定义的Nginx日志格式，完整记录用户代理、来源页和接受类型等关键头部信息。他为每个助手设计了指向唯一查询字符串的提示（例如 /?ai=chatgpt），以便快速识别访问来源。

哪些助手“自报家门”？

测试中，有五个助手在抓取时使用了明确标识检索行为的专用用户代理。所有这五个助手都确实抓取了页面。

哪些助手“匿名访问”？

另有三个助手在抓取时没有使用可被捕获的、具有明显特征的检索用户代理。

各助手行为深度解析

ChatGPT：多IP并发抓取候选页面

ChatGPT-User 会从多个源IP地址并发访问源站，通常在模型决定引用哪个页面时，会同时抓取多个候选页面。

作者在另一个生产站点观察到，在最近的24小时内，ChatGPT-User 的请求来自五个不同的Azure IP地址段：23.98.x.x、20.215.x.x、40.67.x.x、51.8.x.x 和 51.107.x.x。这与OpenAI在其官方机器人文档中的描述相符。

关键启示：如果你的网站基于单个源IP进行速率限制，可能会低估ChatGPT的实际访问量。

Claude：每次抓取前必查robots.txt

Claude-User 在每次抓取页面之前，都会先请求 /robots.txt 文件。这些请求来自Anthropic拥有的IP地址空间，具体为 216.73.216.0/24 范围。

对网站运营与AI生态的启示

这项实测不仅解答了“AI是否实时抓取”的疑问，更揭示了大型语言模型（LLM）作为新型网络爬虫的行为模式。对于网站管理员而言，理解这些模式至关重要：

流量分析与SEO：需要将AI抓取流量与人类用户流量区分开来，以准确评估网站的真实影响力和搜索引擎优化（SEO）效果。
服务器负载与成本：AI助手的抓取行为（尤其是像ChatGPT这样的并发多IP抓取）可能增加服务器负载和带宽成本，需要考虑相应的缓存或限流策略。
内容可见性与控制：通过 robots.txt 文件，网站可以一定程度上控制AI模型是否以及如何抓取内容。Claude严格遵守此协议的行为值得注意。
数据新鲜度：确认AI助手会进行实时抓取，意味着它们有可能提供更及时的信息，但这取决于抓取频率和缓存策略。

随着AI助手日益成为人们获取信息的主要入口，其背后的数据检索机制将直接影响信息的流通、网站的流量构成以及内容的可见性。这项实验提供了一个宝贵的、基于实际数据的观察窗口。

实测四大AI助手：我让ChatGPT、Claude、Perplexity和Gemini访问我的网站，并观察Nginx日志