
AI 爬虫如何读取你的内容:Markdown 内容协商与 JS 渲染
上个月,GPTBot 爬取了你的网站 4,200 次。Claude-Web 又发起了 1,800 次请求。PerplexityBot 增加了 2,600 次。但问题来了——大多数内容团队并没有问:在这 8,600 次爬虫访问中,有多少次真正让你的内容被完整、准确地摄取了?AI 爬虫处理网页内容的方式与搜索引擎爬虫根本不同——它们偏好干净、结构化、机器可读的格式,且对 JavaScript 渲染的处理能力参差不齐。不针对 AI 爬虫行为调整内容交付方式的品牌,正在为永远不会进入 AI 知识库的内容买单。 本文解析 AI 内容摄取机制、Markdown 内容协商的作用、JavaScript 渲染问题,以及提供 AI 优化内容版本的实用实施路径。
执行摘要
像 Googlebot 这样的搜索引擎爬虫是复杂的、资源充足的,能够执行 JavaScript、渲染 SPA、从复杂的 DOM 结构中提取内容。AI 爬虫——GPTBot、Claude-Web、PerplexityBot 等——则根本不同。它们被设计用来提取干净文本供 LLM 摄取,而不是渲染完整的 Web 应用。它们的 JavaScript 执行能力充其量是不一致的,许多根本不执行 JavaScript。当它们遇到 JavaScript 重量级页面时,可能摄取了不完整的内容、遗漏了关键信息,或完全跳过该页面。
解决方案是内容协商:根据消费者能够有效处理的内容类型,为其提供不同的内容表示。对 AI 爬虫而言,这意味着提供干净的 Markdown 或结构化 HTML 替代(或补充)JavaScript 渲染的内容。这不是伪装(cloaking)——它是同一内容以更易消化的格式呈现,向已识别的 AI 爬虫透明地提供。
本文涵盖 AI 爬虫全景、有效的内容协商机制、JavaScript 渲染问题及其解决方案,以及多格式内容服务的部署框架。对于在 GEO 上投入大量内容的品牌来说,确保内容真正被摄取是所有优化中最根本的一环。
AI 爬虫全景:谁在爬取以及它们想要什么
2026 年主流 AI 爬虫
| 爬虫 | 运营方 | User-Agent Token | JS 执行 | robots.txt 遵守 | llms.txt 支持 |
|---|---|---|---|---|---|
| GPTBot | OpenAI | GPTBot | 有限 | 是 | 是 |
| ChatGPT-User | OpenAI | ChatGPT-User | 否 | 是 | 是 |
| Claude-Web | Anthropic | Claude-Web | 否 | 是 | 是 |
| PerplexityBot | Perplexity | PerplexityBot | 有限 | 是 | 是 |
| Google-Extended | Google-Extended | 是(完整) | 是 | 部分 | |
| BingBot (Copilot) | Microsoft | BingBot | 是(完整) | 是 | 否 |
| xAI 爬虫 | xAI (Grok) | (不定) | 未知 | 是 | 否 |
| Meta-ExternalAgent | Meta | Meta-ExternalAgent | 否 | 是 | 否 |
AI 爬虫在寻找什么
AI 爬虫与搜索爬虫在优先级上有所不同。搜索爬虫评估页面的排名信号:相关性、权威性、新鲜度和用户体验。AI 爬虫评估的是摄取质量:内容是否可以被干净地提取,是否具有信息量和事实性,是否有助于回答可能的用户问题,以及实体信息是否清晰一致。
这种目的上的差异具有实际影响:
-
内容与代码的比例很重要。 一个页面按字节计算 80% 是 JavaScript 和 CSS,每次爬取请求传递的可摄取内容非常少。AI 爬虫也有爬取预算,它们可能会降低内容稀薄页面的优先级。
-
实体清晰度比关键词优化更重要。 AI 爬虫构建的是知识表示,而非排名索引。清晰的实体信号——一致的命名、明确的定义、结构化的关系——比关键词密度更有价值。
-
结构就是内容。 AI 爬虫解析标题层次、列表结构和表格关系以理解内容组织。结构良好的内容比无结构的文字墙更容易被理解、分块和引用。
JavaScript 渲染问题
为什么 JavaScript 对 AI 爬虫是个问题
现代网站经常依赖 JavaScript 框架(React、Vue、Angular、含客户端 hydration 的 Next.js)来渲染内容。从服务器到达的 HTML 通常只是一个最小壳——实际内容通过浏览器中的 JavaScript 执行动态加载。
Googlebot 对此处理得很好。它运行完整的 Chromium 渲染引擎,可以执行 JavaScript、等待内容加载并索引渲染后的页面。但 AI 爬虫不是 Googlebot。它们没有 Google 的渲染基础设施,不等待 JavaScript 执行完毕,许多根本不执行 JavaScript。
结果:AI 爬虫可能收到一个几乎为空的 HTML 壳,提取不到什么内容,然后继续前进——即使该页面在浏览器中渲染时包含丰富、有价值的内容。从 AI 的角度来看,该页面实际上不存在。
SSR、SSG 与渲染光谱
解决方案是服务端渲染(SSR)或静态站点生成(SSG)。两种方法都从服务器交付完整渲染的 HTML,消除了初始内容交付对 JavaScript 的依赖。
| 渲染方式 | AI 爬虫兼容性 | SEO 兼容性 | 实施复杂度 |
|---|---|---|---|
| 客户端渲染(CSR) | 差——爬虫可能看到空白壳 | 差(Googlebot 可处理但不理想) | 低 |
| 服务端渲染(SSR) | 好——交付完整 HTML | 好 | 中高 |
| 静态站点生成(SSG) | 极好——预渲染 HTML | 极好 | 中 |
| 混合式(SSR + CSR Hydration) | 好——如果初始 HTML 包含核心内容 | 好 | 中 |
| 预渲染 HTML + 干净 Markdown | 最佳——双格式交付 | 最佳 | 中高 |
对于大多数内容驱动型网站,SSG 或混合 SSR 框架(如带服务器组件的 Next.js)提供了开发者体验、AI 爬虫兼容性和 SEO 性能的最佳平衡。核心原则:到达爬虫的 HTML 应包含完整内容,而不是一个加载动画。
Markdown 内容协商:提供 AI 爬虫偏好的内容
内容协商是标准的 HTTP 机制,客户端(浏览器或爬虫)指定其偏好的内容格式,服务器以适当的表示形式响应。对 AI 爬虫而言,这意味着:"如果你有干净的 Markdown,我更偏好它。"
内容协商如何运作
客户端发送 Accept 头表明偏好的内容类型:
Accept: text/markdown, text/html;q=0.9
服务器检查 Accept 头并返回适当的表示形式。正确配置的服务器可以在客户端偏好 Markdown 时响应 Content-Type: text/markdown,或在标准浏览器请求时响应 Content-Type: text/html。
实施方式
方式一:基于 URL 的变体——在可预测的 URL 模式上提供干净 Markdown 版本。从 /llms.txt 文件指向这些 Markdown URL 使 AI 爬虫可以发现它们。此方式无需服务端内容协商逻辑——只需在 HTML 页面旁边生成和提供 Markdown 文件即可。
方式二:基于 Accept 头的协商——服务器检查 Accept 头,在客户端请求时返回 Markdown。需要服务端配置,但提供更清晰的 URL 结构。
方式三:双交付 + llms-full.txt——维护单独 Markdown 版本并编译一个包含所有核心页面完整 Markdown 内容的 /llms-full.txt 文件。AI 爬虫可在单次请求中摄取整个内容语料库。这是最大化爬取效率和内容完整性的方式。
对大多数品牌而言,从方式一开始(基于 URL 的变体 + llms.txt)提供了实施速度和 AI 爬虫价值的最佳平衡。关于结构化数据如何补充 Markdown 交付,参见我们的 Schema 与 AI 搜索结构化数据指南。关于 llms.txt 部署的完整指南,参见我们的 llms.txt 完整指南。
常见误区
- 假设 AI 爬虫像 Googlebot 一样渲染 JavaScript。 它们不渲染。Googlebot 对 JS 渲染拥有独特的充足资源。AI 爬虫不是 Googlebot。按最低共同标准规划。
- 将 Markdown 作为独立、无链接的内容孤岛提供。 Markdown 版本应可被发现——从 llms.txt 链接、在 HTTP 头中引用或其他方式暴露给 AI 爬虫。无链接的 Markdown 文件是不可见的。
- 一边屏蔽 AI 爬虫以"保护内容",一边投资 GEO。 如果你阻止 AI 爬虫摄取你的内容,你投资的是永远无法实现的可见度。对各 AI 爬虫做出明确的、逐个平台的决策。
- 把内容协商当作伪装(cloaking)。 向已识别的爬虫以不同格式提供相同内容不是伪装——它是格式优化。伪装是向爬虫提供与用户不同的内容。内容协商是以偏好格式提供相同内容。
- 忽视 AI 爬虫的爬取预算。 AI 爬虫和搜索爬虫一样具有有限资源。优化高效的内容交付,使你最重要的页面得到爬取和摄取,而不仅仅是最新发布的页面。
星触达如何帮助 AI 爬虫内容交付
星触达的内容交付优化模块分析你的网站在 AI 爬虫眼中的样子——而不是浏览器中的样子。平台的爬虫模拟器以 GPTBot、Claude-Web 和 PerplexityBot 的视角渲染页面,识别由 JavaScript 渲染失败、缺失结构化数据或内容代码比过低造成的内容缺口。
除诊断外,平台自动化为核心页面生成 Markdown 内容,并管理 llms.txt 和 llms-full.txt 的部署——确保 AI 爬虫能够发现、访问并完整摄取你最具战略重要性的内容。对于管理大型内容库的品牌,这种自动化消除了维护并行 Markdown 版本的手动开销。
平台还监控爬虫访问与 AI 引用之间的关联:追踪成功爬取的页面是否真正被 AI 答案引用——使技术团队能够以具体术语看到内容交付改进是否正在转化为真实的 AI 可见度收益。了解 AI 爬虫优化如何融入更广泛的 GEO 技术策略,参见我们的 企业级 GEO 治理与合规指南。


