llms.txt 完全指南:标准、格式与实施
技术策略2026-06-14

llms.txt 完全指南:标准、格式与实施

你的网站有 robots.txt。但 AI 语言模型真的能读懂它吗?在 2026 年,答案越来越倾向于"不能"——至少不是你以为的那种方式。而这正是 llms.txt 要解决的问题。llms.txt 是一项提案标准,用于向大语言模型(LLM)指明它们应该收录你网站的哪些内容、如何解析,以及在哪里找到机器可读版本。 截至 2026 年年中,该提案已在 AI 生态系统中获得广泛关注,GitHub 上收获了超过 900 个星标,已被主流 LLM 爬虫流程采纳,并获得了包括 Anthropic 和 OpenAI 在内的平台日益增长的支持。本指南涵盖完整规范、格式规则、实施步骤以及各平台的支持情况——让你在 30 分钟内完成 llms.txt 部署所需的全部内容。

核心要点

llms.txt 解决了一个根本性的错配问题:robots.txt 设计于 1994 年,用于告诉搜索引擎爬虫避开哪些 URL。它从未被设计成告诉 LLM 哪些内容值得优先处理、如何切分内容,或在哪里找到无需 JavaScript 渲染的纯净 Markdown 版本。随着 AI 驱动的搜索和助手平台以前所未有的速度消费网页内容,robots.txt 表达能力与 LLM 爬虫需求之间的鸿沟,已成为一个关键的可见性瓶颈。

llms.txt 规范最初由 Jeremy Howard(fast.ai 联合创始人)提出,并通过社区协作实现标准化。它定义了一个放置在域名根目录下的简洁 Markdown 文件,作为面向 AI 系统的结构化内容清单。它告诉爬虫哪些页面最为重要、这些页面支持什么格式,以及如何高效地浏览网站。对于投入生成引擎优化(GEO)的品牌而言,llms.txt 的重要性正迅速赶超 robots.txt——甚至有过之而无不及。

本文将带你通读完整规范,展示具体示例,梳理平台支持情况,并提供分步部署指南。读完后,你将拥有一个可投产的 llms.txt 文件,并清楚理解它如何融入更广泛的 AI 内容策略。

什么是 llms.txt——它与 robots.txt 有何不同

核心理念

llms.txt 是一个纯文本 Markdown 文件,托管在域名的根目录下(/llms.txt),包含有关 LLM 收录网站时应优先处理哪些页面和内容文件的结构化信息。与 robots.txt 采用"否定模型"(屏蔽这些路径)不同,llms.txt 采用"肯定模型":"以下是重要内容,这是纯净版本,这是高效阅读的方式。"

该文件同时服务于两类受众。对 AI 爬虫而言,它提供了关于内容位置和格式的机器可解析指令。对正在阅读网页的 AI 系统而言,该文件本身可以作为上下文被收录,帮助模型在开始爬取单个页面之前就理解网站结构。

llms.txt vs robots.txt:对比一览

维度robots.txtllms.txt
首次提出1994 年2024 年
主要受众搜索引擎爬虫(Googlebot、Bingbot)LLM 爬虫(GPTBot、Claude-Web、PerplexityBot)
运作模型否定式(屏蔽这些路径)肯定式(优先处理这些内容)
格式纯文本指令含结构化章节的 Markdown
内容感知无——仅有路径级规则完整——描述每个页面的内容
Markdown 变体支持是——可指向纯净 Markdown 版本
采用状态通用标准社区标准,平台支持持续增长
对 AI 可见性的影响间接(控制抓取预算)直接(告诉 LLM 该读什么)

核心洞察:robots.txt 管理的是抓取效率,llms.txt 管理的是内容理解。两者缺一不可。

LLM 究竟如何使用 llms.txt

当 LLM 驱动的爬虫访问某个域名时,通常会经历一个多阶段流程。首先,检查 /robots.txt 确定抓取权限。然后——如果该爬虫支持 llms.txt——检查 /llms.txt 了解网站结构和内容优先级。最后,根据 llms.txt 中的指令决定收录哪些页面、按什么顺序、以及优先选择哪种格式。

这对 GEO 至关重要,因为 LLM 实际读取的内容决定了它可以引用什么。如果你最具权威性的页面深埋在 AI 爬虫难以解析的 JavaScript 重型模板中,llms.txt 可以引导它们去读取纯净的 Markdown 版本。如果你的网站有 5000 个页面,但只有 50 个对 AI 可见性具有战略意义,llms.txt 能够告诉爬虫优先关注这 50 个页面。

llms.txt 规范:格式与规则

文件位置与命名

llms.txt 文件必须放置在域名根目录下,并通过 HTTPS 提供服务:

https://your-domain.com/llms.txt

该文件应为有效的 Markdown 文件,采用 UTF-8 编码。必须无需身份验证、重定向或 JavaScript 渲染即可访问。Content-Type 应为 text/plaintext/markdown

Markdown 结构

规范定义了若干可选但推荐的章节,每个章节以 Markdown 标题引入:

H1:项目或网站名称

顶级标题标识网站或项目:

# 星触达——AI 搜索可见性平台

H2:核心页面

每个核心页面附带简要描述:

## 核心页面

- [什么是 GEO?](/blog/what-is-generative-engine-optimization):生成引擎优化的完整入门指南,涵盖定义、关键概念以及 GEO 与传统 SEO 的区别。
- [GEO ROI 框架](/blog/geo-roi-calculation-2026):衡量 AI 搜索优化价值并面向管理层汇报的实用框架。

H2:可选章节

其他可选章节可提供补充上下文:

## 文档

- [API 参考](/docs/api):星触达 平台的完整 API 文档。
- [集成指南](/docs/integrations):将 星触达 与分析工具对接的分步指南。

规范刻意保持灵活性。目标是提供清晰、结构化的导航,帮助 LLM 理解你网站上的重要内容——而非强制执行僵化的格式规则。

纯净 Markdown 版本

llms.txt 最强大的功能之一是能够指向重要页面的纯净、LLM 优化的 Markdown 版本。许多网站将内容包裹在厚重的 HTML、JavaScript 和 CSS 之中。虽然现代 LLM 爬虫可以解析 HTML,但纯净的 Markdown 版本能减少处理开销,并消除渲染相关的内容收录失败风险。

## 核心页面

- [定价](/pricing):我们的定价方案与功能对比。([llms-full.txt](/llms-full.txt))
- [企业 GEO 指南](/guide/enterprise-geo):完整的企业 GEO 实施指南。([llms-full.txt](/llms-full.txt))

可选的 /llms-full.txt 文件可以在单个文件中包含所有核心页面的完整 Markdown 内容,使得 LLM 能够极为高效地收录内容。这对于文档重型网站、知识库和内容平台尤为有价值。

平台支持:2026 年谁支持 llms.txt?

平台llms.txt 支持说明
Anthropic(Claude)已支持Claude-Web 爬虫检查 llms.txt 进行内容发现;已在官方爬虫文档中记录
OpenAI(ChatGPT)已支持GPTBot 和 ChatGPT-User 均可引用 llms.txt;2026 年 Q1 宣布集成
Google(Gemini)部分支持Google 的 AI 爬虫主要使用 robots.txt,但 Gemini 的网页浏览模式可以解析 llms.txt
Perplexity已支持PerplexityBot 在其内容收录流程中检查 llms.txt
Meta(Llama)尚未支持Meta 的爬虫目前仅依赖 robots.txt
xAI(Grok)尚未支持Grok 的网页搜索集成目前不引用 llms.txt

各平台支持进展迅速。GitHub 上的 llms.txt 规范仓库持续追踪平台采用情况,随着 AI 公司认识到结构化内容清单的效率增益,新的集成几乎每月都有公布。

分步实施:30 分钟部署 llms.txt

第一步:梳理关键页面

编写 llms.txt 之前,先确定对 AI 可见性最重要的页面。通常包括:

  1. 核心产品或服务页面——你的业务是什么,面向谁
  2. 高权威性博客文章——原创研究、权威指南、数据驱动内容
  3. FAQ 和文档页面——AI 系统可以直接引用的结构化问答
  4. 对比和分类页面——帮助 AI 正确定位你品牌的上下文信息
  5. 关于和信任页面——资质、团队、方法论,构建 AI 感知的权威性

优先选择那些回答高意图问题、建立实体认知、让你与竞争对手形成差异的页面。

第二步:编写 llms.txt 文件

按以下结构创建 Markdown 文件:

# 你的网站名称

关于本网站及其服务对象的简要描述(1-2 句话)。

## 核心页面

- [页面标题](/页面路径):单行描述,说明该页面涵盖的内容及其重要性。
- [另一个页面](/另一个路径):单行描述。

## 可选:文档

- [文档页面](/文档/页面):描述。

## 可选:博客精选

- [博客文章](/博客/文章):描述。

描述保持简洁——每个页面一行。AI 系统使用这些描述来理解内容范围,而非作为训练数据。

第三步:创建 llms-full.txt(可选但推荐)

如果你的网站有核心页面的专用 Markdown 版本,将它们编译成一个单一的 /llms-full.txt 文件。该文件应包含主 llms.txt 中引用的每个页面的完整 Markdown 内容,以清晰的标题分隔。

# 页面 1 标题

[页面 1 的完整 Markdown 内容]

---

# 页面 2 标题

[页面 2 的完整 Markdown 内容]

这种单文件方式大幅减少了 AI 爬虫需要发起的 HTTP 请求次数,提升收录速度和完整性。想深入了解 AI 爬虫如何处理不同内容格式,请参阅我们关于 AI 爬虫与 Markdown 内容协商 的指南。

第四步:正确托管文件

将两个文件放置在域名根目录下:

https://your-domain.com/llms.txt
https://your-domain.com/llms-full.txt

确保:

  • 文件通过 HTTPS 提供服务
  • Content-Type 为 text/plaintext/markdown
  • 无需身份验证
  • 文件返回 HTTP 200
  • 文件未被 robots.txt 屏蔽
  • 缓存头允许合理的更新频率(如 Cache-Control: public, max-age=3600

第五步:验证与监控

部署后验证可访问性:

curl -I https://your-domain.com/llms.txt

监控服务器日志中对 /llms.txt/llms-full.txt 的请求。这些请求表明 AI 爬虫正在发现并使用你的内容清单。追踪部署 llms.txt 后哪些页面被爬取,以及清单中所列页面的 AI 引用率是否有所改善。关于衡量引用改善的框架,请参阅我们的 GEO 表现指标指南

常见错误,务必避免

  • 列出网站上的所有页面。 llms.txt 是内容精选工具,不是站点地图。聚焦于对 AI 理解最重要的 10-50 个页面。过于冗长的 llms.txt 反而暗示没有任何内容真正重要。
  • 包含被 robots.txt 屏蔽的页面。 如果一个页面在 robots.txt 中被禁止,却在 llms.txt 中列出,会产生矛盾信号。请对齐你的 robots.txt 和 llms.txt 策略。
  • 描述写得太笼统。 "我们的博客"对 LLM 没有任何信息量。"关于 AI 搜索可见性趋势的原创研究,每季度更新,含各平台专属基准数据"则提供了可操作的上下文。
  • 内容变更后忘记更新 llms.txt。 如果你发布了重要的新指南或刷新了核心页面,请一并更新 llms.txt。过时的内容清单会降低文件在 AI 爬虫眼中的可信度。
  • 将 llms.txt 放在 JavaScript 渲染之后才可访问。 AI 爬虫不一定会执行 JavaScript。请将 llms.txt 作为静态文件托管在可预测的 URL 上。
  • 在有资源创建的情况下跳过 llms-full.txt。 将核心内容编译为单个 Markdown 文件,是当今可用的最有利于 LLM 的内容交付格式。

30 天部署计划

  • 第 1-3 天:审计你的网站。识别出代表你品牌最重要内容的 10-50 个核心页面,按功能分类:产品定义、权威建设、FAQ/结构化答案、竞争定位。
  • 第 4-7 天:编写并部署 /llms.txt。描述保持简洁准确。通过 HTTPS 测试可访问性,确认内容类型正确。
  • 第 8-14 天:如条件允许,为核心页面创建纯净 Markdown 版本并编译 /llms-full.txt。这一步对技术文档站点、知识库和内容密集型平台的 ROI 最高。
  • 第 15-21 天:审视与 robots.txt 的一致性。确保没有矛盾。如有需要,更新站点地图。将 llms.txt 监控纳入你的分析仪表盘。
  • 第 22-30 天:监控 AI 爬虫活动。追踪对 llms.txt 的请求。对比部署前后的 AI 引用率。根据 AI 系统实际收录的情况,迭代优化页面列表。

星触达 如何操作化 llms.txt

星触达 平台内置 llms.txt 生成与验证模块,可自动化完整工作流:从内容审计和页面优先级排序,到文件生成、部署验证和持续监控。系统会扫描你现有的网站结构,基于 AI 引用潜力识别高价值页面,生成优化后的 llms.txt 清单——同时可选编译 llms-full.txt 纯净 Markdown 版本合集。

对于管理多语言内容的品牌,平台能正确映射语言变体,确保每个语言版本的 llms.txt 指向相应的本地化内容。这对全球品牌尤为重要——AI 系统可能跨多种语言收录内容,需要清晰的信号来判断哪个版本是哪个市场的权威版本。

除生成能力外,星触达 的监控流程还能追踪 AI 爬虫何时访问你的 llms.txt、读取后优先处理哪些页面,以及引用率随时间的变化。这使得 llms.txt 从静态配置文件转变为动态可见性杠杆——将内容投资与 AI 引用率和品牌在各 AI 平台上的可见度改善直接挂钩。想了解 llms.txt 如何融入更广泛的 GEO 战略,请参阅我们的 结构化数据与 AI 抓取优化指南

继续阅读