
llms.txt 完全指南:标准、格式与实施
你的网站有 robots.txt。但 AI 语言模型真的能读懂它吗?在 2026 年,答案越来越倾向于"不能"——至少不是你以为的那种方式。而这正是 llms.txt 要解决的问题。llms.txt 是一项提案标准,用于向大语言模型(LLM)指明它们应该收录你网站的哪些内容、如何解析,以及在哪里找到机器可读版本。 截至 2026 年年中,该提案已在 AI 生态系统中获得广泛关注,GitHub 上收获了超过 900 个星标,已被主流 LLM 爬虫流程采纳,并获得了包括 Anthropic 和 OpenAI 在内的平台日益增长的支持。本指南涵盖完整规范、格式规则、实施步骤以及各平台的支持情况——让你在 30 分钟内完成 llms.txt 部署所需的全部内容。
核心要点
llms.txt 解决了一个根本性的错配问题:robots.txt 设计于 1994 年,用于告诉搜索引擎爬虫避开哪些 URL。它从未被设计成告诉 LLM 哪些内容值得优先处理、如何切分内容,或在哪里找到无需 JavaScript 渲染的纯净 Markdown 版本。随着 AI 驱动的搜索和助手平台以前所未有的速度消费网页内容,robots.txt 表达能力与 LLM 爬虫需求之间的鸿沟,已成为一个关键的可见性瓶颈。
llms.txt 规范最初由 Jeremy Howard(fast.ai 联合创始人)提出,并通过社区协作实现标准化。它定义了一个放置在域名根目录下的简洁 Markdown 文件,作为面向 AI 系统的结构化内容清单。它告诉爬虫哪些页面最为重要、这些页面支持什么格式,以及如何高效地浏览网站。对于投入生成引擎优化(GEO)的品牌而言,llms.txt 的重要性正迅速赶超 robots.txt——甚至有过之而无不及。
本文将带你通读完整规范,展示具体示例,梳理平台支持情况,并提供分步部署指南。读完后,你将拥有一个可投产的 llms.txt 文件,并清楚理解它如何融入更广泛的 AI 内容策略。
什么是 llms.txt——它与 robots.txt 有何不同
核心理念
llms.txt 是一个纯文本 Markdown 文件,托管在域名的根目录下(/llms.txt),包含有关 LLM 收录网站时应优先处理哪些页面和内容文件的结构化信息。与 robots.txt 采用"否定模型"(屏蔽这些路径)不同,llms.txt 采用"肯定模型":"以下是重要内容,这是纯净版本,这是高效阅读的方式。"
该文件同时服务于两类受众。对 AI 爬虫而言,它提供了关于内容位置和格式的机器可解析指令。对正在阅读网页的 AI 系统而言,该文件本身可以作为上下文被收录,帮助模型在开始爬取单个页面之前就理解网站结构。
llms.txt vs robots.txt:对比一览
| 维度 | robots.txt | llms.txt |
|---|---|---|
| 首次提出 | 1994 年 | 2024 年 |
| 主要受众 | 搜索引擎爬虫(Googlebot、Bingbot) | LLM 爬虫(GPTBot、Claude-Web、PerplexityBot) |
| 运作模型 | 否定式(屏蔽这些路径) | 肯定式(优先处理这些内容) |
| 格式 | 纯文本指令 | 含结构化章节的 Markdown |
| 内容感知 | 无——仅有路径级规则 | 完整——描述每个页面的内容 |
| Markdown 变体支持 | 否 | 是——可指向纯净 Markdown 版本 |
| 采用状态 | 通用标准 | 社区标准,平台支持持续增长 |
| 对 AI 可见性的影响 | 间接(控制抓取预算) | 直接(告诉 LLM 该读什么) |
核心洞察:robots.txt 管理的是抓取效率,llms.txt 管理的是内容理解。两者缺一不可。
LLM 究竟如何使用 llms.txt
当 LLM 驱动的爬虫访问某个域名时,通常会经历一个多阶段流程。首先,检查 /robots.txt 确定抓取权限。然后——如果该爬虫支持 llms.txt——检查 /llms.txt 了解网站结构和内容优先级。最后,根据 llms.txt 中的指令决定收录哪些页面、按什么顺序、以及优先选择哪种格式。
这对 GEO 至关重要,因为 LLM 实际读取的内容决定了它可以引用什么。如果你最具权威性的页面深埋在 AI 爬虫难以解析的 JavaScript 重型模板中,llms.txt 可以引导它们去读取纯净的 Markdown 版本。如果你的网站有 5000 个页面,但只有 50 个对 AI 可见性具有战略意义,llms.txt 能够告诉爬虫优先关注这 50 个页面。
llms.txt 规范:格式与规则
文件位置与命名
llms.txt 文件必须放置在域名根目录下,并通过 HTTPS 提供服务:
https://your-domain.com/llms.txt
该文件应为有效的 Markdown 文件,采用 UTF-8 编码。必须无需身份验证、重定向或 JavaScript 渲染即可访问。Content-Type 应为 text/plain 或 text/markdown。
Markdown 结构
规范定义了若干可选但推荐的章节,每个章节以 Markdown 标题引入:
H1:项目或网站名称
顶级标题标识网站或项目:
# 星触达——AI 搜索可见性平台
H2:核心页面
每个核心页面附带简要描述:
## 核心页面
- [什么是 GEO?](/blog/what-is-generative-engine-optimization):生成引擎优化的完整入门指南,涵盖定义、关键概念以及 GEO 与传统 SEO 的区别。
- [GEO ROI 框架](/blog/geo-roi-calculation-2026):衡量 AI 搜索优化价值并面向管理层汇报的实用框架。
H2:可选章节
其他可选章节可提供补充上下文:
## 文档
- [API 参考](/docs/api):星触达 平台的完整 API 文档。
- [集成指南](/docs/integrations):将 星触达 与分析工具对接的分步指南。
规范刻意保持灵活性。目标是提供清晰、结构化的导航,帮助 LLM 理解你网站上的重要内容——而非强制执行僵化的格式规则。
纯净 Markdown 版本
llms.txt 最强大的功能之一是能够指向重要页面的纯净、LLM 优化的 Markdown 版本。许多网站将内容包裹在厚重的 HTML、JavaScript 和 CSS 之中。虽然现代 LLM 爬虫可以解析 HTML,但纯净的 Markdown 版本能减少处理开销,并消除渲染相关的内容收录失败风险。
## 核心页面
- [定价](/pricing):我们的定价方案与功能对比。([llms-full.txt](/llms-full.txt))
- [企业 GEO 指南](/guide/enterprise-geo):完整的企业 GEO 实施指南。([llms-full.txt](/llms-full.txt))
可选的 /llms-full.txt 文件可以在单个文件中包含所有核心页面的完整 Markdown 内容,使得 LLM 能够极为高效地收录内容。这对于文档重型网站、知识库和内容平台尤为有价值。
平台支持:2026 年谁支持 llms.txt?
| 平台 | llms.txt 支持 | 说明 |
|---|---|---|
| Anthropic(Claude) | 已支持 | Claude-Web 爬虫检查 llms.txt 进行内容发现;已在官方爬虫文档中记录 |
| OpenAI(ChatGPT) | 已支持 | GPTBot 和 ChatGPT-User 均可引用 llms.txt;2026 年 Q1 宣布集成 |
| Google(Gemini) | 部分支持 | Google 的 AI 爬虫主要使用 robots.txt,但 Gemini 的网页浏览模式可以解析 llms.txt |
| Perplexity | 已支持 | PerplexityBot 在其内容收录流程中检查 llms.txt |
| Meta(Llama) | 尚未支持 | Meta 的爬虫目前仅依赖 robots.txt |
| xAI(Grok) | 尚未支持 | Grok 的网页搜索集成目前不引用 llms.txt |
各平台支持进展迅速。GitHub 上的 llms.txt 规范仓库持续追踪平台采用情况,随着 AI 公司认识到结构化内容清单的效率增益,新的集成几乎每月都有公布。
分步实施:30 分钟部署 llms.txt
第一步:梳理关键页面
编写 llms.txt 之前,先确定对 AI 可见性最重要的页面。通常包括:
- 核心产品或服务页面——你的业务是什么,面向谁
- 高权威性博客文章——原创研究、权威指南、数据驱动内容
- FAQ 和文档页面——AI 系统可以直接引用的结构化问答
- 对比和分类页面——帮助 AI 正确定位你品牌的上下文信息
- 关于和信任页面——资质、团队、方法论,构建 AI 感知的权威性
优先选择那些回答高意图问题、建立实体认知、让你与竞争对手形成差异的页面。
第二步:编写 llms.txt 文件
按以下结构创建 Markdown 文件:
# 你的网站名称
关于本网站及其服务对象的简要描述(1-2 句话)。
## 核心页面
- [页面标题](/页面路径):单行描述,说明该页面涵盖的内容及其重要性。
- [另一个页面](/另一个路径):单行描述。
## 可选:文档
- [文档页面](/文档/页面):描述。
## 可选:博客精选
- [博客文章](/博客/文章):描述。
描述保持简洁——每个页面一行。AI 系统使用这些描述来理解内容范围,而非作为训练数据。
第三步:创建 llms-full.txt(可选但推荐)
如果你的网站有核心页面的专用 Markdown 版本,将它们编译成一个单一的 /llms-full.txt 文件。该文件应包含主 llms.txt 中引用的每个页面的完整 Markdown 内容,以清晰的标题分隔。
# 页面 1 标题
[页面 1 的完整 Markdown 内容]
---
# 页面 2 标题
[页面 2 的完整 Markdown 内容]
这种单文件方式大幅减少了 AI 爬虫需要发起的 HTTP 请求次数,提升收录速度和完整性。想深入了解 AI 爬虫如何处理不同内容格式,请参阅我们关于 AI 爬虫与 Markdown 内容协商 的指南。
第四步:正确托管文件
将两个文件放置在域名根目录下:
https://your-domain.com/llms.txt
https://your-domain.com/llms-full.txt
确保:
- 文件通过 HTTPS 提供服务
- Content-Type 为
text/plain或text/markdown - 无需身份验证
- 文件返回 HTTP 200
- 文件未被 robots.txt 屏蔽
- 缓存头允许合理的更新频率(如
Cache-Control: public, max-age=3600)
第五步:验证与监控
部署后验证可访问性:
curl -I https://your-domain.com/llms.txt
监控服务器日志中对 /llms.txt 和 /llms-full.txt 的请求。这些请求表明 AI 爬虫正在发现并使用你的内容清单。追踪部署 llms.txt 后哪些页面被爬取,以及清单中所列页面的 AI 引用率是否有所改善。关于衡量引用改善的框架,请参阅我们的 GEO 表现指标指南。
常见错误,务必避免
- 列出网站上的所有页面。 llms.txt 是内容精选工具,不是站点地图。聚焦于对 AI 理解最重要的 10-50 个页面。过于冗长的 llms.txt 反而暗示没有任何内容真正重要。
- 包含被 robots.txt 屏蔽的页面。 如果一个页面在 robots.txt 中被禁止,却在 llms.txt 中列出,会产生矛盾信号。请对齐你的 robots.txt 和 llms.txt 策略。
- 描述写得太笼统。 "我们的博客"对 LLM 没有任何信息量。"关于 AI 搜索可见性趋势的原创研究,每季度更新,含各平台专属基准数据"则提供了可操作的上下文。
- 内容变更后忘记更新 llms.txt。 如果你发布了重要的新指南或刷新了核心页面,请一并更新 llms.txt。过时的内容清单会降低文件在 AI 爬虫眼中的可信度。
- 将 llms.txt 放在 JavaScript 渲染之后才可访问。 AI 爬虫不一定会执行 JavaScript。请将 llms.txt 作为静态文件托管在可预测的 URL 上。
- 在有资源创建的情况下跳过 llms-full.txt。 将核心内容编译为单个 Markdown 文件,是当今可用的最有利于 LLM 的内容交付格式。
30 天部署计划
- 第 1-3 天:审计你的网站。识别出代表你品牌最重要内容的 10-50 个核心页面,按功能分类:产品定义、权威建设、FAQ/结构化答案、竞争定位。
- 第 4-7 天:编写并部署
/llms.txt。描述保持简洁准确。通过 HTTPS 测试可访问性,确认内容类型正确。 - 第 8-14 天:如条件允许,为核心页面创建纯净 Markdown 版本并编译
/llms-full.txt。这一步对技术文档站点、知识库和内容密集型平台的 ROI 最高。 - 第 15-21 天:审视与
robots.txt的一致性。确保没有矛盾。如有需要,更新站点地图。将 llms.txt 监控纳入你的分析仪表盘。 - 第 22-30 天:监控 AI 爬虫活动。追踪对 llms.txt 的请求。对比部署前后的 AI 引用率。根据 AI 系统实际收录的情况,迭代优化页面列表。
星触达 如何操作化 llms.txt
星触达 平台内置 llms.txt 生成与验证模块,可自动化完整工作流:从内容审计和页面优先级排序,到文件生成、部署验证和持续监控。系统会扫描你现有的网站结构,基于 AI 引用潜力识别高价值页面,生成优化后的 llms.txt 清单——同时可选编译 llms-full.txt 纯净 Markdown 版本合集。
对于管理多语言内容的品牌,平台能正确映射语言变体,确保每个语言版本的 llms.txt 指向相应的本地化内容。这对全球品牌尤为重要——AI 系统可能跨多种语言收录内容,需要清晰的信号来判断哪个版本是哪个市场的权威版本。
除生成能力外,星触达 的监控流程还能追踪 AI 爬虫何时访问你的 llms.txt、读取后优先处理哪些页面,以及引用率随时间的变化。这使得 llms.txt 从静态配置文件转变为动态可见性杠杆——将内容投资与 AI 引用率和品牌在各 AI 平台上的可见度改善直接挂钩。想了解 llms.txt 如何融入更广泛的 GEO 战略,请参阅我们的 结构化数据与 AI 抓取优化指南。


