llms.txt 完全指南：标准、格式与实施

你的网站有 robots.txt。但 AI 语言模型真的能读懂它吗？在 2026 年，答案越来越倾向于"不能"——至少不是你以为的那种方式。而这正是 llms.txt 要解决的问题。llms.txt 是一项提案标准，用于向大语言模型（LLM）指明它们应该收录你网站的哪些内容、如何解析，以及在哪里找到机器可读版本。 截至 2026 年年中，该提案已在 AI 生态系统中获得广泛关注，GitHub 上收获了超过 900 个星标，已被主流 LLM 爬虫流程采纳，并获得了包括 Anthropic 和 OpenAI 在内的平台日益增长的支持。本指南涵盖完整规范、格式规则、实施步骤以及各平台的支持情况——让你在 30 分钟内完成 llms.txt 部署所需的全部内容。

核心要点

llms.txt 解决了一个根本性的错配问题：robots.txt 设计于 1994 年，用于告诉搜索引擎爬虫避开哪些 URL。它从未被设计成告诉 LLM 哪些内容值得优先处理、如何切分内容，或在哪里找到无需 JavaScript 渲染的纯净 Markdown 版本。随着 AI 驱动的搜索和助手平台以前所未有的速度消费网页内容，robots.txt 表达能力与 LLM 爬虫需求之间的鸿沟，已成为一个关键的可见性瓶颈。

llms.txt 规范最初由 Jeremy Howard（fast.ai 联合创始人）提出，并通过社区协作实现标准化。它定义了一个放置在域名根目录下的简洁 Markdown 文件，作为面向 AI 系统的结构化内容清单。它告诉爬虫哪些页面最为重要、这些页面支持什么格式，以及如何高效地浏览网站。对于投入生成引擎优化（GEO）的品牌而言，llms.txt 的重要性正迅速赶超 robots.txt——甚至有过之而无不及。

本文将带你通读完整规范，展示具体示例，梳理平台支持情况，并提供分步部署指南。读完后，你将拥有一个可投产的 llms.txt 文件，并清楚理解它如何融入更广泛的 AI 内容策略。

什么是 llms.txt——它与 robots.txt 有何不同

核心理念

llms.txt 是一个纯文本 Markdown 文件，托管在域名的根目录下（/llms.txt），包含有关 LLM 收录网站时应优先处理哪些页面和内容文件的结构化信息。与 robots.txt 采用"否定模型"（屏蔽这些路径）不同，llms.txt 采用"肯定模型"："以下是重要内容，这是纯净版本，这是高效阅读的方式。"

该文件同时服务于两类受众。对 AI 爬虫而言，它提供了关于内容位置和格式的机器可解析指令。对正在阅读网页的 AI 系统而言，该文件本身可以作为上下文被收录，帮助模型在开始爬取单个页面之前就理解网站结构。

llms.txt vs robots.txt：对比一览

维度	robots.txt	llms.txt
首次提出	1994 年	2024 年
主要受众	搜索引擎爬虫（Googlebot、Bingbot）	LLM 爬虫（GPTBot、Claude-Web、PerplexityBot）
运作模型	否定式（屏蔽这些路径）	肯定式（优先处理这些内容）
格式	纯文本指令	含结构化章节的 Markdown
内容感知	无——仅有路径级规则	完整——描述每个页面的内容
Markdown 变体支持	否	是——可指向纯净 Markdown 版本
采用状态	通用标准	社区标准，平台支持持续增长
对 AI 可见性的影响	间接（控制抓取预算）	直接（告诉 LLM 该读什么）

核心洞察：robots.txt 管理的是抓取效率，llms.txt 管理的是内容理解。两者缺一不可。

LLM 究竟如何使用 llms.txt

当 LLM 驱动的爬虫访问某个域名时，通常会经历一个多阶段流程。首先，检查 /robots.txt 确定抓取权限。然后——如果该爬虫支持 llms.txt——检查 /llms.txt 了解网站结构和内容优先级。最后，根据 llms.txt 中的指令决定收录哪些页面、按什么顺序、以及优先选择哪种格式。

这对 GEO 至关重要，因为 LLM 实际读取的内容决定了它可以引用什么。如果你最具权威性的页面深埋在 AI 爬虫难以解析的 JavaScript 重型模板中，llms.txt 可以引导它们去读取纯净的 Markdown 版本。如果你的网站有 5000 个页面，但只有 50 个对 AI 可见性具有战略意义，llms.txt 能够告诉爬虫优先关注这 50 个页面。

llms.txt 规范：格式与规则

文件位置与命名

llms.txt 文件必须放置在域名根目录下，并通过 HTTPS 提供服务：

https://your-domain.com/llms.txt

该文件应为有效的 Markdown 文件，采用 UTF-8 编码。必须无需身份验证、重定向或 JavaScript 渲染即可访问。Content-Type 应为 text/plain 或 text/markdown。

Markdown 结构

规范定义了若干可选但推荐的章节，每个章节以 Markdown 标题引入：

H1：项目或网站名称

顶级标题标识网站或项目：

# 星触达——AI 搜索可见性平台

H2：核心页面

每个核心页面附带简要描述：

## 核心页面

- [什么是 GEO？](/blog/what-is-generative-engine-optimization)：生成引擎优化的完整入门指南，涵盖定义、关键概念以及 GEO 与传统 SEO 的区别。
- [GEO ROI 框架](/blog/geo-roi-calculation-2026)：衡量 AI 搜索优化价值并面向管理层汇报的实用框架。

H2：可选章节

其他可选章节可提供补充上下文：

## 文档

- [API 参考](/docs/api)：星触达 平台的完整 API 文档。
- [集成指南](/docs/integrations)：将 星触达 与分析工具对接的分步指南。

规范刻意保持灵活性。目标是提供清晰、结构化的导航，帮助 LLM 理解你网站上的重要内容——而非强制执行僵化的格式规则。

纯净 Markdown 版本

llms.txt 最强大的功能之一是能够指向重要页面的纯净、LLM 优化的 Markdown 版本。许多网站将内容包裹在厚重的 HTML、JavaScript 和 CSS 之中。虽然现代 LLM 爬虫可以解析 HTML，但纯净的 Markdown 版本能减少处理开销，并消除渲染相关的内容收录失败风险。

## 核心页面

- [定价](/pricing)：我们的定价方案与功能对比。（[llms-full.txt](/llms-full.txt)）
- [企业 GEO 指南](/guide/enterprise-geo)：完整的企业 GEO 实施指南。（[llms-full.txt](/llms-full.txt)）

可选的 /llms-full.txt 文件可以在单个文件中包含所有核心页面的完整 Markdown 内容，使得 LLM 能够极为高效地收录内容。这对于文档重型网站、知识库和内容平台尤为有价值。

平台支持：2026 年谁支持 llms.txt？

平台	llms.txt 支持	说明
Anthropic（Claude）	已支持	Claude-Web 爬虫检查 llms.txt 进行内容发现；已在官方爬虫文档中记录
OpenAI（ChatGPT）	已支持	GPTBot 和 ChatGPT-User 均可引用 llms.txt；2026 年 Q1 宣布集成
Google（Gemini）	部分支持	Google 的 AI 爬虫主要使用 robots.txt，但 Gemini 的网页浏览模式可以解析 llms.txt
Perplexity	已支持	PerplexityBot 在其内容收录流程中检查 llms.txt
Meta（Llama）	尚未支持	Meta 的爬虫目前仅依赖 robots.txt
xAI（Grok）	尚未支持	Grok 的网页搜索集成目前不引用 llms.txt

各平台支持进展迅速。GitHub 上的 llms.txt 规范仓库持续追踪平台采用情况，随着 AI 公司认识到结构化内容清单的效率增益，新的集成几乎每月都有公布。

分步实施：30 分钟部署 llms.txt

第一步：梳理关键页面

编写 llms.txt 之前，先确定对 AI 可见性最重要的页面。通常包括：

核心产品或服务页面——你的业务是什么，面向谁
高权威性博客文章——原创研究、权威指南、数据驱动内容
FAQ 和文档页面——AI 系统可以直接引用的结构化问答
对比和分类页面——帮助 AI 正确定位你品牌的上下文信息
关于和信任页面——资质、团队、方法论，构建 AI 感知的权威性

优先选择那些回答高意图问题、建立实体认知、让你与竞争对手形成差异的页面。

第二步：编写 llms.txt 文件

按以下结构创建 Markdown 文件：

# 你的网站名称

关于本网站及其服务对象的简要描述（1-2 句话）。

## 核心页面

- [页面标题](/页面路径)：单行描述，说明该页面涵盖的内容及其重要性。
- [另一个页面](/另一个路径)：单行描述。

## 可选：文档

- [文档页面](/文档/页面)：描述。

## 可选：博客精选

- [博客文章](/博客/文章)：描述。

描述保持简洁——每个页面一行。AI 系统使用这些描述来理解内容范围，而非作为训练数据。

第三步：创建 llms-full.txt（可选但推荐）

如果你的网站有核心页面的专用 Markdown 版本，将它们编译成一个单一的 /llms-full.txt 文件。该文件应包含主 llms.txt 中引用的每个页面的完整 Markdown 内容，以清晰的标题分隔。

# 页面 1 标题

[页面 1 的完整 Markdown 内容]

---

# 页面 2 标题

[页面 2 的完整 Markdown 内容]

这种单文件方式大幅减少了 AI 爬虫需要发起的 HTTP 请求次数，提升收录速度和完整性。想深入了解 AI 爬虫如何处理不同内容格式，请参阅我们关于 AI 爬虫与 Markdown 内容协商的指南。

第四步：正确托管文件

将两个文件放置在域名根目录下：

https://your-domain.com/llms.txt
https://your-domain.com/llms-full.txt

确保：

文件通过 HTTPS 提供服务
Content-Type 为 text/plain 或 text/markdown
无需身份验证
文件返回 HTTP 200
文件未被 robots.txt 屏蔽
缓存头允许合理的更新频率（如 Cache-Control: public, max-age=3600）

第五步：验证与监控

部署后验证可访问性：

curl -I https://your-domain.com/llms.txt

监控服务器日志中对 /llms.txt 和 /llms-full.txt 的请求。这些请求表明 AI 爬虫正在发现并使用你的内容清单。追踪部署 llms.txt 后哪些页面被爬取，以及清单中所列页面的 AI 引用率是否有所改善。关于衡量引用改善的框架，请参阅我们的 GEO 表现指标指南。

常见错误，务必避免

列出网站上的所有页面。 llms.txt 是内容精选工具，不是站点地图。聚焦于对 AI 理解最重要的 10-50 个页面。过于冗长的 llms.txt 反而暗示没有任何内容真正重要。
包含被 robots.txt 屏蔽的页面。 如果一个页面在 robots.txt 中被禁止，却在 llms.txt 中列出，会产生矛盾信号。请对齐你的 robots.txt 和 llms.txt 策略。
描述写得太笼统。 "我们的博客"对 LLM 没有任何信息量。"关于 AI 搜索可见性趋势的原创研究，每季度更新，含各平台专属基准数据"则提供了可操作的上下文。
内容变更后忘记更新 llms.txt。 如果你发布了重要的新指南或刷新了核心页面，请一并更新 llms.txt。过时的内容清单会降低文件在 AI 爬虫眼中的可信度。
将 llms.txt 放在 JavaScript 渲染之后才可访问。 AI 爬虫不一定会执行 JavaScript。请将 llms.txt 作为静态文件托管在可预测的 URL 上。
在有资源创建的情况下跳过 llms-full.txt。 将核心内容编译为单个 Markdown 文件，是当今可用的最有利于 LLM 的内容交付格式。

30 天部署计划

第 1-3 天：审计你的网站。识别出代表你品牌最重要内容的 10-50 个核心页面，按功能分类：产品定义、权威建设、FAQ/结构化答案、竞争定位。
第 4-7 天：编写并部署 /llms.txt。描述保持简洁准确。通过 HTTPS 测试可访问性，确认内容类型正确。
第 8-14 天：如条件允许，为核心页面创建纯净 Markdown 版本并编译 /llms-full.txt。这一步对技术文档站点、知识库和内容密集型平台的 ROI 最高。
第 15-21 天：审视与 robots.txt 的一致性。确保没有矛盾。如有需要，更新站点地图。将 llms.txt 监控纳入你的分析仪表盘。
第 22-30 天：监控 AI 爬虫活动。追踪对 llms.txt 的请求。对比部署前后的 AI 引用率。根据 AI 系统实际收录的情况，迭代优化页面列表。

星触达如何操作化 llms.txt

星触达平台内置 llms.txt 生成与验证模块，可自动化完整工作流：从内容审计和页面优先级排序，到文件生成、部署验证和持续监控。系统会扫描你现有的网站结构，基于 AI 引用潜力识别高价值页面，生成优化后的 llms.txt 清单——同时可选编译 llms-full.txt 纯净 Markdown 版本合集。

对于管理多语言内容的品牌，平台能正确映射语言变体，确保每个语言版本的 llms.txt 指向相应的本地化内容。这对全球品牌尤为重要——AI 系统可能跨多种语言收录内容，需要清晰的信号来判断哪个版本是哪个市场的权威版本。

除生成能力外，星触达的监控流程还能追踪 AI 爬虫何时访问你的 llms.txt、读取后优先处理哪些页面，以及引用率随时间的变化。这使得 llms.txt 从静态配置文件转变为动态可见性杠杆——将内容投资与 AI 引用率和品牌在各 AI 平台上的可见度改善直接挂钩。想了解 llms.txt 如何融入更广泛的 GEO 战略，请参阅我们的结构化数据与 AI 抓取优化指南。