llms.txt 是一种新兴的网络标准,目的是让网站为大语言模型(如 ChatGPT、Claude 等)提供专门的、结构化的入口和内容指引。它的核心思想是:在网站根目录下放置一个名为 /llms.txt 的 Markdown 文件,里面用简明的方式列出网站最重要、最适合 LLM 理解的内容和链接,并附上简要说明。这样,AI 在“推理”或回答用户问题时,可以优先查阅这些内容,而不是盲目抓取整个网站的复杂页面,从而提升效率和准确性。
主要特点
- 位置和格式:llms.txt 文件通常放在网站根目录,采用 Markdown 格式,便于人类和 AI 阅读。
- 内容结构:包括项目名称、简要介绍、详细说明、重要文件或页面的链接列表(可分为主内容和可选内容)。
- 作用:为 LLM 提供“导航地图”,指明哪些页面最值得优先抓取和理解,避免被广告、导航栏等无关内容干扰。
- 与 robots.txt 区别:robots.txt 是告诉爬虫哪些页面能不能抓,llms.txt 是告诉 AI 哪些页面最有用、最值得看。
llms.txt 目前还在推广初期,但已经有不少开源项目和工具支持,比如 fast.ai、LangChain、Cursor 等。它被认为是未来 AI 友好型网站的重要基础设施之一。
主要特点
- 位置和格式:llms.txt 文件通常放在网站根目录,采用 Markdown 格式,便于人类和 AI 阅读。
- 内容结构:包括项目名称、简要介绍、详细说明、重要文件或页面的链接列表(可分为主内容和可选内容)。
- 作用:为 LLM 提供“导航地图”,指明哪些页面最值得优先抓取和理解,避免被广告、导航栏等无关内容干扰。
- 与 robots.txt 区别:robots.txt 是告诉爬虫哪些页面能不能抓,llms.txt 是告诉 AI 哪些页面最有用、最值得看。
llms.txt 目前还在推广初期,但已经有不少开源项目和工具支持,比如 fast.ai、LangChain、Cursor 等。它被认为是未来 AI 友好型网站的重要基础设施之一。