URL 转 Markdown 喂给 LLM:GPT-5.5 与 Claude 上下文指南

URL 转 Markdown 喂给 LLM:GPT-5.5 与 Claude 上下文指南

URL to Anyon 4 days ago

你把一篇 12,000 词的文章粘贴进 ChatGPT,结果 GPT-5.5 还没开始读,一半内容就被截断了。或者 RAG 管道检索回来的片段,60% 都是导航菜单和 Cookie 弹窗。这两种情况,你都在让上下文烧垃圾。

这篇教程教你把任意 URL 转成干净的 Markdown,再喂给 GPT-5.5、Claude 或 RAG 索引——配 3 个实战工作流 + 2026 年真正扛得住规模的工具选择。

Banner

目录

为什么要把 URL 转成 Markdown 喂给 LLM

把网页转成 Markdown 再交给 LLM,能减少 60-75% 的 token 成本、提升 RAG 检索质量,还能让 Claude Code 这类 agent 顺畅地引用外部文档而不被 HTML 噪音淹没。三个具体原因:

  • Token 效率:一个典型的文档页面 HTML 体积 15-40 KB,但真正的内容只有 2-5 KB。Markdown 能把 token 数压到原始 HTML 的四分之一左右,和纯文本相当,但保留了结构信号。GPT-5.5 的上下文窗口已经到 ~1M token,但输入按 token 计价,噪音还是真金白银。
  • RAG 入库质量:向量数据库按字符或 token 切块。HTML 切块经常切在 <div> 中间,embedding 代表的是标记而不是概念。Markdown 按标题边界切得干净,每个 embedding 代表一个独立概念。RAG-Anything(GitHub 18.2K stars)和 zilliztech/claude-context(2026-04-24 单日 +1,011 stars)都把输入预处理成 Markdown,就是这个原因。
  • Claude Code 和 Cursor 的 agent 上下文:把 URL 作为 Markdown 喂给 Claude,agent 能看到标题层级、代码围栏和表格——模型需要这些线索来回答"这个函数在哪里被调用",不用靠猜。这也是 Claude context markdown 这个说法在 MCP 服务器文档里反复出现的原因。

趋势很明显。GPT-5.5 于 2026-04-24 发布,当天 HN 冲到 1,046 分。GitHub Trending Top 10 里有两个是 LLM 上下文供给工具。整个生态正在收敛到一个简单规则:干净 Markdown 进,有用答案出。

工具对比:手动复制 vs Reader API vs Jina Reader vs URL to Any

2026 年 URL 转 Markdown 主要有五种方案,各有擅长。真实的权衡矩阵:

工具擅长场景不适合免费额度API
手动复制粘贴单页应急、离线工作任何含代码、表格或嵌套列表的页面——静悄悄被丢掉免费
Mozilla Readability / Reader Mode自部署脚本、隐私敏感内容输出精细度、JS 繁重页面开源库形式
Jina Reader (r.jina.ai/)脚本化管道、agent 工具链、每小时数千 URL严格反爬网站、付费墙内容有,有速率限制有(URL 前缀)
Defuddle开源自部署、JS 渲染的 SPA不想自己跑服务器的用户开源库形式
URL to Any界面优先的用户、单次或小批量、多种输出格式高强度编程式使用(有速率限制)浏览器内无限次

我们的真实看法:日常把结果粘贴到 ChatGPT 或 Claude 的场景,URL to Any 最快,因为界面预览能让你在浪费上下文之前就发现转换错误——在 URL to Any 粘贴 URL,选 Markdown,大约 2 秒出结果。MCP 服务器或 RAG 入库循环要抓数千页,Jina Reader 的 https://r.jina.ai/<url> 前缀很难被打败,因为不需要 SDK。对数据主权有要求就选 Defuddle。想在自己的 Node 服务里内嵌转换逻辑,Readability 很合适。手动复制粘贴只能当兜底——它会静悄悄毁掉代码块、表格和嵌套列表。

必须承认的局限:五种工具都搞不定登录墙后的页面、未预渲染的单页应用,以及无限滚动的社交流。

三步把网页喂给 GPT-5.5 或 Claude

把任意 URL 转成 Markdown 喂给 GPT-5.5 或 Claude,大约 30 秒,三个步骤。下面是 2026 年最快的做法。

第 1 步:把 URL 粘贴到转换工具

打开一个 URL 转 Markdown 工具。界面优先的场景,把公开 URL 粘贴到 URL to Any,点 Convert to Markdown——2-3 秒完成转换,自动去掉广告、导航和 Cookie 弹窗。脚本化场景,终端直接 curl https://r.jina.ai/<your-url> 把结果接到下一步。

小提示:页面很长(研究论文、工程博客)的话,顺手跑一下 URL to Any 的 AI Summarizer,能得到一份 200 词简报,和完整 Markdown 一起粘贴进去。

第 2 步:检查 Markdown 输出

粘贴进 LLM 前,快速检查四个点:

  • 代码块是否保留语言标签(如 ```python```ts
  • 表格是否渲染为带分隔符的行
  • 标题层级到 H3 或 H4 即可(更深层级很少有用)
  • 行内链接是否保持 [文字](url) 格式——GPT-5.5 和 Claude 都会读这些

任何一项缺失,源页面可能需要换一个转换器(见上方对比表)。代码块没了的 Markdown 会静悄悄毁掉 agent 的回答质量。

body_image_1

第 3 步:粘贴进 ChatGPT、Claude 或 MCP 客户端

粘贴前加一个简短头部,让 LLM 把正文当参考资料而不是问题:

Source: https://docs.example.com/guide
Format: Markdown
Use the following as reference when answering.

[在这里粘贴 Markdown]

三个场景的区别:

  • ChatGPT / GPT-5.5:有 1M token 上下文,通常可以整页粘贴。但单次还是控制在 ~40K token 内,避免中间部分注意力衰减。
  • Claude:Claude Opus 4.7 处理长 Markdown 没问题。多页引用时用 --- 分隔符拼接,每段加一行标题,把 URL 作为 Markdown 喂给 Claude 就很干净。
  • MCP / Claude Code:MCP 工具按需抓取+转换,把 Markdown 字符串作为 tool response 返回,agent 自己切块。

三个实战场景

场景 1——网页转 Markdown 喂给 ChatGPT:阅读长文

想让 GPT-5.5 总结一篇 4,000 词的研究文章。原始 HTML 行不通——广告和相关推荐侧栏污染上下文。工作流:

  1. 把 URL 粘贴到 URL to Any,选 Markdown,复制输出。
  2. ChatGPT 里输入:Source: [URL]\n用 5 个要点总结论点,标出任何缺乏依据的说法,并列出 3 个后续问题。 在提示词下方粘贴 Markdown。
  3. GPT-5.5 给出有依据的总结,而不是从碎片里编造。

实测结果:一篇 4,000 词的文章从 ~22 KB HTML(≈6,000 token)压到 ≈2,000 token 的 Markdown。相同信息,预算只剩三分之一。web to markdown for ChatGPT 这个模式,在 Claude、Gemini、Perplexity 上完全通用。

场景 2——通过 claude-context 和 RAG-Anything 把 URL 喂给 Claude

zilliztech/claude-context 和 HKUDS/RAG-Anything 都把 Markdown 作为一等公民输入格式。最小可用入库管道:

# 通过公开转换器把 URL 转成 Markdown
curl -s "https://urltoany.com/api/function/to-markdown?url=https://docs.example.com/api" \
  > /tmp/api-docs.md

# 通过 MCP CLI 喂给 claude-context
claude-context index \
  --file /tmp/api-docs.md \
  --collection api-docs

# 或喂给 RAG-Anything
ragany ingest --source /tmp/api-docs.md --tag api-docs

因为 Markdown 保留了 H2 边界,两个工具默认就会按语义断点切块——不用自定义 splitter。和直接入 HTML 相比,RAG 检索质量明显提升(HTML 检索回来经常是一堆导航链接)。

body_image_2

场景 3——从 URL 列表批量构建 RAG 语料库

手上有 500 个博客 URL,想搭一个 RAG-ready 语料库。循环脚本:

#!/bin/bash
mkdir -p corpus
while IFS= read -r url; do
  slug=$(echo "$url" | md5sum | cut -c1-10)
  curl -s "https://r.jina.ai/${url}" > "corpus/${slug}.md"
  sleep 1  # 温柔一点
done < urls.txt

批量规模下的关键动作:

  • 激进缓存:大多数文档页面一周变动不超过一次。7 天内抓过就跳过。
  • 元数据分离:用 URL to Any 的 Meta Tags Extractor 把 title、description、og:*、canonical 抽成 sidecar JSON,向量数据库可以直接拿来做过滤。
  • 去重:同一篇博客经常用不同 query string 重发。对 Markdown 正文(而不是 URL)做哈希去重。

500 个 URL,大约产出 15 MB Markdown 语料——主流 embedding 模型都能轻松 embed,索引到 pgvector、Qdrant、本地 Faiss 都行。

提升效果的实用技巧

  • 每次粘贴都加来源标签。提示词开头写一行 Source: [URL]\nFormat: Markdown,准确率明显提升,因为模型知道要把正文当参考而不是问题。
  • 8K token 以上按 H2 切块。LLM 对每个块的开头和结尾注意力最高,中间反而最弱。标题边界天然是切块点。
  • 保留标题层级。不要把 H2 压扁成加粗文字——标题级别是 LLM 理解文档最强的结构信号。
  • 转换后删掉目录。自动生成的目录重复了标题信息,一页能省 100-500 token,零信息损失。
  • 缓存 Markdown,不是 HTML。管道反复抓同一个 URL 时,把 Markdown 输出至少缓存 24 小时。重复转换是纯粹浪费。

常见问题

能转登录墙后的页面吗?

公开转换器都不行。登录墙需要带身份 cookie,URL to Any、Jina Reader 这类服务拿不到。对 SSO 或付费订阅后的页面,可以用 Defuddle 这种自部署工具,在自己已登录的浏览器会话里跑;或者用把渲染好的 DOM 本地转成 Markdown 的浏览器扩展。

JavaScript 渲染的单页应用怎么办?

看转换器。Jina Reader 和 URL to Any 转换前用 headless Chrome 渲染 JS,大多数 SPA 都能处理干净。Mozilla Readability 和一些轻量转换器只解析静态 HTML,SPA 拿回来就是个空壳。返回"只有一个 loading 页"时,换 JS-aware 的转换器。

代码块能保留吗?

好的转换器会保留代码围栏和语言标签(如 ```python)。URL to Any 和 Jina Reader 都处理得很稳。最糟糕的是手动复制粘贴——会把代码块压扁成段落并丢掉缩进。如果代码保真度重要,先用一个已知页面验证再用于正式流程。

图片怎么处理?

大多数转换器保留 Markdown 图片链接(![alt](src))。GPT-5.5 能读 alt 文字;Claude Opus 4.7 一样,多模态会话开启视觉能力后还能直接抓图。纯文本管道建议把图片剥掉省 token——单行 ![alt](src) 可能是 50-150 token 的元数据,模型很少真正用到。

GPT-5.5 有 1M 上下文,还需要转 Markdown 吗?

需要。更大的上下文减轻了浪费 token 的痛,但没有消灭它。三个原因:(1) 输入按 token 计价,噪音照样烧钱;(2) 1M 上下文里注意力不是均匀的,被埋在导航标记里的内容权重更低;(3) RAG 管道在 embedding 前就切块了,切得干净,检索才准。

能直接把 Markdown 喂进 Claude MCP 服务器吗?

可以。大多数 MCP 服务器——claude-contextmcp-server-fetch、自建 RAG——都原生支持 Markdown。在 MCP tool handler 里调用一个 URL-to-Markdown API,返回 Markdown 字符串,agent 自己切块。这是 2026 年 feed URL to Claude 工作流的标准姿势。

结语

把 URL 转成 Markdown,是 2026 年任何 LLM 工作流里性价比最高的一步优化。token 成本立减 60-75%,RAG 检索变准,Claude Code、Cursor 和 ChatGPT 都能直接用外部文档,不用做额外工程。

三个工作流、一个转换器、零搭建成本——临时粘贴从界面开始,脚本化管道和 MCP 服务器升级成 API。

最后更新:2026-04-24


想把网页转成 Markdown 喂给 GPT-5.5、Claude 或 RAG 语料库?免费试用 URL to Any →——10+ 转换工具(Markdown、PDF、Text、JSON、MP3),免注册即用。