URL 转 Markdown 喂给 LLM：GPT-5.5 与 Claude 上下文指南

URL to Anyon 2 months ago

你把一篇 12,000 词的文章粘贴进 ChatGPT，结果 GPT-5.5 还没开始读，一半内容就被截断了。或者 RAG 管道检索回来的片段，60% 都是导航菜单和 Cookie 弹窗。这两种情况，你都在让上下文烧垃圾。

这篇教程教你把任意 URL 转成干净的 Markdown，再喂给 GPT-5.5、Claude 或 RAG 索引——配 3 个实战工作流 + 2026 年真正扛得住规模的工具选择。

为什么要把 URL 转成 Markdown 喂给 LLM

把网页转成 Markdown 再交给 LLM，能减少 60-75% 的 token 成本、提升 RAG 检索质量，还能让 Claude Code 这类 agent 顺畅地引用外部文档而不被 HTML 噪音淹没。三个具体原因：

Token 效率：一个典型的文档页面 HTML 体积 15-40 KB，但真正的内容只有 2-5 KB。Markdown 能把 token 数压到原始 HTML 的四分之一左右，和纯文本相当，但保留了结构信号。GPT-5.5 的上下文窗口已经到 ~1M token，但输入按 token 计价，噪音还是真金白银。
RAG 入库质量：向量数据库按字符或 token 切块。HTML 切块经常切在 <div> 中间，embedding 代表的是标记而不是概念。Markdown 按标题边界切得干净，每个 embedding 代表一个独立概念。RAG-Anything（GitHub 18.2K stars）和 zilliztech/claude-context（2026-04-24 单日 +1,011 stars）都把输入预处理成 Markdown，就是这个原因。
Claude Code 和 Cursor 的 agent 上下文：把 URL 作为 Markdown 喂给 Claude，agent 能看到标题层级、代码围栏和表格——模型需要这些线索来回答"这个函数在哪里被调用"，不用靠猜。这也是 Claude context markdown 这个说法在 MCP 服务器文档里反复出现的原因。

趋势很明显。GPT-5.5 于 2026-04-24 发布，当天 HN 冲到 1,046 分。GitHub Trending Top 10 里有两个是 LLM 上下文供给工具。整个生态正在收敛到一个简单规则：干净 Markdown 进，有用答案出。

工具对比：手动复制 vs Reader API vs Jina Reader vs URL to Any

2026 年 URL 转 Markdown 主要有五种方案，各有擅长。真实的权衡矩阵：

工具	擅长场景	不适合	免费额度	API
手动复制粘贴	单页应急、离线工作	任何含代码、表格或嵌套列表的页面——静悄悄被丢掉	免费	无
Mozilla Readability / Reader Mode	自部署脚本、隐私敏感内容	输出精细度、JS 繁重页面	开源	库形式
Jina Reader (r.jina.ai/)	脚本化管道、agent 工具链、每小时数千 URL	严格反爬网站、付费墙内容	有，有速率限制	有（URL 前缀）
Defuddle	开源自部署、JS 渲染的 SPA	不想自己跑服务器的用户	开源	库形式
URL to Any	界面优先的用户、单次或小批量、多种输出格式	高强度编程式使用（有速率限制）	浏览器内无限次	有

我们的真实看法：日常把结果粘贴到 ChatGPT 或 Claude 的场景，URL to Any 最快，因为界面预览能让你在浪费上下文之前就发现转换错误——在 URL to Any 粘贴 URL，选 Markdown，大约 2 秒出结果。MCP 服务器或 RAG 入库循环要抓数千页，Jina Reader 的 https://r.jina.ai/<url> 前缀很难被打败，因为不需要 SDK。对数据主权有要求就选 Defuddle。想在自己的 Node 服务里内嵌转换逻辑，Readability 很合适。手动复制粘贴只能当兜底——它会静悄悄毁掉代码块、表格和嵌套列表。

必须承认的局限：五种工具都搞不定登录墙后的页面、未预渲染的单页应用，以及无限滚动的社交流。

三步把网页喂给 GPT-5.5 或 Claude

把任意 URL 转成 Markdown 喂给 GPT-5.5 或 Claude，大约 30 秒，三个步骤。下面是 2026 年最快的做法。

第 1 步：把 URL 粘贴到转换工具

打开一个 URL 转 Markdown 工具。界面优先的场景，把公开 URL 粘贴到 URL to Any，点 Convert to Markdown——2-3 秒完成转换，自动去掉广告、导航和 Cookie 弹窗。脚本化场景，终端直接 curl https://r.jina.ai/<your-url> 把结果接到下一步。

小提示：页面很长（研究论文、工程博客）的话，顺手跑一下 URL to Any 的 AI Summarizer，能得到一份 200 词简报，和完整 Markdown 一起粘贴进去。

第 2 步：检查 Markdown 输出

粘贴进 LLM 前，快速检查四个点：

代码块是否保留语言标签（如 ```python、 ```ts）
表格是否渲染为带分隔符的行
标题层级到 H3 或 H4 即可（更深层级很少有用）
行内链接是否保持 [文字](url) 格式——GPT-5.5 和 Claude 都会读这些

任何一项缺失，源页面可能需要换一个转换器（见上方对比表）。代码块没了的 Markdown 会静悄悄毁掉 agent 的回答质量。

body_image_1

第 3 步：粘贴进 ChatGPT、Claude 或 MCP 客户端

粘贴前加一个简短头部，让 LLM 把正文当参考资料而不是问题：

Source: https://docs.example.com/guide
Format: Markdown
Use the following as reference when answering.

[在这里粘贴 Markdown]

三个场景的区别：

ChatGPT / GPT-5.5：有 1M token 上下文，通常可以整页粘贴。但单次还是控制在 ~40K token 内，避免中间部分注意力衰减。
Claude：Claude Opus 4.7 处理长 Markdown 没问题。多页引用时用 --- 分隔符拼接，每段加一行标题，把 URL 作为 Markdown 喂给 Claude 就很干净。
MCP / Claude Code：MCP 工具按需抓取+转换，把 Markdown 字符串作为 tool response 返回，agent 自己切块。

三个实战场景

场景 1——网页转 Markdown 喂给 ChatGPT：阅读长文

想让 GPT-5.5 总结一篇 4,000 词的研究文章。原始 HTML 行不通——广告和相关推荐侧栏污染上下文。工作流：

把 URL 粘贴到 URL to Any，选 Markdown，复制输出。
ChatGPT 里输入：Source: [URL]\n用 5 个要点总结论点，标出任何缺乏依据的说法，并列出 3 个后续问题。 在提示词下方粘贴 Markdown。
GPT-5.5 给出有依据的总结，而不是从碎片里编造。

实测结果：一篇 4,000 词的文章从 ~22 KB HTML（≈6,000 token）压到 ≈2,000 token 的 Markdown。相同信息，预算只剩三分之一。web to markdown for ChatGPT 这个模式，在 Claude、Gemini、Perplexity 上完全通用。

场景 2——通过 claude-context 和 RAG-Anything 把 URL 喂给 Claude

zilliztech/claude-context 和 HKUDS/RAG-Anything 都把 Markdown 作为一等公民输入格式。最小可用入库管道：

# 通过公开转换器把 URL 转成 Markdown
curl -s "https://urltoany.com/api/function/to-markdown?url=https://docs.example.com/api" \
  > /tmp/api-docs.md

# 通过 MCP CLI 喂给 claude-context
claude-context index \
  --file /tmp/api-docs.md \
  --collection api-docs

# 或喂给 RAG-Anything
ragany ingest --source /tmp/api-docs.md --tag api-docs

因为 Markdown 保留了 H2 边界，两个工具默认就会按语义断点切块——不用自定义 splitter。和直接入 HTML 相比，RAG 检索质量明显提升（HTML 检索回来经常是一堆导航链接）。

body_image_2

场景 3——从 URL 列表批量构建 RAG 语料库

手上有 500 个博客 URL，想搭一个 RAG-ready 语料库。循环脚本：

#!/bin/bash
mkdir -p corpus
while IFS= read -r url; do
  slug=$(echo "$url" | md5sum | cut -c1-10)
  curl -s "https://r.jina.ai/${url}" > "corpus/${slug}.md"
  sleep 1  # 温柔一点
done < urls.txt

批量规模下的关键动作：

激进缓存：大多数文档页面一周变动不超过一次。7 天内抓过就跳过。
元数据分离：用 URL to Any 的 Meta Tags Extractor 把 title、description、og:*、canonical 抽成 sidecar JSON，向量数据库可以直接拿来做过滤。
去重：同一篇博客经常用不同 query string 重发。对 Markdown 正文（而不是 URL）做哈希去重。

500 个 URL，大约产出 15 MB Markdown 语料——主流 embedding 模型都能轻松 embed，索引到 pgvector、Qdrant、本地 Faiss 都行。

提升效果的实用技巧

每次粘贴都加来源标签。提示词开头写一行 Source: [URL]\nFormat: Markdown，准确率明显提升，因为模型知道要把正文当参考而不是问题。
8K token 以上按 H2 切块。LLM 对每个块的开头和结尾注意力最高，中间反而最弱。标题边界天然是切块点。
保留标题层级。不要把 H2 压扁成加粗文字——标题级别是 LLM 理解文档最强的结构信号。
转换后删掉目录。自动生成的目录重复了标题信息，一页能省 100-500 token，零信息损失。
缓存 Markdown，不是 HTML。管道反复抓同一个 URL 时，把 Markdown 输出至少缓存 24 小时。重复转换是纯粹浪费。

常见问题

能转登录墙后的页面吗？

公开转换器都不行。登录墙需要带身份 cookie，URL to Any、Jina Reader 这类服务拿不到。对 SSO 或付费订阅后的页面，可以用 Defuddle 这种自部署工具，在自己已登录的浏览器会话里跑；或者用把渲染好的 DOM 本地转成 Markdown 的浏览器扩展。

JavaScript 渲染的单页应用怎么办？

看转换器。Jina Reader 和 URL to Any 转换前用 headless Chrome 渲染 JS，大多数 SPA 都能处理干净。Mozilla Readability 和一些轻量转换器只解析静态 HTML，SPA 拿回来就是个空壳。返回"只有一个 loading 页"时，换 JS-aware 的转换器。

代码块能保留吗？

好的转换器会保留代码围栏和语言标签（如 ```python）。URL to Any 和 Jina Reader 都处理得很稳。最糟糕的是手动复制粘贴——会把代码块压扁成段落并丢掉缩进。如果代码保真度重要，先用一个已知页面验证再用于正式流程。

图片怎么处理？

大多数转换器保留 Markdown 图片链接（![alt](src)）。GPT-5.5 能读 alt 文字；Claude Opus 4.7 一样，多模态会话开启视觉能力后还能直接抓图。纯文本管道建议把图片剥掉省 token——单行 ![alt](src) 可能是 50-150 token 的元数据，模型很少真正用到。

GPT-5.5 有 1M 上下文，还需要转 Markdown 吗？

需要。更大的上下文减轻了浪费 token 的痛，但没有消灭它。三个原因：(1) 输入按 token 计价，噪音照样烧钱；(2) 1M 上下文里注意力不是均匀的，被埋在导航标记里的内容权重更低；(3) RAG 管道在 embedding 前就切块了，切得干净，检索才准。

能直接把 Markdown 喂进 Claude MCP 服务器吗？

可以。大多数 MCP 服务器——claude-context、mcp-server-fetch、自建 RAG——都原生支持 Markdown。在 MCP tool handler 里调用一个 URL-to-Markdown API，返回 Markdown 字符串，agent 自己切块。这是 2026 年 feed URL to Claude 工作流的标准姿势。

结语

把 URL 转成 Markdown，是 2026 年任何 LLM 工作流里性价比最高的一步优化。token 成本立减 60-75%，RAG 检索变准，Claude Code、Cursor 和 ChatGPT 都能直接用外部文档，不用做额外工程。

三个工作流、一个转换器、零搭建成本——临时粘贴从界面开始，脚本化管道和 MCP 服务器升级成 API。

最后更新：2026-04-24

想把网页转成 Markdown 喂给 GPT-5.5、Claude 或 RAG 语料库？免费试用 URL to Any →——10+ 转换工具（Markdown、PDF、Text、JSON、MP3），免注册即用。