
- 博客
- URL 转 Markdown:完整转换指南
URL 转 Markdown:完整转换指南
你正在多个标签页里找资料,看到好文章想保存下来——但复制粘贴出来全是乱七八糟的 HTML 标签和广告代码。URL 转 Markdown 就是解决这个问题的最佳方案。
微软的 markitdown 项目刚冲上 GitHub Trending 第一名(99.7K+ stars,单日新增 2,352),Markdown 正在成为 AI 时代的通用文档格式。无论是给大模型喂数据、搭建知识库还是整理调研资料,把网页转成 Markdown 都是最实用的第一步。
这篇指南覆盖 5 种 URL 转 Markdown 的方法——从零门槛的在线工具到开发者级的命令行方案。
最后更新:2025 年 4 月

目录
为什么要把 URL 转成 Markdown?
URL 转 Markdown 的本质是:从网页中提取正文内容,去掉广告、导航栏和脚本代码,输出干净的结构化文本。以下是三个最常见的使用场景。
AI 和大模型工作流
Markdown 是大语言模型最友好的输入格式。把网页转成 Markdown 再喂给 ChatGPT、Claude 或自建 RAG 系统,模型拿到的是结构清晰的文本而不是 HTML 标签。实测表明,用 Markdown 输入比用原始 HTML,模型对内容层级的理解明显提升,幻觉也更少。
根据微软 markitdown 项目的说明,这个项目专门为将文档转换成"LLM 友好"的 Markdown 格式而设计。99.7K+ 的 star 数(单日增长 2,352)足以说明市场对这类工具的需求有多强。
知识管理和笔记
Obsidian、Notion、Logseq 等工具原生支持 Markdown。把网页文章转成 Markdown 后可以直接导入知识库,标题、链接、格式全部保留。实测一篇 3000 字的文章大约 2 秒就能转换完成,导入后立即可搜索。
开发者文档工作
使用 Hugo、Jekyll、Astro 等静态网站生成器的开发者需要 Markdown 格式的内容。把现有网页转成 Markdown 能省下大量手动排版的时间,也适合在 CMS 平台之间迁移内容。
5 种 URL 转 Markdown 方法详解
方法一:在线转换工具(最快上手)
在线工具是最快的 URL 转 Markdown 方式——不用安装、不用配置、任何浏览器都能用。
- 打开 URL to Any 等在线转换工具
- 粘贴目标网页 URL
- 选择"Markdown"作为输出格式
- 点击转换——结果大约 2 秒内出现
- 复制 Markdown 内容或下载
.md文件
在 URL to Any 粘贴链接、选择 Markdown,2 秒就能拿到结果,标题、链接、格式全部保留,支持直接复制或下载。
适合: 快速的一次性转换,不需要任何技术基础。
方法二:markitdown(Python 命令行工具)
微软的 markitdown 是目前最火的开源 URL 转 Markdown 工具,GitHub 上 99.7K+ stars。支持网页、PDF、Word 文档、Excel 文件等多种格式。
- 安装 markitdown:
pip install markitdown - 命令行转换:
markitdown https://example.com/article > output.md - Python 代码调用:
from markitdown import MarkItDown md = MarkItDown() result = md.convert_url("https://example.com/article") print(result.text_content)
适合: 需要批量转换或集成到 Python 工作流的开发者。
方法三:Pandoc(万能文档转换器)
Pandoc 被称为文档转换的瑞士军刀,支持 40+ 种格式互转,包括 HTML 转 Markdown。
- 安装 Pandoc:
# macOS brew install pandoc # Ubuntu/Debian sudo apt-get install pandoc - 抓取网页并转换:
curl -s https://example.com/article | pandoc -f html -t markdown -o output.md - 用 GFM(GitHub 风格 Markdown)获得更干净的输出:
curl -s https://example.com/article | pandoc -f html -t gfm -o output.md
适合: 需要精确控制 Markdown 风格(CommonMark、GFM 等)的用户,或已经在使用 Pandoc 的人。
方法四:浏览器扩展(边浏览边保存)
浏览器扩展可以一键把当前网页转成 Markdown——不用复制 URL、不用切换工具。
常用选择:
- MarkDownload — Chrome/Firefox 扩展,一键保存网页为
.md文件 - Copy as Markdown — 将选中文本以 Markdown 格式复制到剪贴板
- Obsidian Web Clipper — 转换后直接保存到 Obsidian 笔记库
使用步骤(以 MarkDownload 为例):
- 从 Chrome 应用商店或 Firefox 插件市场安装 MarkDownload
- 打开要转换的网页
- 点击工具栏中的 MarkDownload 图标
- 网页自动转换为 Markdown——下载或复制即可
适合: 经常需要在浏览过程中保存网页内容的用户。
方法五:自定义方案(JavaScript 开发者)
开发者可以组合 Mozilla 的 Readability(内容提取)和 Turndown(HTML 转 Markdown)构建自定义工具:
import { Readability } from '@mozilla/readability';
import TurndownService from 'turndown';
import { JSDOM } from 'jsdom';
async function urlToMarkdown(url) {
const response = await fetch(url);
const html = await response.text();
const dom = new JSDOM(html, { url });
// 提取正文内容(去掉导航栏、广告、侧边栏)
const article = new Readability(dom.window.document).parse();
// 将干净的 HTML 转为 Markdown
const turndown = new TurndownService();
return turndown.turndown(article.content);
}
适合: 构建自定义转换流水线或将 URL 转 Markdown 功能集成到应用中的开发者。

工具对比
| 工具 | 类型 | 配置时间 | 批量支持 | Markdown 风格 | 适合场景 |
|---|---|---|---|---|---|
| URL to Any | 在线工具 | 无需配置 | 否 | 标准 | 快速单次转换 |
| markitdown | Python CLI | 1 分钟 | 是 | 标准 | 开发者和 AI 工作流 |
| Pandoc | 命令行 | 2-3 分钟 | 是 | GFM、CommonMark 等 5+ | 多格式转换 |
| MarkDownload | 浏览器扩展 | 30 秒 | 否 | GFM | 浏览时保存网页 |
| Readability + Turndown | JS 库 | 5-10 分钟 | 是 | 可配置 | 自定义应用 |
转换效果优化技巧
-
检查输出中的格式问题。 自动转换并不完美——多栏布局、嵌入式组件或重度 JavaScript 渲染的页面可能产生混乱的 Markdown。快速浏览一遍能发现 90% 的问题。
-
优先选择基于 Readability 的工具。 使用 Mozilla Readability 算法的工具会先剥离导航栏、广告和侧边栏,再进行转换。这比直接转换整个页面 HTML 干净得多。markitdown 和 URL to Any 都使用了内容提取技术。
-
选对 Markdown 风格。 GitHub Flavored Markdown(GFM)支持表格、任务列表和删除线——标准 Markdown 不支持。如果你的目标平台支持 GFM,优先使用。
-
注意图片处理。 大多数转换器会保留图片链接
但不下载图片。如果需要本地保存图片,得单独下载并更新 Markdown 中的引用路径。做内容归档时这一步尤其关键。 -
批量转换写脚本。 如果有 50+ 个 URL 要转换,写个简单的循环配合 markitdown 或 Pandoc。实测 markitdown 的处理速度约为每秒 3-5 个页面,取决于页面大小和网络速度。

常见问题
有哪些免费的 URL 转 Markdown 工具?
免费方案包括:在线工具如 URL to Any、开源命令行工具 markitdown(pip install markitdown)、浏览器扩展 MarkDownload。这些工具全部免费使用,无需注册。
哪个 URL 转 Markdown 工具最好?
取决于你的使用场景。快速单次转换推荐 URL to Any 等在线工具——粘贴链接 2 秒出结果。开发者批量处理推荐 markitdown(GitHub 99.7K+ stars)。日常浏览保存推荐 MarkDownload 浏览器扩展。
命令行怎么把 URL 转成 Markdown?
安装 markitdown:pip install markitdown,然后运行 markitdown https://example.com > output.md。也可以用 Pandoc:curl -s https://example.com | pandoc -f html -t gfm -o output.md。两个工具都能可靠处理大多数网页。
URL 转 Markdown 会保留图片和链接吗?
大多数转换工具会保留链接和图片的 Markdown 语法(),但通常是链接到原始图片 URL,不会下载图片。如果源页面下线,图片链接会失效。要永久保存的话,需要单独下载图片并更新引用。
为什么 Markdown 是 AI 和大模型的首选格式?
Markdown 提供干净的结构化文本,没有 HTML 标签、CSS 或 JavaScript 的干扰。大模型处理 Markdown 比处理原始 HTML 效率更高——清晰的标题层级、列表和格式帮助模型理解内容结构。微软的 markitdown 项目(99.7K+ stars)就是专门为将文档转换为"LLM 友好"的 Markdown 而设计的。
总结
URL 转 Markdown 是处理网页内容的基础技能——无论你是搭建 AI 数据管道、在 Obsidian 中管理知识库还是整理研究资料。本文覆盖的 5 种方法从零门槛的在线工具到完全可定制的开发者方案,总有一种适合你。
快速转换从在线工具开始,日常工作流配置 markitdown 或 Pandoc,自定义应用用 Readability + Turndown 组合。
需要把网页转换成 Markdown、PDF 或其他格式?免费试用 URL to Any →——10+ 种转换工具,无需注册。