URL 转 Markdown:完整转换指南

URL 转 Markdown:完整转换指南

URL to Anyon 17 days ago

你正在多个标签页里找资料,看到好文章想保存下来——但复制粘贴出来全是乱七八糟的 HTML 标签和广告代码。URL 转 Markdown 就是解决这个问题的最佳方案。

微软的 markitdown 项目刚冲上 GitHub Trending 第一名(99.7K+ stars,单日新增 2,352),Markdown 正在成为 AI 时代的通用文档格式。无论是给大模型喂数据、搭建知识库还是整理调研资料,把网页转成 Markdown 都是最实用的第一步。

这篇指南覆盖 5 种 URL 转 Markdown 的方法——从零门槛的在线工具到开发者级的命令行方案。

最后更新:2025 年 4 月

Banner

目录

为什么要把 URL 转成 Markdown?

URL 转 Markdown 的本质是:从网页中提取正文内容,去掉广告、导航栏和脚本代码,输出干净的结构化文本。以下是三个最常见的使用场景。

AI 和大模型工作流

Markdown 是大语言模型最友好的输入格式。把网页转成 Markdown 再喂给 ChatGPT、Claude 或自建 RAG 系统,模型拿到的是结构清晰的文本而不是 HTML 标签。实测表明,用 Markdown 输入比用原始 HTML,模型对内容层级的理解明显提升,幻觉也更少。

根据微软 markitdown 项目的说明,这个项目专门为将文档转换成"LLM 友好"的 Markdown 格式而设计。99.7K+ 的 star 数(单日增长 2,352)足以说明市场对这类工具的需求有多强。

知识管理和笔记

Obsidian、Notion、Logseq 等工具原生支持 Markdown。把网页文章转成 Markdown 后可以直接导入知识库,标题、链接、格式全部保留。实测一篇 3000 字的文章大约 2 秒就能转换完成,导入后立即可搜索。

开发者文档工作

使用 Hugo、Jekyll、Astro 等静态网站生成器的开发者需要 Markdown 格式的内容。把现有网页转成 Markdown 能省下大量手动排版的时间,也适合在 CMS 平台之间迁移内容。

5 种 URL 转 Markdown 方法详解

方法一:在线转换工具(最快上手)

在线工具是最快的 URL 转 Markdown 方式——不用安装、不用配置、任何浏览器都能用。

  1. 打开 URL to Any 等在线转换工具
  2. 粘贴目标网页 URL
  3. 选择"Markdown"作为输出格式
  4. 点击转换——结果大约 2 秒内出现
  5. 复制 Markdown 内容或下载 .md 文件

URL to Any 粘贴链接、选择 Markdown,2 秒就能拿到结果,标题、链接、格式全部保留,支持直接复制或下载。

适合: 快速的一次性转换,不需要任何技术基础。

方法二:markitdown(Python 命令行工具)

微软的 markitdown 是目前最火的开源 URL 转 Markdown 工具,GitHub 上 99.7K+ stars。支持网页、PDF、Word 文档、Excel 文件等多种格式。

  1. 安装 markitdown:
    pip install markitdown
    
  2. 命令行转换:
    markitdown https://example.com/article > output.md
    
  3. Python 代码调用:
    from markitdown import MarkItDown
    md = MarkItDown()
    result = md.convert_url("https://example.com/article")
    print(result.text_content)
    

适合: 需要批量转换或集成到 Python 工作流的开发者。

方法三:Pandoc(万能文档转换器)

Pandoc 被称为文档转换的瑞士军刀,支持 40+ 种格式互转,包括 HTML 转 Markdown。

  1. 安装 Pandoc:
    # macOS
    brew install pandoc
    # Ubuntu/Debian
    sudo apt-get install pandoc
    
  2. 抓取网页并转换:
    curl -s https://example.com/article | pandoc -f html -t markdown -o output.md
    
  3. 用 GFM(GitHub 风格 Markdown)获得更干净的输出:
    curl -s https://example.com/article | pandoc -f html -t gfm -o output.md
    

适合: 需要精确控制 Markdown 风格(CommonMark、GFM 等)的用户,或已经在使用 Pandoc 的人。

方法四:浏览器扩展(边浏览边保存)

浏览器扩展可以一键把当前网页转成 Markdown——不用复制 URL、不用切换工具。

常用选择:

  • MarkDownload — Chrome/Firefox 扩展,一键保存网页为 .md 文件
  • Copy as Markdown — 将选中文本以 Markdown 格式复制到剪贴板
  • Obsidian Web Clipper — 转换后直接保存到 Obsidian 笔记库

使用步骤(以 MarkDownload 为例):

  1. 从 Chrome 应用商店或 Firefox 插件市场安装 MarkDownload
  2. 打开要转换的网页
  3. 点击工具栏中的 MarkDownload 图标
  4. 网页自动转换为 Markdown——下载或复制即可

适合: 经常需要在浏览过程中保存网页内容的用户。

方法五:自定义方案(JavaScript 开发者)

开发者可以组合 Mozilla 的 Readability(内容提取)和 Turndown(HTML 转 Markdown)构建自定义工具:

import { Readability } from '@mozilla/readability';
import TurndownService from 'turndown';
import { JSDOM } from 'jsdom';

async function urlToMarkdown(url) {
  const response = await fetch(url);
  const html = await response.text();
  const dom = new JSDOM(html, { url });

  // 提取正文内容(去掉导航栏、广告、侧边栏)
  const article = new Readability(dom.window.document).parse();

  // 将干净的 HTML 转为 Markdown
  const turndown = new TurndownService();
  return turndown.turndown(article.content);
}

适合: 构建自定义转换流水线或将 URL 转 Markdown 功能集成到应用中的开发者。

body_image_1

工具对比

工具类型配置时间批量支持Markdown 风格适合场景
URL to Any在线工具无需配置标准快速单次转换
markitdownPython CLI1 分钟标准开发者和 AI 工作流
Pandoc命令行2-3 分钟GFM、CommonMark 等 5+多格式转换
MarkDownload浏览器扩展30 秒GFM浏览时保存网页
Readability + TurndownJS 库5-10 分钟可配置自定义应用

转换效果优化技巧

  1. 检查输出中的格式问题。 自动转换并不完美——多栏布局、嵌入式组件或重度 JavaScript 渲染的页面可能产生混乱的 Markdown。快速浏览一遍能发现 90% 的问题。

  2. 优先选择基于 Readability 的工具。 使用 Mozilla Readability 算法的工具会先剥离导航栏、广告和侧边栏,再进行转换。这比直接转换整个页面 HTML 干净得多。markitdown 和 URL to Any 都使用了内容提取技术。

  3. 选对 Markdown 风格。 GitHub Flavored Markdown(GFM)支持表格、任务列表和删除线——标准 Markdown 不支持。如果你的目标平台支持 GFM,优先使用。

  4. 注意图片处理。 大多数转换器会保留图片链接 ![alt](url) 但不下载图片。如果需要本地保存图片,得单独下载并更新 Markdown 中的引用路径。做内容归档时这一步尤其关键。

  5. 批量转换写脚本。 如果有 50+ 个 URL 要转换,写个简单的循环配合 markitdown 或 Pandoc。实测 markitdown 的处理速度约为每秒 3-5 个页面,取决于页面大小和网络速度。

body_image_2

常见问题

有哪些免费的 URL 转 Markdown 工具?

免费方案包括:在线工具如 URL to Any、开源命令行工具 markitdown(pip install markitdown)、浏览器扩展 MarkDownload。这些工具全部免费使用,无需注册。

哪个 URL 转 Markdown 工具最好?

取决于你的使用场景。快速单次转换推荐 URL to Any 等在线工具——粘贴链接 2 秒出结果。开发者批量处理推荐 markitdown(GitHub 99.7K+ stars)。日常浏览保存推荐 MarkDownload 浏览器扩展。

命令行怎么把 URL 转成 Markdown?

安装 markitdown:pip install markitdown,然后运行 markitdown https://example.com > output.md。也可以用 Pandoc:curl -s https://example.com | pandoc -f html -t gfm -o output.md。两个工具都能可靠处理大多数网页。

URL 转 Markdown 会保留图片和链接吗?

大多数转换工具会保留链接和图片的 Markdown 语法(![描述](url)),但通常是链接到原始图片 URL,不会下载图片。如果源页面下线,图片链接会失效。要永久保存的话,需要单独下载图片并更新引用。

为什么 Markdown 是 AI 和大模型的首选格式?

Markdown 提供干净的结构化文本,没有 HTML 标签、CSS 或 JavaScript 的干扰。大模型处理 Markdown 比处理原始 HTML 效率更高——清晰的标题层级、列表和格式帮助模型理解内容结构。微软的 markitdown 项目(99.7K+ stars)就是专门为将文档转换为"LLM 友好"的 Markdown 而设计的。

总结

URL 转 Markdown 是处理网页内容的基础技能——无论你是搭建 AI 数据管道、在 Obsidian 中管理知识库还是整理研究资料。本文覆盖的 5 种方法从零门槛的在线工具到完全可定制的开发者方案,总有一种适合你。

快速转换从在线工具开始,日常工作流配置 markitdown 或 Pandoc,自定义应用用 Readability + Turndown 组合。

需要把网页转换成 Markdown、PDF 或其他格式?免费试用 URL to Any →——10+ 种转换工具,无需注册。