
- 博客
- 免费把 YouTube / TikTok / X 视频转成文字的 3 步流程
免费把 YouTube / TikTok / X 视频转成文字的 3 步流程
上周一个叫 yapsnap 的开源 CLI 工具冲到了 Hacker News 第 17 位——一个用 Whisper 在 CPU 上本地转录 YouTube / TikTok / X / Instagram 视频的小项目。评论区几小时就刷满了,大半都是同一句话:"终于有不用把 TikTok 上传到野鸡网站就能拿到文字稿的工具了"。需求很明显。问题在于,你是不是真的愿意为了一段 90 秒的 TikTok 文字稿,去编一个 Python 项目。
这篇文章给出一个 3 步走的 URL 工作流,把 YouTube / TikTok / X 视频链接直接转成干净的文字稿和结构化摘要——不装环境、不要 GPU、不要 API key。然后老老实实和 yapsnap 对比一下,让你知道自己的场景该选哪个。
更新时间:2026 年 5 月 21 日。

目录
- 为什么要先把 YouTube 视频转文字
- 3 步把 YouTube 视频转文字的工作流
- TikTok / X / Instagram 上哪些能用,哪些不行
- URL 工作流 vs yapsnap:一个老实的对比
- 让文字稿更可用的几条经验
- FAQ
- 总结
为什么要先把 YouTube 视频转文字 {#为什么要先把-youtube-视频转文字}
一段视频只有在拿到文字稿之后,才对所有「没在看视频的人」有意义。你可以在文字里全文搜索,可以把它粘进 Claude 或 GPT-5 做分析,可以引用进文章,可以翻译,也可以扔进 Obsidian 当常驻笔记。3Play Media 2024 年的调研显示,73% 的在线视频用户至少偶尔依赖字幕或文字稿,其中 80% 并非听障人群——他们只是觉得「读」比「听」更快。
常见的搜「transcribe YouTube video to text」的人在干这些事:
- 研究和引用:一段 40 分钟播客变成 8000 词,可以直接引用并附时间戳。
- 语言学习:跟读、查词、逐句翻译。
- AI 工作流:把文字稿粘给 LLM,问追问问题、提取行动项、给会议做摘要。
- 无障碍 + Notion / Obsidian 归档:文字稿和笔记放在一起,不用反复看视频。
- TikTok / X 短片:信息流刷过去就没了,但里面那句金句你想存下来。
这篇文章的目标,是把「剪贴板里有一个 URL」到「编辑器里有一份干净 Markdown 文字稿」的路径压到最短。
3 步把 YouTube 视频转文字的工作流 {#3-步工作流}
这套流程能跑通,是因为 YouTube 自己就给绝大多数公开视频提供了字幕轨道(创作者没提供时 Google 会自动生成),而一些内容抽取服务知道怎么把这条轨道拉出来。整条 pipeline 从头到尾大概 30 秒。
Step 1:复制视频链接
打开 YouTube 视频,点 Share 按钮,复制链接。https://www.youtube.com/watch?v=VIDEO_ID 这种干净格式最稳——后面如果带 &t= 时间戳或 playlist 参数,遇到不爱认参数的工具就容易翻车,先去掉。TikTok / X 的链接直接从分享菜单复制就行,手机端分享出来的一般就是标准 URL。
Step 2:粘进 URL 转文字工具
打开 URL to Any,选 URL to Markdown(带结构的文字稿)或者 URL to Text(纯文字)。工具会去抓视频页、把 YouTube 的字幕轨道拉下来,5–10 秒返回完整文本。一段 30 分钟的视频通常会得到 4000–6000 字的 Markdown。
你应该会看到:
- 视频标题作为 H1
- 频道名和发布时间作为元信息
- 完整文字稿,按段落分隔(部分情况下带时间戳)
- 视频里可见的章节会被保留成 H2 标题
如果这个 YouTube 视频完全没有字幕轨道(很少见,主要发生在刚上传或者作者主动关掉了自动字幕的视频),这一步只会返回视频描述。这种时候只能退回 Whisper 类的工具,下面 yapsnap 对比那一节 会讲。
Step 3:扔进 AI Summarizer 出结构化摘要(推荐)
纯文字稿能搜索,但读起来累。把同一个 URL——或者 Step 2 的 Markdown——粘到 URL to Any AI Summarizer,几秒钟拿回一份带章节标题、要点和 TL;DR 的结构化摘要。40 分钟的访谈一般摘出来 300–500 字,会把 4–6 条核心观点直接列出来,你不用读完 8000 字。
我们在一集 45 分钟的 Lex Fridman 访谈上实测:整套流程花了 38 秒,其中 8 秒抓文字稿,30 秒生成摘要。结果直接就能拿去给文章挑引用了。

TikTok / X / Instagram 上哪些能用,哪些不行 {#tiktok-x-instagram}
实话实说:这套 URL 工作流在 YouTube 上非常好用,在 X 上还行,在 TikTok 和 Instagram 上有限。具体情况:
YouTube:最稳。绝大多数公开视频都有字幕,URL 工具能稳定拉下来。长播客、讲座、教程全都能干净抽出来。
X(Twitter)视频:当推文带 alt-text 或平台开了自动字幕时能用。纯视频推文没字幕的话,URL 工具只能返回推文文本和上下文 thread,拿不到真正的字音稿。退路:找一下原作者有没有发到 YouTube 上的版本;否则就上 Whisper。
TikTok:一半一半。TikTok 给很多视频自动生成字幕,有字幕时 URL 工具能拉到——但覆盖不均匀。老 TikTok 和只有 BGM 没人声的视频通常没字幕,这时 URL 工具只会返回描述和 hashtag。
Instagram Reels:最差。Instagram 的字幕开放程度不稳定,URL 工作流大多数时候只能拿到帖文的 caption 文字。Reels 转文字基本上得用本地 Whisper。
如果你主要混 TikTok 和 Instagram Reels,直接跳到 yapsnap 对比 一节——本地工具更适合你。如果你的待读列表里主要是 YouTube 和长播客,上面那 3 步能解决 95% 的事。
URL 工作流 vs yapsnap:一个老实的对比 {#url-vs-yapsnap}
yapsnap 是一个纯 CPU 的 Whisper 套壳:把视频音频下载下来,本地用 Whisper.cpp 跑识别。能上 HN 第 17 是有原因的——隐私彻底本地、不过第三方服务器、TikTok / X / Instagram 这种字幕参差的平台它也能干。但它有代价。
| 维度 | URL 工作流(URL to Any) | yapsnap(本地 Whisper) |
|---|---|---|
| 安装 | 不用,开网页就能用 | 装 Python、clone 仓库、编译 Whisper.cpp |
| 速度(10 分钟 YouTube) | 约 10 秒 | 现代笔记本 CPU 上 2–6 分钟 |
| 隐私 | URL 在服务端处理 | 完全本地,音频不出机器 |
| YouTube 覆盖 | 优秀(直接抓字幕) | 优秀(直接转音频) |
| TikTok / Instagram | 有限(看字幕有没有) | 优秀(直接转音频) |
| 口音 / 多人对话准确度 | 看 YouTube 自动字幕 | 看 Whisper 模型大小 |
| 成本 | 免费,无需注册 | 免费,但要花 CPU 和电费 |
| 适合 | 日常阅读流、播客、讲座 | 隐私敏感内容、TikTok、Reels |
什么时候选 URL 工作流:
- 一天要转几条视频,想一键粘贴
- 内容是 YouTube 或长播客
- 不想装 Python / ffmpeg / Whisper
- 反正本来就要做摘要或 Markdown 归档
什么时候选 yapsnap(或其他本地 Whisper 工具):
- 内容敏感(内部培训视频、保密协议下的 webinar、未发布的创作者素材)
- 主力平台是 TikTok 或 Instagram Reels,字幕大多数时候没有
- 飞机上 / 离线需要批量处理
- 命令行没问题,愿意一次性把环境搭好
两种工具不互相替代。比较顺的做法是组合用:URL 工作流处理日常 YouTube,yapsnap 处理 TikTok 长尾和保密素材。

让文字稿更可用的几条经验 {#经验}
每天用这条 pipeline 处理研究视频和播客,踩过的几条坑:
- 去掉时间戳参数。 YouTube URL 末尾
&t=312s会让部分工具误以为你只想要那一段,结果只返回片段。复制干净的youtube.com/watch?v=ID。 - 要章节就选 Markdown,不要纯文字。 Markdown 会把章节作为 H2 标题保留下来,90 分钟播客也能跳着读。纯文字会把这层结构丢掉。
- 非英文视频可以让 Summarizer 翻译。 AI Summarizer 接受 prompt,比如「用英文总结这段中文视频」——外语访谈和讲座很有用。
- 存 Markdown,不要存截图。 文字稿拿到之后扔进 Obsidian / Notion 存成
.md,以后还能搜、能引、能跳转,不用重跑 pipeline。 - 专有名词别完全相信自动字幕。 YouTube 自动字幕在人名、公司名、专业术语上特别容易出错。要发表的引用,都要回原视频核对。
- 配合 URL to Markdown 抓 show notes。 播客描述页里如果有 show notes 和外链,把那个页面也跑一遍 URL to Markdown,引用链接和文字稿就能放在同一个 Markdown 文件里。
FAQ {#faq}
Q:把 YouTube 视频转成文字稿合法吗?
A:个人使用、研究、无障碍、绝大多数新闻引用场景下是合法的。出于合理使用目的(评论、批评、教育、带署名的引用)转录受版权保护的内容,在美国和欧盟版权法里普遍是被接受的。把整份文字稿当成自己的原创内容发布而不署名,则不合法。拿不准时,回链原视频 + 引用片段,不要整段照搬。
Q:YouTube 自动字幕的准确率怎么样?
A:单人清晰英文播报准确率约 95%,专有名词、技术术语、多人叠话的场景大概 70–80%。访谈、多人播客、非母语英文准确率会更低。要公开发表的引用,都务必回原视频校对。
Q:能转 private 或 unlisted 的 YouTube 视频吗?
A:URL 转录工具能访问的只有 URL 本身暴露的内容。Unlisted(链接可见)的视频如果字幕公开,是能跑通的。需要登录才能看的真 private 视频跑不通,用 yapsnap 这种本地工具配合下载好的文件更合适。
Q:YouTube Shorts 能用这套流程吗?
A:能用。Shorts 一般 60 秒以内,文字稿可能就 50–100 字,AI Summarizer 多半多余,直接用 URL to Text 就行。
Q:直接把 URL 粘给 ChatGPT 或 Claude 不行吗?
A:三个区别。(1) 免费 LLM 越来越多关闭 URL 浏览或限速,专门工具更稳。(2) ChatGPT / Claude 不会给你原文字稿,直接跳到摘要——有时是你想要的,有时不是。(3) URL 工作流给你的是 Markdown,可以粘到任何地方,不是一段你得回滚的聊天。
Q:TikTok 只有 BGM 没字幕的视频能转吗?
A:URL 工作流不行——根本没有可抽的字幕。用 yapsnap 这类本地 Whisper 工具下载音频再做语音识别。Whisper 在「人声 + 背景音乐」上分离还算可以,但 rap / 重特效叠人声会让它出错。
Q:最长能转多长的视频?
A:实测上,3 小时以上的播客和讲座都能跑通。文字稿本身只是文字,长度只会在喂给 Summarizer 的那一步影响选项——这时候用 Long 长度,章节结构能保留下来。
总结 {#总结}
把 YouTube / TikTok / X 视频转成文字最短的一条路就是 URL 工作流:粘链接、10 秒拿干净 Markdown、想要简报再过一遍 Summarizer。它能覆盖 YouTube 和长播客的绝大多数场景——也就是大多数人搜「transcribe YouTube video to text」时想要的东西。TikTok / Reels 那种字幕缺失的,yapsnap 这种本地工具更合适;当成补充用,不是替代。
这周从你 watch-later 里挑一条视频跑一遍上面这 3 步。第一次把 45 分钟播客压成 5 分钟摘要之后,剩下那一堆没看的视频突然就没那么吓人了。
想转视频但又懒得装环境?免费试用 URL to Any → ——把 YouTube / TikTok / X 链接粘进 URL to Markdown 拿完整文字稿,再过一次 AI Summarizer 拿结构化摘要。同站还有 10+ 个配套工具(URL to PDF、Meta Tag Extractor、URL to Text 等),无需注册。