
- 博客
- 2025年LLM的六大范式转变
2025年LLM的六大范式转变
大型语言模型在2025年跨过了多个概念门槛。超越“规模”,行业发现了新的训练阶段、新的应用分层,以及与AI交互的新方式。以下六大范式转变共同重塑了我们构建、评估与使用LLM的方式。

目录
- 可验证奖励强化学习(RLVR)
- “幽灵”而非“动物”/锯齿式智能
- Cursor 与LLM应用新层
- Claude Code:住在你电脑里的AI
- Vibe Coding(氛围式编程)
- Nano banana 与 LLM GUI
- 常见问题
- 结语
可验证奖励强化学习(RLVR)
发生了什么变化
从约2020到2024年,生产级配方相对稳定:预训练 → 监督微调(SFT)→ RLHF。2025年,RLVR成为第四个主舞台。通过在可自动验证的环境(如数学/代码谜题)上优化,模型学会生成更长、更结构化的思考轨迹,并能迭代回溯——在人类看来很像“推理”。OpenAI o1给出雏形,o3带来明显拐点。
为什么重要
- 更长的客观优化:不同于短促的SFT/RLHF,RLVR基于难以被“玩弄”的客观奖励,训练可持续更久。
- 更高的性价比:算力从预训练转向更长的RLVR运行,同等规模模型表现明显更强。
- 新的“能力旋钮”:通过延长“思考时间”(更长轨迹/更深搜索)在推理时换取能力,形成可控的性能—成本折中。
实践建议
- 把可验证环境当成能力引擎;精心挑选真正刻画领域不变性的任务簇。
- 将“奖励函数设计”与“轨迹策略设计”分开跟踪;微妙的奖励塑形会诱导完全不同的策略。
- 预留评测迁移预算:更长轨迹会改变失败模式;在评测中同时考查正确性与鲁棒性。

“幽灵”而非“动物”/锯齿式智能
智能的“形状”
LLM不是“长大的动物”,而像“被召唤的幽灵”。其优化压力不同:模仿人类文本、在可验证谜题中得分、获得人类偏好。在可验证领域开放 RLVR 后,能力在这些口袋附近陡然“尖刺”,呈现出有趣的锯齿:一边是多才多艺的天才,一边又像容易被越狱诱导的低年级学生。
2025年的基准
基准多为可验证环境,自然容易成为RLVR与合成数据的靶子。实验室会“benchmaxx”——围绕基准附近构建训练环境,长出覆盖它们的“齿”。结果是分数飞升,但泛化并非同步提升。
下一步如何衡量
- 非可验证推理:中间步骤含糊或需开放式综合的任务。
- 分布迁移:刻意、分阶段地远离基准邻域。
- 抵御对抗性指令:越狱韧性已是部署的基本功。
Cursor 与LLM应用新层
LLM应用在做什么
Cursor通过将LLM“打包编排”成面向编码这一垂直场景的产品而迅速崛起:
- 持久的上下文工程
- 多次LLM调用的DAG编排,平衡成本/时延/质量
- 人在回路的GUI
- 可控“自主性滑杆”
垂直化与平台之争
基础模型更像“通才大学生”,而应用会通过私有数据、传感器/执行器与反馈回路把他们“组织”成行业专业人士——真正把能力变成价值的,是这层组织与落地。
构建建议
- 全面可观测:跟踪token流、错误、重试、工具效能。
- 大胆缓存:许多垂直场景可以高比例重用。
- 先有护栏再放权:定义可逆操作与升级路径。

Claude Code:住在你电脑里的AI
虽然“云端智能群体”像终局,但2025年更像“慢速、锯齿能力”的世界,本地优先常常更现实。Claude Code清晰展示了这种模式:代理直接运行在你的已启动环境上——文件系统、密钥、配置与低时延。关键不在计算在哪儿,而在上下文在哪儿。一个极简CLI把工具与推理循环封装起来,让AI像一只住在你电脑里的小灵体。
Vibe Coding(氛围式编程)
模型跨过阈值:你可以直接用英语构建相当可观的软件,有时甚至忘了代码的存在。这不仅赋能非程序员,也让专业人士以“快、可弃、一次性”的方式验证想法、定位问题或搭脚手架。代码变得廉价、短暂、可塑,从而改变了“会被写出来的软件”的边界与相关岗位分工。
实践要点:
- 明确行为、约束与测试;让模型自行补齐语言/框架。
- 紧密反馈:以运行—lint—修复循环替代冗长描述。
- 把生成当草稿;把验证内嵌进循环。
Nano banana 与 LLM GUI
“聊天”是LLM时代的命令行,而人类偏好视觉:图表、幻灯、白板、小应用。Google Gemini Nano“banana”暗示了LLM的GUI层:不仅是图像输出,更是文本+图像与世界知识在权重中的耦合。未来界面中,模型应当默认以结构化视觉响应,并让用户以空间化方式操控结果。
设计启示:
- 输出模态应服务于人类认知,而非模型便利。
- 视觉推理辅具(时间线、图、模式图)应成为一等产物。
- 多模态的“联合权重”重要性高于“文本+独立图像模型”的管道式拼接。
常见问题
RLVR 与 RLHF 有何本质不同?
RLHF优化的是学习到的人类偏好模型(可被“迎合”),RLVR面向可程序化验证的客观奖励,因此可训练更久、在可验证领域更稳健。
为什么现在更难信基准?
因为它们可验证,容易成为优化靶点。实验室能在基准邻域训练(或合成近分布数据),分数抬升但未必真泛化。
代理该本地运行还是上云?
若任务依赖本地上下文(代码库、密钥、配置)且需低时延,本地优先往往胜出。云端适合扩展与隔离。许多团队采用混合:本地负责语境,云端承载重工具。
“思考时间”在实践中意味着什么?
它控制轨迹长度与搜索深度。更长的思考通常提升复杂任务正确率,但代价是更多token,并可能在缺乏良好评测时过拟合伪模式。
Vibe Coding 会取代工程师吗?
它改变的是工作表面而非直接替代。专业人士负责系统编排、行为验证、界面设计与工程化加固——随着生成规模化,这些工作更重要。
结语
2025年让我们看到一种“新型智能”:在若干方面超出预期,在另一些方面却仍显脆弱。RLVR、本地代理、垂直应用、Vibe Coding 与多模态GUI共同拓宽了可能性边界,而前沿仍广阔。预期会持续快速进步,同时也还有大量工程与研究工作要做。