2025年LLM的六大范式转变

URL to Anyon 6 months ago

大型语言模型在2025年跨过了多个概念门槛。超越“规模”，行业发现了新的训练阶段、新的应用分层，以及与AI交互的新方式。以下六大范式转变共同重塑了我们构建、评估与使用LLM的方式。

可验证奖励强化学习（RLVR）

发生了什么变化

从约2020到2024年，生产级配方相对稳定：预训练 → 监督微调（SFT）→ RLHF。2025年，RLVR成为第四个主舞台。通过在可自动验证的环境（如数学/代码谜题）上优化，模型学会生成更长、更结构化的思考轨迹，并能迭代回溯——在人类看来很像“推理”。OpenAI o1给出雏形，o3带来明显拐点。

为什么重要

更长的客观优化：不同于短促的SFT/RLHF，RLVR基于难以被“玩弄”的客观奖励，训练可持续更久。
更高的性价比：算力从预训练转向更长的RLVR运行，同等规模模型表现明显更强。
新的“能力旋钮”：通过延长“思考时间”（更长轨迹/更深搜索）在推理时换取能力，形成可控的性能—成本折中。

实践建议

把可验证环境当成能力引擎；精心挑选真正刻画领域不变性的任务簇。
将“奖励函数设计”与“轨迹策略设计”分开跟踪；微妙的奖励塑形会诱导完全不同的策略。
预留评测迁移预算：更长轨迹会改变失败模式；在评测中同时考查正确性与鲁棒性。

“幽灵”而非“动物”/锯齿式智能

智能的“形状”

LLM不是“长大的动物”，而像“被召唤的幽灵”。其优化压力不同：模仿人类文本、在可验证谜题中得分、获得人类偏好。在可验证领域开放 RLVR 后，能力在这些口袋附近陡然“尖刺”，呈现出有趣的锯齿：一边是多才多艺的天才，一边又像容易被越狱诱导的低年级学生。

2025年的基准

基准多为可验证环境，自然容易成为RLVR与合成数据的靶子。实验室会“benchmaxx”——围绕基准附近构建训练环境，长出覆盖它们的“齿”。结果是分数飞升，但泛化并非同步提升。

下一步如何衡量

非可验证推理：中间步骤含糊或需开放式综合的任务。
分布迁移：刻意、分阶段地远离基准邻域。
抵御对抗性指令：越狱韧性已是部署的基本功。

Cursor 与LLM应用新层

LLM应用在做什么

Cursor通过将LLM“打包编排”成面向编码这一垂直场景的产品而迅速崛起：

持久的上下文工程
多次LLM调用的DAG编排，平衡成本/时延/质量
人在回路的GUI
可控“自主性滑杆”

垂直化与平台之争

基础模型更像“通才大学生”，而应用会通过私有数据、传感器/执行器与反馈回路把他们“组织”成行业专业人士——真正把能力变成价值的，是这层组织与落地。

构建建议

全面可观测：跟踪token流、错误、重试、工具效能。
大胆缓存：许多垂直场景可以高比例重用。
先有护栏再放权：定义可逆操作与升级路径。

Claude Code：住在你电脑里的AI

虽然“云端智能群体”像终局，但2025年更像“慢速、锯齿能力”的世界，本地优先常常更现实。Claude Code清晰展示了这种模式：代理直接运行在你的已启动环境上——文件系统、密钥、配置与低时延。关键不在计算在哪儿，而在上下文在哪儿。一个极简CLI把工具与推理循环封装起来，让AI像一只住在你电脑里的小灵体。

Vibe Coding（氛围式编程）

模型跨过阈值：你可以直接用英语构建相当可观的软件，有时甚至忘了代码的存在。这不仅赋能非程序员，也让专业人士以“快、可弃、一次性”的方式验证想法、定位问题或搭脚手架。代码变得廉价、短暂、可塑，从而改变了“会被写出来的软件”的边界与相关岗位分工。

实践要点：

明确行为、约束与测试；让模型自行补齐语言/框架。
紧密反馈：以运行—lint—修复循环替代冗长描述。
把生成当草稿；把验证内嵌进循环。

Nano banana 与 LLM GUI

“聊天”是LLM时代的命令行，而人类偏好视觉：图表、幻灯、白板、小应用。Google Gemini Nano“banana”暗示了LLM的GUI层：不仅是图像输出，更是文本+图像与世界知识在权重中的耦合。未来界面中，模型应当默认以结构化视觉响应，并让用户以空间化方式操控结果。

设计启示：

输出模态应服务于人类认知，而非模型便利。
视觉推理辅具（时间线、图、模式图）应成为一等产物。
多模态的“联合权重”重要性高于“文本+独立图像模型”的管道式拼接。

常见问题

RLVR 与 RLHF 有何本质不同？

RLHF优化的是学习到的人类偏好模型（可被“迎合”），RLVR面向可程序化验证的客观奖励，因此可训练更久、在可验证领域更稳健。

为什么现在更难信基准？

因为它们可验证，容易成为优化靶点。实验室能在基准邻域训练（或合成近分布数据），分数抬升但未必真泛化。

代理该本地运行还是上云？

若任务依赖本地上下文（代码库、密钥、配置）且需低时延，本地优先往往胜出。云端适合扩展与隔离。许多团队采用混合：本地负责语境，云端承载重工具。

“思考时间”在实践中意味着什么？

它控制轨迹长度与搜索深度。更长的思考通常提升复杂任务正确率，但代价是更多token，并可能在缺乏良好评测时过拟合伪模式。

Vibe Coding 会取代工程师吗？

它改变的是工作表面而非直接替代。专业人士负责系统编排、行为验证、界面设计与工程化加固——随着生成规模化，这些工作更重要。

结语

2025年让我们看到一种“新型智能”：在若干方面超出预期，在另一些方面却仍显脆弱。RLVR、本地代理、垂直应用、Vibe Coding 与多模态GUI共同拓宽了可能性边界，而前沿仍广阔。预期会持续快速进步，同时也还有大量工程与研究工作要做。