GPT‑5.2 发布：深度解析

URL to Anyon 6 months ago

OpenAI 发布了迄今为止最强的专业知识工作模型系列——GPT‑5.2。它在多项评测上刷新纪录，显著提升长上下文推理、工具使用的可靠性、视觉理解能力，并改进了 ChatGPT 的日常使用体验。今天起，付费版 ChatGPT 开始逐步上线；API 现已开放。

模型性能与评测

GPT‑5.2 Thinking 面向真实的专业场景，整体表现达新高。在知识工作、编码、科学与抽象推理等多个维度持续领先，同时减少错误。

知识工作（GDPval）

在 GDPval（覆盖 44 种职业）中，GPT‑5.2 Thinking 在 70.9% 的对比中战胜或持平行业顶级专业人士，评判来自专家评审。
生成速度与成本：在 GDPval 任务上，输出速度超过专家的 11 倍、成本低于 1%（基于历史估算；ChatGPT 实际速度可能不同）。在人工监督下，专业工作可显著受益。
内部金融任务：初级投行分析师的表格建模测试，GPT‑5.2 Thinking 平均分较 GPT‑5.1 提升 9.3 个百分点（从 59.1% 至 68.4%）。

编程（SWE‑Bench 与工程）

SWE‑Bench Pro：55.6%（新 SOTA），较 GPT‑5.1 Thinking 的 50.8% 明显提升。
SWE‑bench Verified：80.0%（新高）。
早期测试者反馈：前端能力更强，能处理复杂/非常规 UI 与 3D 要素，对全栈工程师的日常协作更有帮助。

事实性与可靠性

在去标识的 ChatGPT 查询集合上，带错误的回复较 GPT‑5.1 Thinking 约减少 30%。
如同所有模型，GPT‑5.2 仍不完美；关键场景务必核验。

能力、工作流与发布信息

GPT‑5.2 在长上下文推理、视觉理解、代理式工具调用与整体工作流可靠性上都有显著增强；并带来 ChatGPT 与 API 的实用更新。

长上下文推理

在 OpenAI MRCRv2（跨长文档整合信息）上达到领先表现；在 4‑needle 变体（最长至 256k tokens）上接近 100% 准确率。
现实价值：可在长报告、合同、论文、访谈记录及多文件项目中保持一致的理解与分析。
扩展工作流：GPT‑5.2 Thinking 兼容 Responses 的 /compact 端点，延展有效上下文窗口，支持工具密集、长时运行的任务。

视觉理解

在图表推理与软件界面理解上的错误率约减半。
对空间布局的掌握更强：在主板等部件识别任务中，GPT‑5.2 能更准确地给出边界框，理解相对位置优于 GPT‑5.1。

代理式工具使用与复杂工作流

Tau2‑bench Telecom：98.7%（新 SOTA），体现了模型在长、多轮任务中稳定调用工具的能力。
低时延场景：在 reasoning.effort='none' 下表现更佳，优于 GPT‑5.1 与 GPT‑4.1。
端到端效果：例如在旅行者的多步骤客服案例（改签、特殊座位、补偿）中，能更好地跨多代理/工具协调完整流程。

科学、数学与一般推理

GPQA Diamond（研究生级、Google‑proof 问答）：GPT‑5.2 Pro 93.2%，GPT‑5.2 Thinking 92.4%。
FrontierMath（Tier 1–3）：GPT‑5.2 Thinking 解出 40.3% 专家级问题（新 SOTA）。
ARC‑AGI‑1（Verified）：GPT‑5.2 Pro 首次突破 90%，相较去年 o3‑preview 提升，同时将达成该性能的成本约降 390×。
ARC‑AGI‑2（Verified）：GPT‑5.2 Thinking 52.9%，GPT‑5.2 Pro 54.2%，在新颖、抽象问题上的流体推理更强。
研究协助示例：在统计学习理论的窄场景中，GPT‑5.2 Pro 提出证明草案，后经作者验证并经外部专家审阅，展示了在严密人类监督下的科研助力潜力。

ChatGPT 中的使用

GPT‑5.2 Instant：更快的日常工作马力，用于信息检索、教程、技术写作与翻译；解释更清晰、结构更明了。
GPT‑5.2 Thinking：适合深入工作——编码、长文档摘要、上传文件问答、逐步数学/逻辑推理、结构化规划与决策支持。
GPT‑5.2 Pro：质量优先的选择；在复杂领域（如编程）中更少重大错误、表现更强。

安全更新

延续安全补全研究，在确保安全边界内提高有效帮助。
加强对敏感对话的响应（自杀/自残征兆、心理健康困扰、对模型的情感依赖），相较 GPT‑5.1 降低不期望回复。
逐步上线年龄预测模型，以对 18 岁以下用户自动应用内容保护；配合现有家长控制。

上线与定价

ChatGPT：面向付费计划（Plus、Pro、Go、Business、Enterprise）逐步上线 GPT‑5.2（Instant、Thinking、Pro）。GPT‑5.1 在“旧版”模型保留三个月后下线。
API：GPT‑5.2 Thinking（gpt-5.2）可用于 Responses 与 Chat Completions；GPT‑5.2 Instant（gpt-5.2-chat-latest）；GPT‑5.2 Pro（gpt-5.2-pro）。
推理力度：GPT‑5.2 Pro 与 Thinking 支持新的第五档 xhigh；Pro 开放推理力度参数配置。
定价：GPT‑5.2 输入 $1.75/百万 tokens，输出 $14/百万 tokens；缓存输入享 90% 折扣。尽管单 token 价格高于 GPT‑5.1，但由于更高的 token 效率，实现既定质量的总成本往往更低。GPT‑5.2 Pro 输出价格为 $21–$168/百万 tokens。

常见问题

今天能在 ChatGPT 使用 GPT‑5.2 吗？

可以，付费计划开始逐步上线。若暂未显示，请稍后重试。

开发者应使用哪些 API 模型名？

gpt-5.2（Thinking）：Responses 与 Chat Completions。
gpt-5.2-chat-latest（Instant）：Responses。
gpt-5.2-pro（Pro）：Responses，支持可配置且含 xhigh 的推理力度。

GPT‑5.2 的编程能力如何？

在 SWE‑Bench Pro 上达新 SOTA（55.6%），在 SWE‑bench Verified 达到 80%，更可靠地调试生产代码、实现需求、重构大代码库与端到端修复。

能可靠处理长文档吗？

可以。GPT‑5.2 Thinking 在 MRCRv2 上领先，并在 4‑needle 变体（最长至 256k tokens）接近满分，使其能对超长材料保持连贯分析。

是否更少幻觉？

在内部测试中，去标识的 ChatGPT 查询里，错误回复较 GPT‑5.1 Thinking 约减少 30%，提升了日常可信度。

在敏感话题上是否更安全？

包含针对性安全干预与安全补全技术，同时上线年龄预测以保护未成年人。但关键决策仍需人类监督。

结语

GPT‑5.2 在实用智能上跨越一大步：更高评测成绩、更强的长上下文与视觉理解、更稳定的工具调用，以及在 ChatGPT 中更清晰的日常交互。配合安全改进与新的 API 选项，它适用于端到端的专业工作流——从表格与演示，到生产级代码与复杂多轮支持。