GPT‑5.2 发布:深度解析

GPT‑5.2 发布:深度解析

wujielion a month ago

OpenAI 发布了迄今为止最强的专业知识工作模型系列——GPT‑5.2。它在多项评测上刷新纪录,显著提升长上下文推理、工具使用的可靠性、视觉理解能力,并改进了 ChatGPT 的日常使用体验。今天起,付费版 ChatGPT 开始逐步上线;API 现已开放。

Banner

目录

模型性能与评测

GPT‑5.2 Thinking 面向真实的专业场景,整体表现达新高。在知识工作、编码、科学与抽象推理等多个维度持续领先,同时减少错误。

知识工作(GDPval)

  • 在 GDPval(覆盖 44 种职业)中,GPT‑5.2 Thinking 在 70.9% 的对比中战胜或持平行业顶级专业人士,评判来自专家评审。
  • 生成速度与成本:在 GDPval 任务上,输出速度超过专家的 11 倍、成本低于 1%(基于历史估算;ChatGPT 实际速度可能不同)。在人工监督下,专业工作可显著受益。
  • 内部金融任务:初级投行分析师的表格建模测试,GPT‑5.2 Thinking 平均分较 GPT‑5.1 提升 9.3 个百分点(从 59.1% 至 68.4%)。

编程(SWE‑Bench 与工程)

  • SWE‑Bench Pro:55.6%(新 SOTA),较 GPT‑5.1 Thinking 的 50.8% 明显提升。
  • SWE‑bench Verified:80.0%(新高)。
  • 早期测试者反馈:前端能力更强,能处理复杂/非常规 UI 与 3D 要素,对全栈工程师的日常协作更有帮助。

事实性与可靠性

  • 在去标识的 ChatGPT 查询集合上,带错误的回复较 GPT‑5.1 Thinking 约减少 30%。
  • 如同所有模型,GPT‑5.2 仍不完美;关键场景务必核验。

Image

能力、工作流与发布信息

GPT‑5.2 在长上下文推理、视觉理解、代理式工具调用与整体工作流可靠性上都有显著增强;并带来 ChatGPT 与 API 的实用更新。

长上下文推理

  • 在 OpenAI MRCRv2(跨长文档整合信息)上达到领先表现;在 4‑needle 变体(最长至 256k tokens)上接近 100% 准确率。
  • 现实价值:可在长报告、合同、论文、访谈记录及多文件项目中保持一致的理解与分析。
  • 扩展工作流:GPT‑5.2 Thinking 兼容 Responses 的 /compact 端点,延展有效上下文窗口,支持工具密集、长时运行的任务。

视觉理解

  • 在图表推理与软件界面理解上的错误率约减半。
  • 对空间布局的掌握更强:在主板等部件识别任务中,GPT‑5.2 能更准确地给出边界框,理解相对位置优于 GPT‑5.1。

代理式工具使用与复杂工作流

  • Tau2‑bench Telecom:98.7%(新 SOTA),体现了模型在长、多轮任务中稳定调用工具的能力。
  • 低时延场景:在 reasoning.effort='none' 下表现更佳,优于 GPT‑5.1 与 GPT‑4.1。
  • 端到端效果:例如在旅行者的多步骤客服案例(改签、特殊座位、补偿)中,能更好地跨多代理/工具协调完整流程。

科学、数学与一般推理

  • GPQA Diamond(研究生级、Google‑proof 问答):GPT‑5.2 Pro 93.2%,GPT‑5.2 Thinking 92.4%。
  • FrontierMath(Tier 1–3):GPT‑5.2 Thinking 解出 40.3% 专家级问题(新 SOTA)。
  • ARC‑AGI‑1(Verified):GPT‑5.2 Pro 首次突破 90%,相较去年 o3‑preview 提升,同时将达成该性能的成本约降 390×。
  • ARC‑AGI‑2(Verified):GPT‑5.2 Thinking 52.9%,GPT‑5.2 Pro 54.2%,在新颖、抽象问题上的流体推理更强。
  • 研究协助示例:在统计学习理论的窄场景中,GPT‑5.2 Pro 提出证明草案,后经作者验证并经外部专家审阅,展示了在严密人类监督下的科研助力潜力。

ChatGPT 中的使用

  • GPT‑5.2 Instant:更快的日常工作马力,用于信息检索、教程、技术写作与翻译;解释更清晰、结构更明了。
  • GPT‑5.2 Thinking:适合深入工作——编码、长文档摘要、上传文件问答、逐步数学/逻辑推理、结构化规划与决策支持。
  • GPT‑5.2 Pro:质量优先的选择;在复杂领域(如编程)中更少重大错误、表现更强。

安全更新

  • 延续安全补全研究,在确保安全边界内提高有效帮助。
  • 加强对敏感对话的响应(自杀/自残征兆、心理健康困扰、对模型的情感依赖),相较 GPT‑5.1 降低不期望回复。
  • 逐步上线年龄预测模型,以对 18 岁以下用户自动应用内容保护;配合现有家长控制。

上线与定价

  • ChatGPT:面向付费计划(Plus、Pro、Go、Business、Enterprise)逐步上线 GPT‑5.2(Instant、Thinking、Pro)。GPT‑5.1 在“旧版”模型保留三个月后下线。
  • API:GPT‑5.2 Thinking(gpt-5.2)可用于 Responses 与 Chat Completions;GPT‑5.2 Instant(gpt-5.2-chat-latest);GPT‑5.2 Pro(gpt-5.2-pro)。
  • 推理力度:GPT‑5.2 Pro 与 Thinking 支持新的第五档 xhigh;Pro 开放推理力度参数配置。
  • 定价:GPT‑5.2 输入 $1.75/百万 tokens,输出 $14/百万 tokens;缓存输入享 90% 折扣。尽管单 token 价格高于 GPT‑5.1,但由于更高的 token 效率,实现既定质量的总成本往往更低。GPT‑5.2 Pro 输出价格为 $21–$168/百万 tokens。

Image

常见问题

今天能在 ChatGPT 使用 GPT‑5.2 吗?

可以,付费计划开始逐步上线。若暂未显示,请稍后重试。

开发者应使用哪些 API 模型名?

  • gpt-5.2(Thinking):Responses 与 Chat Completions。
  • gpt-5.2-chat-latest(Instant):Responses。
  • gpt-5.2-pro(Pro):Responses,支持可配置且含 xhigh 的推理力度。

GPT‑5.2 的编程能力如何?

在 SWE‑Bench Pro 上达新 SOTA(55.6%),在 SWE‑bench Verified 达到 80%,更可靠地调试生产代码、实现需求、重构大代码库与端到端修复。

能可靠处理长文档吗?

可以。GPT‑5.2 Thinking 在 MRCRv2 上领先,并在 4‑needle 变体(最长至 256k tokens)接近满分,使其能对超长材料保持连贯分析。

是否更少幻觉?

在内部测试中,去标识的 ChatGPT 查询里,错误回复较 GPT‑5.1 Thinking 约减少 30%,提升了日常可信度。

在敏感话题上是否更安全?

包含针对性安全干预与安全补全技术,同时上线年龄预测以保护未成年人。但关键决策仍需人类监督。

结语

GPT‑5.2 在实用智能上跨越一大步:更高评测成绩、更强的长上下文与视觉理解、更稳定的工具调用,以及在 ChatGPT 中更清晰的日常交互。配合安全改进与新的 API 选项,它适用于端到端的专业工作流——从表格与演示,到生产级代码与复杂多轮支持。