GPT-5.4发布:OpenAI把重点放在长流程专业任务
OpenAI 发布 GPT-5.4,并在发布页与 API 文档中强调知识工作、编程、agentic workflow 与 Codex 中实验性的 1M context window。本文据此分析 GPT-5.4 更适合被理解为面向长流程专业任务的模型,并讨论评估它的几个关键指标。
OpenAI 于 2026 年 3 月 5 日发布 GPT-5.4,并将其接入 ChatGPT、API 与 Codex。只看版本号,这像一次常见的前沿模型更新;但如果把发布页与 API 文档放在一起读,OpenAI 这次强调的重点并不集中在聊天表现或单项跑分,而是知识工作、编程、agentic workflow,以及 Codex 中实验性的 1M context window。把这些信息合并起来看,GPT-5.4 更适合被理解为一款面向长流程专业任务的模型。文中提到的“工作台模型”,是对这种定位的编辑性概括,不是官方原词。
这一判断首先来自官方表述本身。OpenAI 在发布页中直接列出知识工作、编程和代理式工作流,而不是只强调更自然的对话体验或某个基准集成绩。这样的措辞很重要,因为这几类任务有相近的操作特征:输入材料通常很长,任务会跨多轮延续,执行过程依赖工具调用,输出结果还要能进入后续流程。模型在单轮回答里更完整、更流畅,当然有价值,但这还不足以支撑代码仓库级修改、长文档审阅、研究整理或多步骤合规分析。
Codex 提供了更清楚的线索。根据 OpenAI 的 GPT-5-Codex 模型页,GPT-5.4 在 Codex 中提供实验性的 1M context window。超长上下文本身并非第一次出现,关键在于它出现的位置:Codex 面向的是 agentic coding,而不是单次代码补全。这里的上下文不只是用户输入的一段 prompt,还可能包括工程仓库、任务计划、工具执行记录、失败重试信息,以及先前生成的中间文件。到这个层面,模型是否适合实际开发,考验的就不只是局部代码生成质量,还包括几件更难的事:能否在长链路里维持目标一致性,能否持续引用早先材料,能否控制修改边界,能否在工具调用后接着推进任务。
1M context 也需要谨慎理解。OpenAI 目前给出的信息,是它在 Codex 中以实验性能力出现。发布材料并没有证明所有 API 场景都能稳定、经济地用满这一窗口,更没有证明长上下文一旦拉满,模型就会自动获得仓库级理解能力。实际效果会受到检索方式、上下文组织、缓存、工具设计和任务拆分策略影响。把整个仓库直接塞进上下文,和把相关文件、提交历史、测试日志按任务阶段分段供给,是两种完全不同的系统设计,成本和稳定性也不会相同。
价格与 token efficiency 的信息,也应当放回这个任务视角里理解。OpenAI 在发布页中同时给出 GPT-5.4 与 GPT-5.2 的价格差异,并强调 token 效率提升。这里能得出的稳妥结论是:官方在意的不是单次高价值请求,而是多轮、长时、需要反复读写上下文的工作流。对企业用户来说,真正敏感的不是模型单价本身,而是长任务中的累计成本,是否需要反复重送历史内容,缓存是否有效,工具调用前后的状态是否会导致 token 膨胀,长文档修订或跨文件重构在十几轮之后是否还能维持可接受的费用。
这也是 GPT-5.4 与常见“版本升级”讨论之间最该区分的地方。很多模型发布讨论停留在上限能力:测试集分数、几道样题、一次回答的惊艳程度。GPT-5.4 目前公开信息更像是在回答另一类问题:当任务持续几十分钟,甚至更久时,模型能否把材料读完、把工具用对、把中间状态保留下来,并在成本没有失控的前提下把任务往前推。发布页与模型文档确实给出了这种方向性信号,但还不足以证明这些问题已经被系统性解决。长链路代理系统里的目标漂移、工具误用、异常恢复、权限边界和人工接管条件,仍然是部署中的硬约束。
如果要评估 GPT-5.4 是否配得上 OpenAI 给出的“面向专业工作”定位,单看榜单并不够,至少要补上三类可测指标。
第一,仓库级代码任务中的上下文利用率。测试方法不该只是让模型生成一个函数,而应当覆盖跨目录修改、引用旧接口、保留测试约束、处理回滚与二次修订。可以记录首轮成功率、二次修订后收敛率、误改无关文件的比例,以及上下文长度增加后性能是否明显衰减。
第二,知识工作场景的累计成本。更接近真实使用的方法,是让模型处理长文档、多附件、多轮批注和定稿过程,分别计算输入 token、缓存命中、工具调用开销与人工返工次数。只有在总成本而非单轮成本上出现下降,token efficiency 才算真正转化为业务价值。
第三,代理流程中的人工兜底比例。许多团队接入 API 或 Codex 后,瓶颈不在首轮输出,而在异常链路:工具调用失败、上下文偏题、权限不足、结果无法直接提交。更有意义的指标包括:平均每个任务需要人工介入多少次,介入发生在哪个阶段,介入后模型能否继续完成剩余任务,而不是从头来过。
按目前公开材料,GPT-5.4 更像是 OpenAI 在专业任务链路上的一次推进:模型被放进更长的上下文、更明确的工具环境,以及更看重累计成本的使用条件中。这并不自动等于“可以放心交给它跑完整生产任务”,但它至少说明,OpenAI 这次优化的重心已经延伸到持续执行、状态保持和吞吐效率。
对开发团队、知识工作平台和企业技术负责人来说,接下来真正需要验证的,不是它在一次演示里写得多漂亮,而是它在几小时内能否持续可用、在多轮迭代后是否还守得住边界、在账单出来时有没有把效率提升兑现成成本改善。这些问题的答案,要靠实际接入后的数据,而不是发布当天的宣传语。
如果只是想先确认现有接入层是否已经覆盖这类模型,可以先看 模型列表,再按 快速开始文档 做一轮最小验证。
Sources
- OpenAI: Introducing GPT-5.4
- OpenAI API Docs: GPT-5-Codex model page
- AI-Bot 日报: GPT-5.4发布