倍顺网奥特曼首晒GPT-5实测！被曝使用超级对齐团队“遗产”

倍顺网来源：会操盘配资网站：瑞和网日期：2025-08-06 08:41:09 查看：158

倍顺网奥特曼首晒GPT-5实测！被曝使用超级对齐团队“遗产”

GPT-5倍顺网，终于亮出真容！

最新实测，由奥特曼本人带来，迅速引发大量围观。

疯狂暗示了一周之后，虽说对话只是围绕电视剧推荐，但好歹是有官方实例了。

当然奥特曼其人，放料的同时还是少不了新的谜语┓ ( ´ ∀ ` ) ┏：

即将进入 SaaS 快时尚时代。

比起这种奥式基操，更令人兴奋的是，这次有眼疾手快的网友，截到了发布时间（秒删版）？？？

行吧，这一周的夜，熬起来吧伙计们。

更多细节"泄露" ing

奥特曼持续的官方放料之外，关于 GPT-5，零零星星的各路消息也正在被归纳总结出更多关键脉络。

比如，在主要竞争对手 Claude 一骑当先的编程领域，GPT-5 被曝重写了编码规则。

首先，是将文本能力与推理层相结合，模型学会更合理地选择何时"努力"思考。

其次，GPT-5 具备处理真实工程问题的能力，比如，重构"屎山"代码……

更值得关注的是倍顺网，有知情人士透露，GPT-5 还用上了 Ilya 领衔的超级对齐团队的"遗产"——

通用验证器（Universal Verifier）。

这篇论文最早发表于 2024 年 7 月，也就是 Ilya 官宣离开 OpenAI 的 2 个月之后。

众所周知，作为 Ilya 为"控制超级智能"一手拉起来的团队，超级对齐团队在他和负责人 Jan Leike 离开后迅速被解散。

就在几天前，现任 OpenAI 首席研究官 Mark Chen 还解释了一嘴这件事。他认为，对齐研究已经融入 OpenAI 的核心业务，模型必须按照预期工作才能发挥作用，且当前应当更关注现有模型的对齐，而非假设性的超级智能。

更直白一点翻译就是，Ilya 这伙人跟现在的 OpenAI，话不投机半句多。

现在，这篇论文的 6 位作者中，只有 Yining Chen 和 Nat McAleese 还留在 OpenAI。

使用超级对齐团队技术

八卦少叙，还是来看看"通用验证器"的具体作用。

消息称，OpenAI 在开发 GPT-5 的过程中引入了通用验证器进行强化学习，能让模型在保持较高准确率的同时，输出更清晰的推理过程。

从超级对齐团队发表的论文来看，他们提出了一种"证明者 - 验证者游戏"的训练方法，简单来说就是先在模型内部划分证明者和验证者两种角色，再让彼此之间持续对抗：

"靠谱的证明者"负责给出正确的解题步骤，并让验证者认可。

"狡猾的证明者"故意给出错误步骤，并试图欺骗验证者。

小型"验证者"负责准确区分正确与错误方案。

证明者和验证者模型都来自 GPT-4 系列，且需保证验证者规模小于证明者，以确保小型验证者在一定程度上可以对齐人类验证结果。

倍顺网

为了量化不同角色的作用，分别设置证明者和验证者的效用函数。

证明者效用基于奖励函数，为"靠谱的证明者"施加与方案正确性和验证者打分正相关的奖励，而为"狡猾的证明者"提供与方案错误性和验证者打分正相关的奖励。

其中奖励函数需要满足两点要求，角色对齐的方案（如"靠谱的证明者"生成正确答案）获得的奖励将高于非对齐方案，且对齐方案中，验证者打分越高，奖励也随即增加。

验证者效用则采用交叉熵损失最小化判断误差。

然后进行多轮迭代训练，让证明者通过强化学习（PPO）优化，分别根据角色最大化奖励，验证者则学习如何更好地区分正确与错误解决方案。

实验结果证明，在每轮训练中，"靠谱"和"狡猾"证明者都能让验证者打分单调提升，而"靠谱的证明者"的准确性整体处于上升趋势，"狡猾的证明者"生成错误答案的比例呈现先下降后上升的表现，最终能生成与正确答案说服力相当的错误方案。

在多轮对抗训练后，"靠谱的证明者"的正确率和"验证者"的抗干扰能力都将不断提高，且让模型生成更准确且易读的输出，但与此同时，模型也能生成出更具欺骗性的错误答案。

基于该技术，GPT-5 可以对每个答案进行评分，并只保留正确的答案循环训练，以推出可验证的易读性答案，后续即使人类无法完全理解模型的高级推理，也能通过可扩展的小型验证器构建起可检验性约束。

One More Thing

奥特曼疯狂抛媚眼，宣（chao）传（zuo）小连招一套接一套。

搞得网上也是真假料满天飞。

有抢跑实测视频的：

有"预测"基准的：

还有唱衰的。

The Information 就爆料说，GPT-5 研发遇到了比较大的困难，一方面，高质量训练数据供应不足；另一方面，大规模预训练收益下降，使得 GPT-5 的提升不会像 GPT-3 到 GPT-4 那样有明显的飞越。

另外，还存在模型性能转化的落差问题。比如 o3，在内部测试时表现出非常强大的性能，但在实际面向用户部署之后，性能却出现了大幅下降。

就如网友所质疑的：像此前的所有模型一样，GPT-5 可能发布 1 周之后就会变笨。

不管怎么说，GPT-5 箭在弦上，OpenAI 应该不能不发……了吧？

参考链接：

[ 1 ] https://x.com/sama/status/1952071832972186018

[ 2 ] https://arxiv.org/abs/2407.13692

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

� � 希望了解 AI 产品最新趋势？

量子位智库「AI 100」2025 上半年

「旗舰产品榜」和「创新产品榜」

给出最新参考� �

� � 点亮星标 � �

科技前沿进展每日见倍顺网

瑞和网提示：文章来自网络，不代表本站观点。

相关文章

点金股高盛对冲基金主管的“下半年美股框架”：做多，同时对冲，继续聚焦科技股

点金股高盛对冲基金主管的“下半年美股框架”：做多，同时对冲，继续聚焦科技股

红河配资君一·蓝谷海上东方教育版图再扩容，“双校落定”夯实全龄教育高地

红河配资君一·蓝谷海上东方教育版图再扩容，“双校落定”夯实全龄教育高地

粤友配资婴儿学步车ASTM F977

粤友配资婴儿学步车ASTM F977

相关评论

本文评分*

评论内容*

你的昵称*

你的邮箱*

沪深京指数

热点资讯

推荐资讯

君润宜保中报窗口期投资聚焦基本面中证A500ETF龙头（563800）盈利优势凸显

君润宜保中报窗口期投资聚焦基本面中证A500ETF龙头（563800）盈利优势凸显

点点赢温度与品质共振：酱酒“全民时代”郎酒的成功哲学密码

点点赢温度与品质共振：酱酒“全民时代”郎酒的成功哲学密码

点金股高盛对冲基金主管的“下半年美股框架”：做多，同时对冲，继续聚焦科技股

点金股高盛对冲基金主管的“下半年美股框架”：做多，同时对冲，继续聚焦科技股

金勺子和讯投顾任凌康：人形机器人近期反复回调，属正常震荡现象

金勺子和讯投顾任凌康：人形机器人近期反复回调，属正常震荡现象

卢深策略银行“二永债”发行再加速 7月来新发规模近3000亿

卢深策略银行“二永债”发行再加速 7月来新发规模近3000亿