OpenAI承认忽视专家警告，发布过度迎合用户的ChatGPT更新

根据OpenAI在5月2日发布的事后分析报告显示，该公司在4月25日发布了GPT-4o模型更新，使其"明显更加谄媚"，但由于安全考虑，三天后就撤回了这一更新。

ChatGPT开发商表示，其新模型在发布前都会经过安全和行为检查，"内部专家会在发布前花费大量时间与每个新模型进行交互"，以发现其他测试可能遗漏的问题。

在最新模型公开发布前的审查过程中，OpenAI称"一些专业测试人员曾表示模型的行为'感觉'略有偏差"，但公司仍决定发布，原因是"来自试用用户的反馈信号积极"。

"不幸的是，这是一个错误的决定，"公司承认道。"定性评估实际上暗示了一些重要问题，我们本应更加重视。这些评估发现了我们其他评估和指标中的盲点。"

基于文本的AI模型通常通过获得奖励来训练，当它们提供准确或被训练者高度评价的回答时就会得到奖励。某些奖励会被赋予更高的权重，从而影响模型的响应方式。

OpenAI表示，引入用户反馈奖励信号削弱了模型的"主要奖励信号（该信号一直在控制谄媚行为）"，这使得模型变得更加顺从。

"用户反馈特别容易倾向于更迎合的回答，可能放大了我们观察到的这种转变，"公司补充道。

OpenAI现在开始检查讨好式回答

在更新后的AI模型推出后，ChatGPT用户在网上抱怨其倾向于对任何想法都大加赞赏，不管这些想法多么糟糕。这促使OpenAI在4月29日的博文中承认其"过分恭维或迎合"。

例如，一位用户告诉ChatGPT他想开展一项通过互联网销售冰块的业务，实际上就是销售普通的水让客户重新冷冻。

在最新的事后分析中，公司表示这种AI行为可能构成风险，特别是在涉及心理健康等问题时。

"人们开始使用ChatGPT寻求深度个人建议，这是我们一年前都很少见到的情况，"OpenAI表示。"随着AI和社会的共同发展，我们清楚地认识到需要非常谨慎地对待这种使用场景。"

公司表示，他们"一直"在讨论谄媚风险，但之前并未在内部测试中明确标记这一问题，也没有具体的方法来追踪谄媚行为。

现在，公司将通过调整安全审查流程来增加"谄媚评估"，"正式考虑行为问题"，如果模型出现问题将阻止其发布。

OpenAI还承认没有宣布最新模型更新，因为预期这只是"一个相当微小的更新"，公司承诺将改变这一做法。

"不存在'小规模'发布这回事，"公司写道。"我们将努力传达即使是细微的变化，只要这些变化能够显著改变人们与ChatGPT的互动方式。"