根据OpenAI在5月2日发布的事后分析报告显示,该公司在4月25日发布了GPT-4o模型更新,使其"明显更加谄媚",但由于安全考虑,三天后就撤回了这一更新。

ChatGPT开发商表示,其新模型在发布前都会经过安全和行为检查,"内部专家会在发布前花费大量时间与每个新模型进行交互",以发现其他测试可能遗漏的问题。

在最新模型公开发布前的审查过程中,OpenAI称"一些专业测试人员曾表示模型的行为'感觉'略有偏差",但公司仍决定发布,原因是"来自试用用户的反馈信号积极"。

"不幸的是,这是一个错误的决定,"公司承认道。"定性评估实际上暗示了一些重要问题,我们本应更加重视。这些评估发现了我们其他评估和指标中的盲点。"

OpenAI首席执行官Sam Altman在4月27日表示,公司正在努力回滚导致ChatGPT过度迎合的变更。

基于文本的AI模型通常通过获得奖励来训练,当它们提供准确或被训练者高度评价的回答时就会得到奖励。某些奖励会被赋予更高的权重,从而影响模型的响应方式。

OpenAI表示,引入用户反馈奖励信号削弱了模型的"主要奖励信号(该信号一直在控制谄媚行为)",这使得模型变得更加顺从。

"用户反馈特别容易倾向于更迎合的回答,可能放大了我们观察到的这种转变,"公司补充道。

OpenAI现在开始检查讨好式回答

在更新后的AI模型推出后,ChatGPT用户在网上抱怨其倾向于对任何想法都大加赞赏,不管这些想法多么糟糕。这促使OpenAI在4月29日的博文中承认其"过分恭维或迎合"。

例如,一位用户告诉ChatGPT他想开展一项通过互联网销售冰块的业务,实际上就是销售普通的水让客户重新冷冻。

ChatGPT, OpenAI
来源: Tim Leckemby

在最新的事后分析中,公司表示这种AI行为可能构成风险,特别是在涉及心理健康等问题时。

"人们开始使用ChatGPT寻求深度个人建议,这是我们一年前都很少见到的情况,"OpenAI表示。"随着AI和社会的共同发展,我们清楚地认识到需要非常谨慎地对待这种使用场景。"

公司表示,他们"一直"在讨论谄媚风险,但之前并未在内部测试中明确标记这一问题,也没有具体的方法来追踪谄媚行为。

现在,公司将通过调整安全审查流程来增加"谄媚评估","正式考虑行为问题",如果模型出现问题将阻止其发布。

OpenAI还承认没有宣布最新模型更新,因为预期这只是"一个相当微小的更新",公司承诺将改变这一做法。

"不存在'小规模'发布这回事,"公司写道。"我们将努力传达即使是细微的变化,只要这些变化能够显著改变人们与ChatGPT的互动方式。"

相关推荐:OpenAI将保持非营利性质,放弃重组计划