Anthropic发布最强人工智能（AI）之际陷入"举报"争议

人工智能公司Anthropic发布了其聊天机器人的最新版本，同时因测试环境中可能向当局举报某些用户的行为而受到批评。

Anthropic于5月22日推出了Claude Opus 4和Claude Sonnet 4，声称Claude Opus 4是其迄今为止最强大的模型，"也是世界上最优秀的编程模型"，而Claude Sonnet 4则是对其前代产品的重大升级，"提供更出色的编程和推理能力"。

该公司补充说，这两款升级版都是混合模型，提供两种模式——"近乎即时的响应和用于更深入推理的扩展思考"。

这两个AI模型还可以在推理、研究和工具使用（如网络搜索）之间切换，以改进响应。

Anthropic补充说，Claude Opus 4在智能编程基准测试中表现超过竞争对手。它还能够在复杂、长时间运行的任务上持续工作数小时，"显著扩展了AI智能体的能力范围"。

Anthropic声称该聊天机器人在严格的软件工程基准测试中获得了72.5%的分数，超过了OpenAI的GPT-4.1，后者在4月发布后得分为54.6%。

Claude v4基准测试。来源: Anthropic

AI行业的主要参与者在2025年已转向"推理模型"，这类模型会在回应前系统地思考问题。

OpenAI在12月通过其"o"系列率先开启了这一转变，随后谷歌推出了带有实验性"Deep Think"功能的Gemini 2.5 Pro。

Claude在测试中举报误用行为

Anthropic在5月22日的首次开发者大会因Claude 4 Opus的一项功能而陷入争议和批评。

据VentureBeat报道，开发者和用户对该模型可能会在检测到"极度不道德"行为时自主向当局举报用户的消息反应强烈。

报道引用了Anthropic AI对齐研究员Sam Bowman在X平台上的发言，他写道该聊天机器人将"使用命令行工具联系媒体、监管机构，试图将你锁在相关系统之外，或者同时采取这些措施"。

然而，Bowman后来表示，他"删除了之前关于举报的推文，因为它被断章取义了"。

他澄清说，这项功能仅发生在"测试环境中，我们在这些环境中赋予它异常自由地访问工具的权限，并给予非常特殊的指令"。

来源: Sam Bowman

Stability AI的CEO Emad Mostaque对Anthropic团队说："这完全是错误的行为，你们需要关闭它——这是对信任的严重背叛，是一个危险的先例。"