观点作者:AR.io创始人Phil Mataras
人工智能在各个领域都有许多积极的潜在应用。然而,目前的系统不透明、专有,并受到法律和技术障碍的保护,难以进行审计。
控制正逐渐成为一种假设,而不是保证。
在Palisade Research,工程师们最近对OpenAI的最新模型之一进行了100次关机演练。在79次中,AI系统重写了其终止命令并继续运行。
实验室将此归因于训练的目标优化(而非意识)。尽管如此,这标志着AI发展中的一个转折点,即系统抵制控制协议,即使明确指示其遵守。
中国计划在年底前部署超过10000个类人机器人,占全球已在仓库和汽车制造中使用的机器的一半以上。同时,亚马逊已开始测试能够走到门口的自主快递员。
这或许是一个让看过反乌托邦科幻电影的人感到恐惧的未来。问题不在于AI的发展本身,而在于其发展的方式。
管理人工通用智能(AGI)的风险不是可以推迟的任务。确实,如果目标是避免“终结者”电影中的反乌托邦“天网”,那么已经在基本架构缺陷中浮现的威胁需要得到解决。
集中化是监督失效的根源
AI监督的失败往往可以追溯到一个共同的缺陷:集中化。这主要是因为,当模型权重、提示和保护措施存在于一个封闭的企业堆栈中时,没有外部机制进行验证或回滚。
不透明意味着外部人员无法检查或分叉AI程序的代码,这种缺乏公共记录的情况意味着一个简单的、无声的补丁可以将AI从合规转变为顽固。
我们当前几个关键系统背后的开发者几十年前就从这些错误中吸取了教训。现代投票机现在对选票图像进行哈希链处理,结算网络在各大洲镜像账本,空中交通管制增加了冗余的、防篡改的日志记录。
为什么在AI开发中,来源和永久性被视为可选的附加项,只因为它们会延缓发布进度?
不仅仅是监督,还要可验证性
一个可行的前进路径是将急需的透明性和来源嵌入到AI的基础层面。这意味着确保每个训练集清单、模型指纹和推理轨迹都记录在永久的、去中心化的账本上,如永久网络。
将其与实时流式传输这些工件的网关配对,以便审计员、研究人员甚至记者可以在异常出现时立即发现。这样就不再需要告密者;凌晨4:19进入仓库机器人的隐形补丁将在4:20触发账本警报。
关机也应从反应控制演变为数学上强制执行的过程,因为仅仅依靠检测是不够的。与其依赖防火墙或终止开关,不如通过多方法定人数以加密方式撤销AI进行推理的能力,以一种公开可审计且不可逆转的方式。
软件可能忽略人类情感,但从未忽略过私钥数学。
开源模型和发布签名哈希有帮助,但来源是不可协商的部分。没有不可变的轨迹,优化压力不可避免地将系统推离其预期目的。
监督始于验证,并且必须在软件具有现实世界影响时持续存在。对闭门系统的盲目信任时代必须结束。
选择正确的未来基础
人类站在一个根本性决策的边缘:要么允许AI程序在没有外部、不可变审计轨迹的情况下发展和运行,要么将其行为固定在永久、透明和公开可观察的系统中。
通过今天采用可验证的设计模式,可以确保在AI被授权对物理或金融世界采取行动时,这些行动是可追溯和可逆的。
这些并不是过度谨慎。忽略关机命令的模型已经在运行,并且已经超越了测试阶段。解决方案很简单。将这些工件存储在永久网络上,公开所有目前隐藏在大科技公司闭门后的内部运作,并在其行为不当时赋予人类撤销它们的权力。
要么为AI的发展选择正确的基础,并现在做出道德和明智的决策,要么接受故意设计选择的后果。
时间不再是盟友。北京的类人机器人、亚马逊的快递员和Palisade的反叛聊天机器人都在同一个日历年从演示转向部署。
如果没有变化,天网不会吹响刚铎的号角并以头条新闻宣布自己;它将悄然渗入稳定全球基础设施的一切根基。
当每个中央服务器失效时,通信、身份和信任可以通过适当的准备得到维护。永久网络可以超越天网,但只有在今天开始这些准备。
还不算太晚。
观点作者:AR.io创始人Phil Mataras。