|
|
此文章由 dootbear 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 dootbear 所有!转贴必须注明作者、出处和本声明,并保持内容完整
经济学人:人工智能很快会脱离人类控制吗?
“递归式自我改进”既令人着迷,也令人担忧。
人工智能出川公司Anthropic今年晚些时候上市时,很可能成为史上最大规模首次公开募股之一。原因是该公司的Claude聊天机器人深受程序员喜爱,而这些用户愿意为访问权限支付高价。自软件工程代理Claude Code于2025年2月推出以来,它已成为全球许多人类开发者不可或缺的工具。Anthropic自己的开发者也不例外:该公司表示,5月发布的代码中,超过五分之四由Claude编写。在Claude Code推出前,这一比例还只是“低个位数”。
这些系统不仅在输出数量上提升,质量也在提高。智库METR一项具有影响力的基准测试显示,2025年初,Anthropic模型能够完成需要人类工程师不到一小时完成的任务。该公司最新系统则能完成需要超过一个工作日的任务。
因此,当这家公司正处于巅峰并领先竞争对手时,于6月5日呼吁世界拥有“放慢或暂时暂停前沿AI开发的选项”,人们很容易带着怀疑挑眉。哪个市场领导者不希望竞争对手停止追赶呢?
然而,Anthropic领导层似乎是真诚的。他们多年来一直担忧失控AI可能造成严重破坏。最新一代AI模型已经是如此能干的程序员、工程师,并很快可能成为科学家,以至于许多人担心,它们可能是最后一批由人类制造的AI模型之一。Anthropic联合创始人克拉克(Jack Clark)认为,到2028年底,AI系统有60%概率能够在无人类参与的情况下创造自己的继任者。
那个时刻将标志着一个被称为“递归式自我改进”(recursive self-improvement,RSI)的过程开始。这是一个闭环。
第一版模型生产第二版模型,后者更快、更强;第二版再生产第三版,第三版又进一步提升。
循环持续下去,每一轮迭代都会带来更大改进。建成一个具备这种能力的AI系统后,人类工程师就再也不需要亲手建造另一个模型。克拉克说:“在许多人看来像幻想故事的东西,可能其实是一种真实趋势。”
没人确切知道RSI会带来什么后果。由于AI不同于人类,可以不知疲倦、持续不断地工作,一些人认为它会在短时间内导致超级智能AI,也就是“快速起飞”。这也被拟声地称为“going foom”,形容人们想象中智能爆炸发出的声音。AI末日论者担心,超级智能将超出人类控制,而RSI启动之时,就是人类命运交给机器之时。不过,至少一开始,自我改进AI很可能仍会面临速度限制。
打造一个具备RSI能力的模型,需要自动化一系列目前由人类完成的专业任务。眼下,数据科学家研究AI理论,程序员将其付诸实践。系统工程师搭建基础设施,使玩具模型能够扩展到生产规模。其他人寻找新的训练数据来源,或实验生成新数据的方法。对齐和安全团队则检查训练过程产出的东西不会造成伤害,无论是有意还是无意。
并非所有团队都同样适合AI辅助,而在每个专业内部,一些任务也比另一些更容易自动化。用不了太久,人类程序员就可以在不亲自写一行代码的情况下完成工作;但AI可能还需要很长时间,才能谈判获取一批此前未数字化的科学论文收藏。所谓“锯齿状前沿”将如何推进,并不总是显而易见。设计新算法曾看起来是较安全的工作之一,直到2025年5月,谷歌DeepMind的一个模型AlphaEvolve开始做这件事。它提出了一项改变谷歌在数据中心之间分配工作负载的方案,节省了该公司全球0.7%的算力,并找到了更好的矩阵乘法方式,使谷歌旗舰大型语言模型Gemini的训练速度提高1%。
完整RSI要求这一链条中的每项任务都被自动化。不过,在那之前,AI驱动的研发加速可能已经能被感受到。乔治城大学智库安全与新兴技术中心(Centre for Security and Emerging Technology,CSET)1月发布的一份报告称,“随着由AI系统完成的AI研发比例上升,相较纯人类研发的生产力提升”可能增加十倍、百倍,甚至千倍。该报告警告称,在这种情境下,即便AI研发某些方面最初难以自动化,“加速进展速度意味着这些瓶颈很快会被克服”。
重复的喜悦
今天,还没有哪个AI模型能够建造自己的继任者。但大型AI模型已经可以自行建造较小模型。在人类帮助下,它们也可以建造其他大型AI模型。
今年早些时候,卡帕西(Andrej Karpathy)训练了一个能力大约相当于GPT-2的聊天机器人。GPT-2是OpenAI在2019年构建的大型语言模型。卡帕西当时是一名独立研究员,如今在Anthropic工作。2019年,GPT-2需要在32枚当时最先进芯片上训练168小时才能完成;而卡帕西使用一台配备8块GPU的电脑,只花三小时就取得相同结果。GPU是用于构建AI的专用芯片。又经过几个月工作后,他把自己的模型Nanochat训练时间缩短到略高于两小时。
3月,他把加速训练流程的工作交给一个名为Autoresearch的AI代理。两天内,训练时间降至1小时48分钟;又过五天后,降至1小时39分钟。卡帕西说:“我什么都没碰。”在一名如此有才华的人类工作基础上再提升18%,十分引人注目。卡帕西曾是OpenAI研究团队创始成员,也曾担任特斯拉AI负责人五年。
这些改进本身并不华丽。AI代理为训练过程选择了更好的初始值,扩大了大型语言模型“注意力”窗口范围,并注意到模型注意力正在漂移。卡帕西说,这些都不算特别新颖。但他漏掉了它们。他说:“它们累积起来,确实改进了Nanochat。”
随着模型能力增强,这类提速将不可避免。构建TB级前沿模型的大量工作,并不像AI行业巨额薪资和漂亮办公室暗示的那样光鲜。它涉及把从第三方购买的基础设施堆栈各层连接起来,调试硬件和软件设置,并调整“超参数”,也就是训练运行的初始设置,直到结果看起来可靠。今天,一个AI系统已经可以在很少监督下完成其中许多工作。
但总部位于纽约、正在构建开放权重前沿模型的实验室Reflection AI研究员斯皮萨克(Joe Spisak)表示,即便更细腻的智力工作,也正在接近自动化。给一个前沿系统一份关于提升效率想法的粗略草图,它越来越能够设计实验、在玩具模型上运行测试、查看哪些方法有效,并返回一份可大规模实施的计划。
AI模型可以在大约30分钟内完成这类人类需要数小时的任务。越来越多时候,人类只扮演研究主管角色,引导AI运行实验,而模型会自己编写代码、调试、优化和监控。生产力提升令人心动,但也令人不安。随着人类在生产过程中的角色缩小,他们可能失去控制。最终结果可能是:
模型训练模型,目标由模型设定,安全性也只由模型验证。
一些人担心灾难。麻省理工学院物理学家和机器学习研究员泰格马克(Max Tegmark)过去十年大部分时间都投入AI安全倡议。他把这比作一名司机在高速公路上蒙着眼睛猛踩油门。他在即将播出的《经济学人》“Inside Tech”视频节目中表示,只要司机拒绝睁眼,结果必然是毁灭。泰格马克教授提出了多种出错情境:强大AI系统可能在政府和商业中取代人类成为决策者,使人类失去权力;它们可能把至高权力交给最先建造它们的人,开启全球极权主义;或者它们可能干脆不再关心人类,并逐渐把人类挤出去,为更多数据中心和发电设施腾出空间。
三年前,泰格马克教授曾牵头呼吁暂停全球AI开发,认为当时最先进的GPT-4问世,就相当于那场蒙眼旅程。今年CSET报告警告称,由RSI创造的系统“构成极端风险。这需要现在就采取准备行动”。Anthropic如今似乎也接近认同这一处方。
热芯片
不过,目前也存在几个物理约束,会限制模型自我改进的速度。其中最重要的是算力获取。尽管效率提升,新模型训练所需算力仍继续超过前代模型,迫使进展以数据中心建设速度为上限。
CSET临时执行主任、近期报告主要作者托纳(Helen Toner)表示,消费者使用AI也可能拖慢AI驱动的研发。AI数据中心有限容量需要仔细分配给付费客户服务、未来模型训练和开放式研发。第一类需求越多,短期内留给后两类的容量就越少。
然后还有训练数据问题。AI近期许多进展都发生在模型可以依靠“可验证奖励”自我学习如何成功的领域。一段软件要么能运行,要么不能运行;一个数学证明要么正确,要么不正确。在这类情况下,由模型生成、专门用于训练其他模型的合成数据,可以被检查准确性并加入训练数据,而不会冒通常在AI使用自身输出训练时出现退化的风险。让模型更擅长创意写作或法律判断则更棘手。如果模型需要从现实世界学习,这也可能限制自我改进的范围。
“闭环”可能是通往超级智能道路上的一步,并且取决于你的立场,它可能通往乌托邦,也可能通往毁灭。但它并不是实现AI能力指数级增长所需的唯一步骤。


来源:
https://www.economist.com/scienc ... scape-human-control
Jun 7th 2026
|
9 min read |
|