最近科技圈发生了一件打破常规的事，彻底改变了大众对人工智能的认知。过去，人们

最近科技圈发生了一件打破常规的事，彻底改变了大众对人工智能的认知。过去，人们普遍认为 AI 不过是高级搜索引擎或办公助手，问一句答一句，偶尔还会 "一本正经地胡说八道"。但近期 Anthropic 推出的 Claude Mythos 智能系统，在国际权威 AI 安全评估机构 METR 的测试中，直接把长期工作能力的测试成绩刷到天花板，甚至让现有考试标准都不够用了。用工厂干活打比方再贴切不过：以前的 AI 像刚进厂的学徒，只会完成明确、范围小的任务，比如拧紧某个螺丝或写几十行通用代码。但让它自己琢磨整个机器的组装图纸，就完全无从下手。后来 AI 进步到能在一两个小时内独立搭建小功能，大家都觉得这已是机器能力的极限。直到 METR 的全新测试出现，情况发生根本性变化。测试机构没有考短平快的选择题或简单数学题，而是安排了极其复杂的真实工程任务 —— 难度相当于资深软件工程师不吃不喝连续高度集中精力工作 16 小时才能完成。任务要求系统自己翻阅庞大杂乱的历史资料，理解软件底层结构，找问题、出方案、修改内容，运行报错后还要自己找漏洞修复，全程无需人工干预。结果令人意外：Claude Mythos 不仅顺利完成流程，独立工作能力完全达到 16 小时复杂任务的及格线以上。这里必须说明，不是系统极限只能干 16 小时，而是 METR 目前能设计的最难、时间跨度最长的真实测试任务就是人类工作 16 小时的量。也就是说，不是机器能力到头了，而是人类出的卷子已经不够难，现有考试框架根本测不出它到底能独立干多久的活。这件事释放的信号很明确：机器只能当辅助工具的时代正在过去，它正从需要人时刻盯着的帮手，进化成能独立思考、连续干活、自己解决麻烦的数字员工。过去二三十年，互联网让信息传递飞快，打破了距离限制；而现在这股新浪潮，正在改变人类脑力劳动的模式。首当其冲受影响的，是靠基础逻辑和编写代码拿高薪的人群。以前程序员用智能编程工具，好比人开车、工具是导航仪，工程思路和架构靠人主导，工具只帮忙补全代码、查语法错误。现在，工具已具备自动驾驶能力，能自己规划路线并开到目的地。可以预见，未来软件开发或标准化功能迭代工作，很大一部分会交给智能系统完成。企业可能不需要庞大的基础开发团队，只需保留几位懂业务逻辑、把控整体架构的核心技术人员，带着一群智能数字员工就能完成以前几十人甚至上百人的研发任务。整个行业的人才需求和结构，必然面临巨大调整。网络安全领域也在经历同样巨变。以前企业排查网络安全隐患，要花大价钱请专业团队，耗费几周时间一点点测试摸排。现在借助能长期自主工作的智能工具，不仅能大幅缩短检查时间，还能扩大排查范围，找出隐藏很深的漏洞逻辑，甚至帮安全人员梳理攻击路线。从宏观层面看，这也是一场关乎未来发展主动权的技术比拼。现代社会运转全都建立在网络基础之上。如果海外技术能用高度自主的智能系统实现自动化网络攻防，而我们还靠传统人力排查，效率上会出现极大落差。因此国内科技企业正拼尽全力攻克长周期自主执行任务的核心技术，这已不只是做生意赚钱，而是为了建立未来科技发展的安全防御体系，保住全球科技竞争中的位置。这种技术趋势也带来全新视角：未来教育和人才培养方向必须改变。如果机器已能把死记硬背的规则、基础编写工作做得又快又好，再花大量时间教年轻人背诵代码公式，就如同现在教人用算盘一样不合时宜。未来的核心竞争力，不再是会多少种编程语言，而是懂得如何向机器提正确问题、设计符合实际需求的大框架，以及驾驭这些聪明工具。当然，没必要跟着网上夸张说法恐慌。有些言论把技术突破说成外星文明降临或机器即将觉醒统治世界，完全脱离实际。客观来看，哪怕最顶级的智能系统也还是工具，依然会犯低级错误，在常识方面有很大缺失，根本无法真正理解真实物理世界，距离拥有人类意识还差得十万八千里。我们要警惕的不是机器立刻变得无所不能，而是工作模式正在发生的本质改变。技术进步不会因担忧而停止，它会让演进效率大幅提升。闭上眼睛不看或抵制都没用。在职场上，真正淘汰人的从来不是新技术，而是能熟练掌握新技术、快速适应新工作模式的同行。未来社会，数字化变革会渗透到各行各业，全球产业布局和职业分工都会被重新洗牌。这是从制造工具到给机器赋予一定智力的巨大跨越。对于普通从业者来说，固守旧方式肯定会感受到巨大生存压力。但在机器可承担大量重复性脑力劳动的时代，如何从埋头干活的执行者，升级成把控全局、驾驭工具的核心决策者，是每一个身处时代洪流中的人，现在最应该停下来仔细想想的问题。信息来源：METR 官方博客

最近科技圈发生了一件打破常规的事，彻底改变了大众对人工智能的认知。 过去，人们

最近科技圈发生了一件打破常规的事，彻底改变了大众对人工智能的认知。过去，人们