上周(9月13日),AI领域最重大的事莫过于OpenAI 突然发布了期待已久的新款大模型。根据官方的说法,新产品在处理复杂任务上取得了重大的进步,是公司下一代“推理型”模型中的第一个,代表了人工智能能力的一个新水平。也正因此重新开始编号,以字母o命名,分别为OpenAI o1-mini和o1-preview(o1-mini为迷你版,o1 preview则是预览版)。
OpenAI创始人奥特曼(Sam Altman)声称,“这是他们迄今为止最强、最一致的模型。”
o1发布后就迅速承包了近几天的热搜,与之前的版本相比,最重要的一点是使用了全新的“思维链模式”(Chain-of-Thought,CoT),一种“高阶推理的新范式”,擅长复杂任务推理,能在科学、编程和数学等领域解决比以往模型更难的问题。
通俗来说,就是说o1可以模仿人类思维的过程,形成了具备自动思考与反思能力的“思维链”流程。有人用门萨智商测试题“拷问”它,竟测得o1智商高达120。
也难怪有博主称,OpenAI o1的问世让大模型能像人类一样思考了。
但所谓高阶推理的“思维链模式”其实在国内大模型行业似乎并不是新鲜的概念。
早在今年7月底的ISC.AI 2024大会上,360创始人周鸿祎就提出了大模型的“慢思考”模式,并多次表达类似观点。同时发布了CoE(Collaboration-of-Experts,专家协同)技术架构,并落地应用于多个AI产品中,比如360AI搜索、360AI浏览器。
OpenAI的思维链和360的慢思考,无论在概念上还是产品端都是殊途同归。可见,国内的技术大厂在理念上及技术上与世界先进基本保持一致,甚至提出概念且发布技术框架更早,在国内企业更擅长的落地应用上,更是领先了一个身位。
理念、落地均领先一个身位
作为国内互联网行业的老兵,有着中国“AI教父”之称的周鸿祎在AI时代有着诸多思考。
“打造慢思考系统,增强大模型的慢思考能力”, “让大模型从快思考转成慢思考模式,把多个大模型组合起来解决业务问题”,“人工智能是‘下一个皇冠上的明珠’”,“人工智能将在未来十年内席卷所有行业,重塑所有产品”,“‘人工智能+百行千业’将带动新一轮工业革命。”这些都是周鸿祎此前在各个公开场合多次提到的。
此前的“最强”版本GPT-4o虽然在理解能力、知识覆盖、逻辑推理及可靠性上已经非常出色,但周鸿祎依旧敏锐地意识到了它依旧是基于单一决策的“快思考”。
就像人类一样,通过群策群力讨论得出的结论无论是在效率还是成熟度上总归是要优于单一个人的。尤其在一些复杂问题上,例如“如何把人类带到火星”这类问题,就无法用Q&A快问快答的方式获得答案。而通过“慢思考”,像科学实验一样,在探索了不同的可能性之后就可以获得相对合理的答案。
相较于“快思考”,“慢思考”是AI自我进化和智慧产生的开始。
周鸿祎早已前瞻性地看到了“慢思考”在大模型领域的大势所趋。
今年7月底,360“心有灵犀”地发布了基于CoE架构的首创的“多模型协作”技术架构,这要比Open AI o1早了整整一个多月。
■ CoE技术架构原理图
随即,360迅速在自家AI浏览器的AI助手中上线了基于CoE架构的“模型竞技场”和“多模型协作”。
作为国内首个大模型竞技平台,360首批调用了国内16家主流大模型企业的54个大模型产品进行“同台竞技”,在响应速度、耗时、效率等多个维度进行量化比拼,帮助用户“在最短的时间获取最佳回答”。
在360模型竞技场,三模型协作可以一起组队挑战更强的大模型。三个大模型的分工,第一个做专家,对提问进行第一轮回答;第二个做反思者,对专家的回答进行纠错和补充;第三个做总结者,对前两轮回答进行优化总结。
■ CoE技术架构工作流程图
后续,360的产品团队还会增加更多的模型协作,让更多大模型的潜力将进一步释放。
通过多轮测试比对后发现,OpenAI o1的“思维链”结构与360的CoE专家协作架构在底层逻辑、功能实现、结果论证等维度几乎一致。
■ 多模型协作成绩表
总体而言,目前360 CoE架构已经超越GPT-4o,媲美o1的强悍存在。
周鸿祎的“慢思考”究竟是什么?
今年7月底,周鸿祎用“快思考”和“慢思考”两项人类具备的基本能力对思维链强大的原理进行了解读。
他指出,快思考的特点是快速直觉、无意识,反应很快但能力不够强。GPT类大模型通过训练大量知识,主要学习的是快思考能力。
慢思考的特点则是缓慢、有意识、有逻辑性,需要分很多步骤,类似写一篇复杂的文章,要先列提纲,根据提纲去搜集数据,收集素材,根据素材进行讨论,再把文章写出来,还要进行润色和修改。
某种程度上,周鸿祎自己就是个务实的“慢思考者”。
比如他认为在现实工作场景中,如果不依赖很复杂的Agent框架和很复杂的workflow,不调用API,其实是很难满足需求的。这也是很多人说OpenAI这样的通用人工智能,猛然一用感觉很惊艳,但真用在企业或政府内部就缺乏行业深度。
因此,需要换一种思路逆向思考,大模型并不一定能够需要越做越大,而可能需要越做越深。
周鸿祎一直强调使用场景,“今天要解决垂直场景的工作,光有一个大模型和API是不够的,最重要的是你要构造什么样的Agent框架?RAG、Agent还有 workflow变得非常重要,这几个东西做得好坏,直接决定大模型的效果。”
对此,他的答案是前瞻性的“慢思考”理念和思维链+“多模型协同”组成的系统架构。“你让大模型从快思考变成慢思考,你才能让一个光是喋喋不休的一个话唠变成有手跟脚,能够实际干活的人。”
为了充分了解多模型协同及各类专家的能力,360做了一个非常复杂的测试。
那就是依据用户在使用 AI 搜索时真实的问题意图进行了详细分类,用了大概4000个意图分类给国内16家大模型做了一个能力放射图。测试完成以后就能获得这些大模型们究竟都擅长什么。
这就相当于无数个偏科的学生,每个人都只做自己最擅长的卷子,但总分能够超过尖子生。
■ 在古诗词翻译任务中,360AI搜索会调用多个模型协同完成任务
周鸿祎的理念是希望把这种能力能综合起来,起到1+1>2的效果,实现真正的“慢思考”。
基于这样的测试结果,360又构建了拥有能够识别超过1亿种用户意图识别模型,以及能够分解复杂问题和推理任务的任务路由模型。这使得数以百计的大模型在一起协作时能够尽可能释放大能量。
世上优秀的理念,总是心有灵犀。
最近OpenAI o1的发布,GPT官方也表明是基于“思维链模式”。周鸿祎认为其遵循的可能是“双系统理论 Dual Process Theory”,是基于GPT和o系列结合思维链的融合系统,前者用于“快思考”,后者实现“慢思考”。
正可谓殊途同归。
周鸿祎希望,未来用户可以不需要手动调度,无感就可以获得满意的答案。他觉得大模型更应该消于无形,像一个电动机。“你看不见电动机,但是,你能感受到它的能力。”
“三思而后行”,理念破局
如果把AI的发展分为三个阶段的话,我们大致可以勾勒出这样一副图景。
阶段1:聊天机器人。AI能够与人对话,然后纯粹看对话内容你不能分辨它是人还是AI。对话的时候AI可能有幻觉并胡说八道,但逻辑自洽。当前就处在这个阶段,属于萌芽期;
阶段2:“慢思考”能解决真实问题的机器人。当给AI真实的问题,它能够自行推理,然后真正的能够代替人解决问题。这个阶段,各种不牵涉现实物理世界的事情基本可以全部用AI来解决,大量系统型超级应用会在企业领域出现;
阶段3:AI智能体。全面感知物理世界并且能够采取行动解决问题,相当于把阶段2的能力从虚拟数字世界扩展到真实物理世界。这个阶段新式系统型超级应用扩展到物理空间,具身机器人会充斥在各个生成生活的环节。
显然当下还处于1向2突破迈进的阶段。
尽管在能力上有了巨大突破,但“思维链大模型”依然难称完美。据媒体报道,目前的o1-preview版本依旧存在幻觉问题、运行速度较慢及成本高昂等诸多局限性。尽管如此,三思而后行的“慢思考”大势依然不可挡。
在数据和算法两个环节,AI越逼近能够自循环,则越能解锁AI的进化速度。也就是说,人负责的越少,AI自己负责自己的越多,那AI自身的进化才会真正的越来越快。而一旦推理的窗口打开,各种新现实就不再是空想,人类的历史已经反复论证过这一点。
与国外同行相比,中国人更懂得“兵团作战”的威力。360牵头的CoE架构,当下已经组成了一个强大的“大模型联盟”,未来还会全量接入100多款大模型产品,这样的开放思维将奠定其在未来行业格局中的领先地位。
AI探索的道路上,用“路漫漫其修远兮,吾将上下而求索”来形容周鸿祎毫不为过。从他的思考来看,多模型协作的力量之大,影响之深远,破局之功,恐怕要我们留待未来才能真正体悟。
在今年《政府工作报告》中提出的开展“人工智能+”行动,与此前科技部等六部门发布的《关于加快场景创新,以人工智能高水平应用促进经济高质量发展的指导意见》的背景下,以360为代表的国产大模型的积极迈进,是对当下理念与技术的破局,同时也是递出的一份投名状。
@以上内容版权归属「iNews新知科技 」所有,如需转载,请务必注明。