— 新闻中心 —

联系我们/ CONTACT US

全国免费客服电话 400-123-4567

永利yl23411集团-非同凡响USDT国际娱乐

邮箱：admin@youweb.com

手机：13800000000

电话：400-123-4567

地址：广东省广州市天河区88号

您的位置：首页 > 新闻中心 > 技术文献

技术文献

o1诞生对下一轮AI爆发的启示：技术远远没有收敛仍在演进丨智源Workshop精华观点回顾

发布时间：2024-10-17 13:33:43　人气：

　　首先，很多大模型的应用在实际落地的时候都需要提升效率，相关的研究场景包括：量化、模型压缩、prompt 压缩等。以推理场景为例，我们可以考虑是否每次推理都需要进行大量的思考■◆◆。对于工业应用来说★★■■，如果对每一个问题都进行大量的长 token 的计算，其开销和时间成本是难以承受的■■★。

　　作为 AI 前沿技术的从业者，我们应该保持对国际上最前沿技术突破的敏感性◆■★★，保持谦卑的态度★★★★◆，快速学习前人的重要经验，站在巨人的肩膀上，真正进入 AI 时代。这是过去几年探索的重要感受。我们应该认真去学习最前沿的技术，因为技术还远远没有收敛★◆★◆■◆，还在快速演进。在这个过程中■■，我们应该保持对前沿技术的尊重，因为掌握了前沿技术，就相当于掌握了比全人类更早五年掌握最前沿技术发展方向的能力，这对国家和社会都具有重要意义。我觉得★◆，我们需要再有五年甚至十年★★◆■■◆，甚至20年，才能一起见证 AGI 时代的变革。

　　此外★◆，如果我们提出性能近似于 o1的开源方案★■★■■◆。真的可以产生很大量的合成数据，但是我们应该如何让大模型或智能体具备自主更新的能力★■，即自己有这个能力去想去获取一些信息，然后去自己去提升自己的能力■■，而不是被动地接受信息。被动接受信号学习的模式是比较低效的。

　　刘知远：近几个月◆◆■★，产业界和学术界其实对大模型未来的发展其实都产生了一些困惑。很多推送的文章也都在质疑未来大模型还能再怎么发展★■★★★。我认为◆★，无论是从大模型的长远发展■■，还是从本身的学术贡献的角度来看，o1 都一个非常重要的突破。o1 代表着大模型具备了更强、更深的思考能力，是从 system 1 通往 system 2 的工作。我们希望大模型能够实现人类级别的更高的智能水平，面对更复杂、更开放、更困难的问题，通过更长时间的思考■★，找到这个相应的解决方案。

　　安波：在没有额外知识的情况下，为什么推理能够提升呢◆◆？实际上，在强化学习、马尔科夫决策等任务中，我们需要做规划■★◆■◆。而大语言模型生成 token 本身就是一个序列关系决策任务，如果我们能够看到未来的情况■■◆★，就可能会改变对当前 token的选择★◆◆★★■。推理对提升性能是会有帮助的。

　　张宁豫：我认同刘老师的观点，即世界模型的核心在于模型在执行任务时是否对该领域■■★◆、环境或任务本身有深入的理解◆★■◆◆◆。这背后的关键问题在于我们是否需要一个独立的模型来构建这个世界、环境或场景的模型◆■■，还是将这些元素整合到大模型中去◆◆■★■。这是一个开放性的问题。我个人认为 o1在 OpenAI 技术路线图中的第三层，也就是所谓的agent层。我好奇的是◆■★，这个agent将如何实现，它将呈现为何种形态■◆★■■◆？

　　从更建设性的角度来看，o1代表了对世界更深层次建模的能力★■■。它不仅包括物理世界，还包括代码、数学等抽象概念，这些都可以被视为一个系统，代表了对系统深层规律的认知。世界模型这个术语更多的是一种称呼，而不是一个具体的定义★★。

　　o1 的博客文章比较短，主要介绍了强化学习推理、私密思维链等技术★◆。这与我们团队之前的工作比较类似。OpenAI 并没有介绍介绍强化学习训练的具体细节。也许他们拥有更强的算力、更多的数据★■◆★◆■。也许通过人工标注数据提升了数据的质量■■◆。基于更大的算力，也许他们能够通过更大的树结构进行更深的推理，其推理效果也许会更好一些。未来。推理的基座模型★◆★、算法、在图上的推理还有很大的优化空间。

　　刘知远■★◆■■★：我们最近确实在关注高知识密度的端侧模型■◆■。从实践角度来看，我们认为决定模型知识密度有三个重要因素：模型架构、数据的数量和质量、数据到知识的转换效率（模型的成长规律）★■★◆★。

　　一个更令人担忧的问题是如何从基础层面上构建能够约束未来通用人工智能（AGI）的机制★◆◆。

　　我猜测，语言模型也好◆◆★■，智能体也好■■◆◆★◆，如果要持续提升■■★★★◆，应该需要一些外界的反馈■◆◆■★◆。如果纯靠语言模型自己提升■★★，可能最后会拟合到数据的极限上。

　　Q9：在模型架构改进上，我们是否会跳出大一统的 Transformer？

　　在接下来的这一段时间里面◆◆■★★，大家其实还是要去探索类似于o1这样的技术如何在数据合成、强化学习这些方面找到相应的解决方案■★。在训练的阶段◆◆■，我们要拉长每一个样例对信号的这个学习。到了推理阶段◆★，通过增加模型在推理时计算时间，让这个模型，不断搜索更多的解，然后找到较好的解决方案。可能的一个解决方案◆★■★★。这也应该与 in context learning■★★■、搜索算法等都可能有密切的关系。此外，为了实现深度思考，o1 内部可能包含多个智能体★■■★■，它们互相讨论得出结论。这也是一种可能的方案。

　　安波■◆◆■：我不认为 o1与世界模型有太大关系。我怀疑 o1是否有报道中那么重大的突破。之前大家的研究重点放在预训练、RLHF■■★★■。现在往后开始提升回答的能力，针对推理做一些研究，是一个很自然的步骤■★。

　　在这个过程中◆★◆■，存在两种情况。第一种情况是辅助模式，其中模型充当助手◆◆★，帮助人类解决问题。这种情况下可能存在安全隐患，但相对可控。第二种情况是完全自动化模式，此时的安全风险相对较高。这涉及到许多复杂的议题，甚至超越了计算机科学领域，还包括法律等问题★★■◆。

　　刘知远：至少从目前的表现来看■◆★◆，o1的学术价值远大于其商业价值。短期内，它在许多专业领域的应用可能难以显著发挥作用。面向未来★■★★，OpenAI 的应用更可能集中在科学探索、高技术和知识密度较高的领域。然而，这些领域的成功应用需要先构建相应的世界模型，这一过程并不简单◆★◆■。

　　浙江大学副教授◆★◆■■，浙江大学启真优秀青年学者，在高水平国际学术期刊和会议上发表多余篇论文★◆★，6篇入选Paper Digest高影响力论文，1篇被选为Nature子刊Featured Articles。主持国家自然科学基金、计算机学会、人工智能学会多个项目，获浙江省科技进步二等奖★◆■★，IJCKG最佳论文/提名2次◆■◆■，CCKS最佳论文奖1次, 担任ACL、EMNLP领域主席★■、ARR Action Editor、IJCAI 高级程序委员，主持开发大语言模型知识编辑工具EasyEdit (1.5k)。

　　针对数学、代码等形式化的语言，我们可以构建形式上被验证为基本物理定律的可靠的世界模型，可以形式化定义安全规范、并进行形式化验证（相关方法可参考 Leino★◆■, K. R★◆. M 的著作《Program Proofs》）★◆◆◆◆★。

　　计算机的发展历史中确实出现了巨型机和大规模集群，解决了诸如气象预测等复杂问题。然而，真正能够普惠每个用户的算力，是通过个人计算机◆★◆★★、笔记本和手机实现的。因此，未来的人工智能发展也应朝着普惠和高精尖两个方向并行。

　　Q3：o1的诞生是否代表大模型领域的研究范式迁移★■◆◆：从训练的 scaling law 走向推理的 scaling law 计算成本的增加。计算主要消耗在推理侧，性能增长也不再依靠参数量本身的增长。大家如何看待这一问题？

　　Q4：很多用户在实测 o1后给出了比较失望的评价，认为 o1对于很多问题的回答和 GPT-4o 差异并不大◆■★★◆◆，但训练成本却差了十倍◆★■■■，甚至更多。o1是否对于某些问题会过度思考？

　　付杰◆■★★：我一直在思考，如何定义推理（reasoning）。根据 subbarao kambhampati 的观点，我们理想中的推理，不仅仅是近似的只是检索，而是从第一性原理的最小集合出发，一步步将答案推理出来◆★★。所以我很好奇，如果 o1 只是大量地进行数据合成，之后将 system 2 蒸馏进了一个 system 1 的预言模型的范式，是否是我们想要的推理◆◆■◆。这可以类比于 Dale Schuurmans 在计算机科学领域提出的「用空间换时间」的思维◆■。如果加入了 COT 之后★◆★◆，就有了循环迭代的可能■★◆★■，其计算能力会得到加强。

　　Q7：o1的推理能力是否可以用在端侧设备上◆◆？高级规划和推理能力是否对于基础模型的能力是强依赖的？

　　我认为 OpenAI 此次发布 o1的主要目的是满足市场预期，展示其内部成果★■◆★。然而，如果 OpenAI 希望与 Google、苹果等科技巨头对标，它必须推出一个每个人都能使用且负担得起的普及型产品。目前 o1的状态显然无法实现这一目标，这是我的基本判断。

　　另一个问题是。o1 是否能够算作 system 2？如果是，它如何实现 system 2 和 system 1 之间的连接？以人脑威力，system 1/2 的信息处理速度有很大差异。system 1 每秒可以处理10^8 bit，而 system 2 每秒可以处理约 10 bit★★★■。从 system 1 到 system 2，处理信息就好比用吸管吸大坝里面的水。那么，如何从 system 1 中抽象出重要的符号，然后进行推理？

　　最近，我们团队也在思考怎么去提高大模型的推理效率★■■。在大模型领域也有很多团队在研究 LLM 的 Memory 机制。在我看来，人有长期的工作记忆■◆，包含了以往推理的经验、记忆、知识。如何结合记忆★◆■◆■■，实现更高效的推理，在遇到新场景时★◆◆◆■，如何高效地更新记忆◆■■，适配新的场景◆◆◆★★■，是一个非常重要的研究课题。

　　安波：这是个很有意义的问题，我们之前的工作也没有考虑过。我们是一直搜索到满意的解决方案为止■◆◆■◆■。实际上，当年的 AlphaGo 在做决策时■★■◆★★，有的决策需要十多分钟，而有的只需要一两秒。如何基于 token 中的概率信息或者 critic 的信息确定搜索的终点，利用合适的答案是很好的研究问题■★◆◆■◆。

　　David Kr uger 曾提出“危险曲线”（）的概念。在这个曲线中◆◆★◆，横轴代表社会对AI安全的投入，纵轴代表社会面临的AI风险系数。通常情况下，随着投入的增加◆★◆，社会的风险都会降低。但是■★，到达某个节点后，风险会突然急剧上升。尽管当前许多鲁棒AI系统，但它们并不能提供绝对的安全保证。

　　Q1：近期，OpenAI 发布了 o1 模型，标志着 AI 在处理高度复杂问题上又迈出了重要一步。根据官方介绍，这些模型在推理数学技能、投资者分析期权交易策略等特殊任务上表现出色。官方表示★◆■■，o1 的核心技术是强化学习和私密思维链◆★■。请各位专家首先谈谈对 o1 发布的看法，以及它对个人研究方向或工作的潜在影响■★★■■。

　　刘知远◆★★■：我认为大模型的浪潮始于2018年的 BERT 和 GPT◆★◆，当时我们称之为预训练模型◆◆■◆★。北京智源研究院在这个过程中扮演了国内非常重要的角色。任何一次大的技术突破，真正让社会各界感知到大概需要五年时间。深度学习大约在2010年技术相对成熟，直到2016年 AlphaGo 战胜人类围棋冠军，才让全社会认识到深度学习的强大。大模型技术在2018年初步成熟★■★◆，直到2022年底到2023年，整个社会才认识到大模型技术的重要突破。

　　Q11：很多 AI 安全的专家对于 o1模型感到非常的担忧★◆◆◆■，把 o1评级为具有中等风险的模型★■■★。如果被滥用后果会很严重。大家对此有何看法？

　　目前★◆，尽管一些研究者尝试通过固定问题和答案来搜索中间的证明步骤，但这种方法成本高昂■■★◆★。因此，我们可能需要等待数学证明的数据量积累到一定程度后，才能进行有效的初始化和后续训练。

　　针对上面的问题，也许我们需要跳脱出 o1 来思考。我一直怀疑 o1 所谓的推理是否真正有意义■★。人类的语言是一种非形式化的语言■★，我们很容易生成自然语言■◆◆★★◆，但是很难做验证◆■★。我们是否需要非常可信的信号来训练模型。或者改变目前的训练范式，更加注重合成数据■★◆■◆■，甚至在合成数据中不仅依赖于纯的自然语言★◆◆◆◆★，也可以将它变得更加形式化一些★◆★★，从而实现验证。这样也可能带来更好的安全性◆◆。

　　张宁豫◆★■■★■：部分观点认为 o1模型算是一个比较强的「理科生」。然而，在普通对话中，并不总是需要复杂的逻辑推理◆■★◆★。如何平衡训练阶段和测试阶段的 scaling law，以优化智能系统的设计★◆★★■，提升系统的效率■■，是未来研究的关键方向◆■■◆。

　　张宁豫：推理是相当人工智能领域中一项非常重要的任务。OpenAI 它把它的技术路线级上有重大突破■■■★◆。那么，o1 诞生后，我们还可以针对哪些场景开展研究■◆■？

　　安波◆■：OpenAI o1 近期引爆了学术界和工业界的讨论热情，各种关于 o1 的猜想层出不穷★◆◆◆。实际上 OpenAI 发布的关于 o1 的博客文章比较短，我认为有些猜想可能与真实情况差距比较远。

　　刘知远◆■：我整体不觉得这是一个范式迁移■★■■◆★，训练时的 scaling law 还会持续发挥作用，但是会达到新的高度。只是大家关注的重点可能会有所转移。我并不认为一个好的方案一定是对之前方案的一个否定■■，我觉得是相当于站在巨人的肩膀上，又往前走了坚实的一步。

　　数学语言是最为严谨和形式化的语言，其次是代码。在论文《Towards Guaranteed Safe AI: A Framework for Ensuring Robust and Reliable AI Systems》中，Yoshua Bengio 等人提出通过三个核心组件的相互作用来实现保证安全的人工智能：（1）世界模型◆★◆■★：提供数学描述（2）安全规范：数学描述可接受的结果（3）验证器：证明人工智能相对世界模型满足安全规范。

　　Q5：一些评论称，o1开辟了一条通向 AGI 的新路径，让大家对世界模型有更多的想象。大家对此有何看法？

　　此外，在 AlphaGo 的时代，我们已经知道可以用 self-play 等方式提升模型性能。然而，玩游戏的要求是最后收敛到一个均衡的策略■◆★，而这些方法在现在的大语言模型场景下不一定有效■■★◆■。此外，使用新的合成数据★◆★■◆■，是否能够训练出很强的大模型，我对此持有怀疑的态度。多个版本的大模型在交互过程中产生新的知识◆◆■，也许也是一种新的思路。

　　未来知识库是“ 欧米伽未来研究所”建立的在线知识库平台◆◆，收藏的资料范围包括人工智能、脑科学、互联网、超级智能，数智大脑、能源、军事★■★★■、经济、人类风险等等领域的前沿进展与未来趋势■◆★。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料◆◆◆◆■。

　　上月，智源社区组织了「智源Workshop★■：从o1出发，探索LLM推理与思维链」线上研讨会，邀请到多位一线模型研究者参会分享讨论（回放链接：） ■◆。精华观点如下■◆★◆：

　　刘知远：目前，我们显然还无法达到在端侧实现 o1。当前我们应该专注于提升复现其性能，沿着既定方向稳步前进。从长远来看，我们最近提出了一个观点：随着模型的更新和增大，其参数数量也随之增加■★■◆，从而能够容纳更多的知识。然而，我们认为未来的模型发展不应仅仅依赖于简单的规模扩张★★■■，而应更加重视改进模型的制造工艺。通过不断改进，我们可以在单位参数内放入更多的知识，持续提高模型的知识密度。在这一基础上，我们可以逐步增大模型规模◆★，增强其能力■◆。此外◆★■◆，o1给我们带来的一个重要启示是推理时计算的重要性。面向未来，我们一定会发展出能够在更短时间内、以更少的计算资源达到相同推理能力的模型。我相信未来一定能够在端侧实现更强的类似于 o1的能力。这只是一个时间问题◆■★■◆■。

　　目前，语言模型的资源消耗相对较高。此外■■，对于推理阶段的能力是否可预测，我一直保持好奇。对于复杂任务而言■★◆，资源消耗可能是必要的。但是，如果简单任务也需消耗大量资源，那么这种投入可能并不划算。

　　付杰：在我较早的研究中，大约在2019年，我进行了一些评估★★，旨在探究 BERT 模型是否能理解人类的社会价值观★◆★★★，这也算是早期的模型对齐研究。

　　付杰：几个月前■■★，我对利用语言模型进行数学证明的前景持乐观态度，认为可以通过随机生成的方式■★■◆★，让模型产生符合逻辑的证明◆★◆◆■。然而■◆★■◆，我后来意识到一个问题：如果没有良好的初始化★■★，类似于“猴子打印机”的随机过程可能永远无法生成一个有效的证明。

　　新加坡南洋理工大学校长委员会讲席教授和南洋理工大学人工智能研究院联席院长，于2011年在美国麻省大学Amherst分校获计算机科学博士学位◆◆★■■。主要研究领域包括人工智能、多智能体系统、算法博弈论、强化学习★★■■★★、及优化■◆◆■◆。有100余篇论文发表在人工智能领域的国际顶级会议上。曾获2010 IFAAMAS杰出博士论文奖、2011年美国海岸警卫队的卓越运营奖■★★★◆■、2012 AAMAS最佳应用论文奖◆◆★★、2016年IAAI创新应用论文奖★◆■■，2020 DAI最佳论文奖★■◆，2012年美国运筹学和管理学研究协会(INFORMS)Daniel H★■◆◆. Wagner杰出运筹学应用奖， 2018年南洋青年研究奖、以及2022年南洋研究奖等荣誉。

　　那么，所需的 token 和计算量是否可以被预测？实际上★■，大模型训练的 scaling law 告诉我们模型参数的规模与其性能存在一定的关系。因此，在现阶段■◆★■★，是否能够有一种公式■◆★，预测推理时需要使用多少资源来解决所面临的问题。

　　刘知远★★★■：在我看来■★◆★★，所谓的世界模型实际上代表了描述世界运行规律的基本公式。这些底层机制是理解世界运作的关键。利用大型模型进行世界模型的学习，实际上是从大量数据中提取和总结这些底层运行机制的过程■■◆★■★。这个过程类似于人类如何通过经验和观察来识别规律。只有通过识别这些规律，模型才能有效地验证每一个行为的反馈。从这个角度来看，世界模型的名称并不是最重要的，关键在于我们能否找到更深层次的运行规律和机制。

　　刘知远：我觉得世界模型本身也有狭义和广义之分。许多人可能会将世界模型理解为通过视觉构建的物理模型■◆■■，但这种理解是狭义的。实际上◆■，世界模型可以包括我们通过视觉感知的物理世界之外的微观和宏观层面。

　　张宁豫：如果我们要将这些模型或智能系统嵌入机器人中■■■◆★，或使其能够服务于人类■■◆，它们必须能够理解世界的运作方式。从这个角度来看，世界的规律不仅包括物理规律★◆，还包括空间上的诸多规律，这些规律对于智能系统来说极为重要。一个挑战是如何将这些规律以计算机可学习、可编码的方式整合到智能系统中◆◆■，使其能够理解这些规律。

　　张宁豫★■：AI 安全问题至关重要。随着大型模型和智能体等新技术的发展，这一领域将持续存在并发展。我们面临的挑战是如何开发更强大的模型，使其既能服务于实际应用，又能解决人类问题■■◆★★。

　　安波：就我个人更现实一些★★★■，我不太关心 system 1/2 到底做了什么，或者到底算不算推理（reasoning）。在生成答案的时候，你不仅仅需要看下一个 token，而是需要从更长远的角度看哪一个回答可能会更好一些★◆■。这就好比我们在做规划时，一个很好的规划和短视的决策的区别★◆。正因为如此★★■■◆，RL的好处就在于它能够从很长远的角度来看最优的决策是什么，这对推理而言是很有帮助的。未来★◆★，我们可以从各个角度全面提升大模型的能力◆◆■★。

　　在我看来，去年的 ChatGPT 更让大家觉得不知所措。它的效果太好了，那时而我们并不知道 OpenAI 到底通过哪些方式实现这样的性能★◆。通过一年的探索，研究人员掌握了一些 ChatGPT 和 GPT-4 的实现方式■■。我个人的感受是，学术界和开源社区可以猜测出可能的技术的方案或者路线★◆◆◆★★。相较于 ChatGPT，学术界应该会用更快的时间复现o1的效果，将推动该领域的研究更快发展。

　　清华大学计算机系副教授★■、博士生导师。主要研究方向为自然语言处理★◆◆■、知识图谱和社会计算。2011年获得清华大学博士学位★★★◆，已在ACL、EMNLP、IJCAI★■◆■◆、AAAI等人工智能领域的著名国际期刊和会议发表相关论文100余篇◆★◆，Google Scholar统计引用超过3万次。曾获教育部自然科学一等奖（第2完成人）、中国中文信息学会钱伟长中文信息处理科学技术奖一等奖（第2完成人）、中国中文信息学会汉王青年创新奖，入选国家青年人才、北京智源研究院青年科学家■★■★★■、2020年Elsevier中国高被引学者◆◆★■◆■、《麻省理工科技评论》中国区35岁以下科技创新35人榜单、中国科协青年人才托举工程★★★。

　　刘知远：要将这类技术转化为广泛使用的对话类产品，可能需要大约一年到一年半的时间■■★。无论是产业界还是学术界，国内都应该充分重视并学习国际领先机构创新技术。我们应该关注这些机构的长处，而不是过分关注他们目前存在的问题。这些问题在未来半年到一年内可以通过产品化和技术发展得到快速解决◆◆★■。我们应该站在巨人的肩膀上，迅速地进行探索和创新■■◆■。当别人已经掌握了深度思考的能力时■■，我们在做什么★◆★？

　　另外◆◆◆，并不是每个场景需要 system 2 的推理能力。其实★◆，system1/2 之间需要有机的切换的，模型需要能力自主做决策，决定进行多久的思考◆◆、检索■◆◆■，在何时调用工具。近期，我们团队构建了一个让模型自主切换检索和生成的框架，进行了初步的探索■◆★◆◆。在此类场景下■★■◆◆，效率是十分关键的。在实际任务中◆■■■◆■，如果能通过有限的 token 解决问题，价值才更大。

　　Q6：其它公司也表示正在研发的模型也具有高级推理和规划能力，o1的诞生可能给谷歌等其它公司带来了巨大压力，它是否有可能改变国内外该领域的竞争格局★◆★？

　　当然，如何实现面向大语言模型的强化学习能力★★★，也是大家非常关注的一个话题■◆■★。这次 OpenAI 也没有提供任何的有关 o1 实现细节的介绍■★★■◆★，我们也很难猜测。就像当年 ChatGPT 出现之后★■，大家都探索如何进行 SFT◆■。

　　刘知远：我赞同宁豫的观点◆■★。system 1 和 system 2 的分类实际上也存在一些问题。在处理问题时◆◆◆，如果一个问题被反复遇到，即使它本身是复杂的，但通过不断的实践和熟悉，人们可能会发展出一种类似于条件反射的快速解决方式，建立一些「捷径」。这种快速反应可以通过 system 1来实现，而不需要 system 2的深度参与。system 1/2 并没有严格的边界，它更像是一个有不同分布的连续光谱。我们团队最近开发了很多端侧模型★◆★，端云协同的方案可能是未来的趋势。我们希望训练动态的模型，可以根据问题的复杂程度，决定调用多少的算力完成任务。

　　在这篇论文中■★★■，作者根据 AI 系统的风险从低到高定义了4个人工智能安全级别 ASL■◆◆◆。实际上，要保证 AI 系统的可靠性是十分困难的■★◆◆，其成本非常高。但我们仍有可能在不引发重大安全问题的情况下，通过与形式化定理证明器交互的 AI 智能体■◆，实现 ASL 等级较高的 AI 系统★■。

　　该模型的推理与之前先构建大模型，然后用 SFT■★★◆★、RLHF 这些技术微调不一样。这些技术是在推理完成后■■◆◆★，再再产生答案时进行额外的处理，从规划的角度看怎样的答案更好◆◆。我们在 NTU 的研究组针对 OpenAI 秘密开展的 Q* 项目，发表了全球第一篇相关的分析论文。我们猜想这可能是「Q-Learning+A* 算法」的技术路线，并且开源了所有的训练代码。基于该方法，模型在数学、代码生成等方面的能力得到了较大的提升。

　　张宁豫：在 o1 出来之前◆★■，学术界就有一些若干模型「左右互搏」从而提升模型性能的工作■■。然而，当性能提升到一定程度以后，即使使用合成数据★★，性能的提升幅度逐步减小。所以★★■，我一直很好奇 o1 是怎么能够保证持续提升性能。当然，可能它也涉及了一些更加新颖的机制。

　　世界模型的重要性不容忽视。今年5月，Yoshua Bengio 等人发表了一篇关于确保AI安全的论文《Towards Guaranteed Safe AI: A Framework for Ensuring Robust and Reliable AI Systems》，其中强调了三个要素：一个数学的世界模型◆■★★，一个安全规范，以及一个验证器。世界模型需要能够预测行动对世界的影响★◆■◆，安全规范定义了可接受的影响范围，而验证器则用于评估模型对世界的影响。

　　从这一点上来讲，o1 带来了非常重要的技术，是面向未来 AI 的重要的里程碑。o1 有着更长的思维链、更长的思考的时间、更强的探索能力。

　　张宁豫■◆★◆■：我想从应用的角度出发，对 o1模型以及 OpenAI 未来可能发布的更新进行一些思考。显然，这些更新将针对特定的实际应用场景。这引发了一个关键问题：在哪些场景下，复杂的推理是必需的■★★◆■■？从直观上讲，科学研究工作本身就涉及到复杂的推理过程。目前，我们已经看到了许多致力于开发 agent，将其用于科学研究的 AI 系统的工作■■★。

　　在我看来，Transformer 代表了大型模型发展的一个重要趋势■★★■◆◆，其架构变得通用化，以往的各种架构都统一在 Transformer 之下◆■★◆★。然而，与人类大脑相比，尤其是在端侧，Transformer 在能耗方面仍然非常高，特别是在处理长序列数据时◆★，由于注意力机制等问题，不仅计算量大★◆★◆，内存占用也十分惊人。因此，我们认为未来一定会对 Transformer 架构进行重大调整，以彻底解决能耗高的问题★■◆◆★★。如何让模型更好地服务每个用户，类似于历史上的 PC 和手机，能够普惠地服务每个用户，我们认为还有很长的路要走，这也是我们需要不断探索的方向◆★。

　　o1选择数学、编码和算法作为重点领域，主要是因为这些领域能够快速获得反馈，从而支持其快速学习。然而★■■★★，在许多其他领域，准确的监督信号往往难以获得。o1可能更多代表的是未来实现人类水平智能的能力。

　　我们可以想象模型是一个很小的电路。如果我们要实现一个复杂的功能，可以用很多简单的电路，迭代式地完成它；我们还可以用很大面积的电路直接实现它。在这二者之间，我们应该通过怎样的方式实现推理■■★■★◆？

　　付杰■■★◆：已有研究者探索直接将预训练的语言模型视为世界模型。例如，通过提示（prompt）的方式★◆■■■，让模型将自己视为一个世界模型◆★★◆，并回答相关问题。比如告诉语言模型“你在一个房间里”■★，然后询问★■“往前走十步会不会撞墙”，模型可能会回答“不会撞墙■★★”★◆■■■★。但如果向前走了五步后继续询问■◆★：“再往前走五步会不会撞墙”，模型可能会回答◆◆■■◆■“会撞墙◆■”。这表明模型并没有形成一个自洽◆★◆◆■、一致的世界模型。

　　这意味着在训练和推理这两个阶段都有相应的突破。在训练阶段，我们需要能够为o1 模型提供更丰富的◆■■、全程的■■◆◆■★、稠密的反馈信号★★◆◆◆。我认为有两个非常重要的关键技术■■◆◆★：（1）数据合成。能够实现高质量的数据合成的能力◆◆★◆★，产生世界上还不存在的这些高质量监督信号，从而持续提升模型某些方面的能力◆◆■★■。（2）强化学习。能够实现 self-play，通过强化学习不断自我改进，寻找相关的丰富监督信息。

　　刘知远：我觉得到底怎么划分 system 1/2 的边界可能的确不是那么关键，之所以这样定义两个系统是要让我们知道努力的方向——实现更深层的思考能力。这代表着人类智能的一个非常高的水平，可以通过思考，通过不断的试错，根据外部的反馈■★◆■◆，知道该往哪个方向努力，从而更好地解决问题。从这个角度来讲■◆■★，o1 给我们带来的一个非常大的挑战是在于：为了实现面向这种更深层的思考的能力■◆◆，如何去获取合适的标注数据◆◆，构建监督的信号，让这个模型具备这种能力。面向未来，为了实现超级智能■★◆◆，依靠人来标注持续地获取监督信号是不可行的★■■◆。因为★■★■◆，可能发展到一定的阶段◆★◆◆■★，人类的能力也不能满足标注的要求。此时可能需要一些类似于 self-play 的机制◆◆★，让模型不断自我提升。

标签：全文技术路线图

上一篇 : 深评：纯电动危机隐现插电式混动要抢C位？

下一篇 : 杭州乾江数据科技联合瓯麓科技申请基于人工智能的文yl8cc永利官网献信息检索分析系统及方法专利提升文献信息检索分析效率

o1诞生对下一轮AI爆发的启示：技术远远没有收敛仍在演进丨智源Workshop精华观点回顾

tel:400-123-4567