商业头条No.49 | 大模型抵达“分水岭”|界面新闻 · 科技_生活百科-知识百科-科技百科-兴誉百科网-上海艾傅网络有限公司

界面新闻记者 | 伍洋宇
界面新闻编辑 | 刘方远宋佳楠

“我听说o2在GPQA上获得了105%。”几天前，山姆·奥特曼在X平台上突然发了这么一句话，但马上又写道，“见鬼！账号错误！ ”

这位掌控OpenAI公司的CEO，就这样以如此戏剧性的玩笑方式透露了OpenAI o2的进展。GPQA（Graduate-Level Question Answering）是一项研究生水平科学知识问答能力的基准测试，此前，OpenAI o1在这项测试中仅得到78%的成绩。

o2的得分也大概率不会超过100%，但这番“鬼才营销”仍然引起了全网热议。

让所有人能继续抄作业

前段时间，零一万物创始人兼CEO李开复去了一趟硅谷，带回不少OpenAI的“八卦”，还在直播间饶有兴致地讲了起来。

据他所述，外界期待已久的GPT-5训练得不太顺利，问题出在如何搞定一个“十万卡集群”上。风光面世的OpenAI o1只是被临时祭出的产物，这套方法原本没打算这么早公开。但为了吸引投资人继续投钱，这个动作不得不执行。

另一方面，OpenAI也想借此炫技，让外界意识到，“你们只是看起来快追上我了，等我多露两手再看看。 ”很快，OpenAI宣布融资66亿美元，估值来到1570亿美元。

“其实我们还有很多好东西，只是没有发布。”OpenAI的内部人员对李开复说，“因为我们一发布你们就会学。”

这名OpenAI人士担心得没错，这正是国内大模型领域的追赶状态，甚至成为一种技术学习的策略。

“我们一定要尽快追赶它，让它有压力。 ”李开复说，“这样它就把一些好东西丢出来，我们大家就有更多的灵感了。”

o1就是现阶段所有人的灵感。它提出了一个新思路。根据这家公司显示的技术信息，除了加入强化学习和思维链，它的本质变化是将Scaling Up的方法从预训练阶段转移到了推理阶段，让模型在“推理时计算”中获得更高的智能水平，也就是Post-Training Scaling Law（后训练扩展律）在发挥作用。

这套新范式的力量真有这么大吗？在技术上如何理解o1范式可能加速AGI进程？

大模型行业上一个重要技术转变是从Dense Model（稠密模型）到MoE架构（Mixture of Experts，混合专家模型）。这个变化本身带来的是速度提升，而没有太多能力提升，技术曲线从这里开始变缓和。但推理层强化学习可能改变这条曲线，它对应的是投入资源和所能达到智能上限的关系——模型智能水平由此可能实现突破。

大佬们的观点是相近的。在o1发布一周后，阶跃星辰CEO姜大昕公开表示，o1是大模型首次同时具备人类大脑System 1和System 2的能力，这是大模型开始具备归纳世界能力的关键一步。月之暗面创始人兼CEO杨植麟直言，o1的主要意义在于提升了AI的上限，很大程度上证明了这套范式对于下一步Scaling Up初步可行。

换句话说，o1代表的技术范式还不至于是AGI的直通车，但它的确是一列全新的特快车。

界面新闻记者从不同信源处了解到，Minimax已经在推进类o1产品，预计最快明年一季度发布。月之暗面和阶跃星辰目前的主要精力可能仍是年底计划发布的多模态大模型，但o1也都在其各自的技术路线图上。

百川智能在强调医疗方向的落地场景后，暂时还没有透露出要加码o1方向的信号，不过内部一直有强化学习的训练经验。此外，多名受访者认为，智谱AI大概率会跟进o1 ，而李开复则明确表示，包括零一万物在内，预计五个月后就会有不少类似o1模型的能力出现在各个公司。

“国内大模型公司都是抄OpenAI的路线，既然它蹚出了一条路，你也没有这么多试错成本，为什么不去copy它？ ”李江认为，这个选择理所当然。

不比GPT-4简单

强化学习不是新东西。在此之前，很多大模型团队都在尝试强化学习这条路，只不过更快验证其正确性的依旧是OpenAI。

“但凡是做过机器学习的，这个方法你一定会想得到，只是说愿不愿意投这么多资源去试这条路。”李江说。

事实上，它还是今年诺贝尔化学奖其中两位获得者所在公司DeepMind的拿手好戏。这家公司用深度学习和强化学习的思路在很多垂直领域作出了突破贡献，比如AlphaFold和AlphaGo 。

至于o1为何现在才出现，一名大模型技术从业者对此解释道，一方面，模型参数的量级不同，这是决定性差距；另一方面，这当中的关键变量是强化学习和大模型的碰撞。如果以o1为结果，大模型和强化学习是一组由“乘号”连接的齿轮关系，但凡其中一种弱，整体都不会太强。

就技术而言，从业者认为o1比GPT-4更难，因为这当中的知识不会公开，团队必须自己尝试。“post-training（后训练）里面的秘密很多，而且越来越寡头化。 ”前述受访投资人说，“在这场竞赛里，技术能力和技术vision（视野）的占比变高了。”

也就是说，它需要天才的技术灵感，外加可落地的工程能力。

“最重要的是，首先有人能想得出整体的架构怎么做。”李江表示，做这件事需要的是天才，而不是“搭建一个50人团队”。相当于OpenAI o1现在是“黑盒 ” ，创业公司需要分配更多精力给强化学习，靠研究能力把“黑盒”变成“白盒”。

工程上也还有大量的细节和难点。例如，算力方面，由于推理层的算力需求可能会出现爆发式增长，优化AI Infra（基础架构）以快速降本的意义进一步凸显。数据方面，这套新范式相当于将一个Agent（智能体）内置到模型中，因此，自动化数据训练的pipeline（管道）也需要重新构建。

它同时提升了数据标注的难度和复杂度。生数科技首席科学家朱军在今年的云栖大会上谈论过，从科研的角度看，这当中过程监督的数据变得十分重要。它和直接从结果监督的数据不一样，是要对思考过程的每一步进行标注，这种数据由于需要专业人士投入，因而具备一定获取难度和高价值。

王小川也曾表示，他对o1的好奇有很多，例如拥有多少算力，以及多少领域专家。这大致对应o1训练数据的规模和质量。

Self-Play RL（自我博弈下的强化学习）虽然可以让模型自动生产数据来学习，但仍然需要人工的参与，并且是高质量的参与，其中就包括人工标注数据来告诉它结果好还是不好。

李江形容，数据标注既吃人力又吃学历，是一份看起来蓝领，但又特别要求白领的工作。“如果你没有模型聪明，你就没有价值，所以你要比模型的答案还好，而这份工作又特别枯燥，这样的行业专家不好找。 ”

o1这条路未来可能遇到的最大瓶颈还是来自通用性，也就是模型的泛化能力。例如，o1的数学、编程类能力尤其突出，但弱逻辑类的能力培养还有待解决。

强化学习中有一个关键环节叫做Reward Model（奖励模型），用于评估Agent的行为表现，并指导其学习过程。在特定垂直领域，奖励机制可以写得清楚明晰，但面对更加泛化和开放的场景，Reward Model将变得难以定义，这也是以o1范式在实现通用性过程中要突破的重要关卡。

“这是一个悬而未决的问题。”李江说，这再次回到了各家科研能力的比拼上。即便是在公司内部，这种“灵感”现在也无法随意讨论，“因为这个事情太新了，‘灵感’要真金白银才能烧出来。 ”

事实上，大模型未来在提升强化学习模型的泛化性上会遇到什么困难，还不得而知，短期内能够复现某个垂直领域的国产o1就是一种胜利。开始习惯这个领域技术波动的李江就是这样想的，“在这个阶段，做长远的Road Map（路线图）毫无意义。”

好学生的“附加题”

云启资本合伙人陈昱每半年就要飞一趟美国，定期看看那边发生了什么，这让他对o1有一个更为冷静和理智的看法。

诚然，o1代表了OpenAI在解决复杂问题上的探索，但它仍然有很大的局限：成本约为GPT-4o的6倍，使用次数的限制，较长的等待时间，以及一些简单问题仍然会出错的状况，目前的形态更像是给学有余力的好学生去做的“附加题 ”。

答好这道“附加题”要投入多少资源？此前据腾讯新闻《潜望》报道，王小川在接受采访时曾预估称，“可能跟做个GPT-4差不多” 。而朱啸虎给出的答案是，做GPT-4的科研至少要砸四五千万美金。

目之所及，国内大模型公司要跟进做o1必须满足两个硬性条件。一是拥有这笔可支配的资源。据另一名受访投资人透露，“六小虎 ”当中，一些公司账上的钱可能不够。二是基础模型的性能水平门槛。李江的判断是，“至少要接近GPT-4的水平，不然不在牌局里。”

这意味着“六小虎”的下一步，有钱的可以继续跟注，没钱但想跟注的要继续找钱，如果都行不通，就只能找差异化。

不久前已经有行业传闻称，“六小虎”中的两家正在逐步放弃预训练模型，缩减了预训练算法团队人数，业务重心转向AI应用。

一时间，“六小虎放弃大模型 ”的说法甚嚣尘上。被外界猜测得最多的零一万物和百川智能，均迅速对外界进行了否认。

前述受访投资人对界面新闻记者表示，还没有看到实质性证据能够表明“六小虎”中有公司放弃了预训练，现阶段它们也没有理由放弃。他推测有一种可能是，有团队暂时性完成了基础模型的预训练，重心转向了后训练阶段。

“要知道‘六小虎’并不是OpenAI，也不可能OpenAI的所有尝试都要去跟。”这名投资人指出，“这当中需要有战略选择。 ”

这种战略选择的决定性条件，是掌舵者对AGI的理解。例如，有人认为多模态的理解与生成统一是AGI的必经之路，也有人认为，AGI的关键仍然在于语言智能。这会导致不同的路线，大模型公司可能自此分化：视频模型，音频模型，高级推理等等。

除了创业公司，大厂也在积极跟进。有知情人士透露，目前，字节跳动和阿里巴巴都已有意向聚焦o1代表的技术方向，继续推动大模型的推理性能提升。不过，大厂的优势将更不明显。

李江直言，在上一个竞争阶段，文心一言、通义千问、混元、豆包等产品，并没有跟创业公司完全拉开差距。而在o1路线上，这种优势也许会更加微弱，因为它对算力资源的要求不如之前高，也更考验技术团队的灵活性。

大变革，但不一定激发大商机

投资人也听到不少所谓行业动荡的风声，但他们的大致体感是，在车上的都没有动摇过，不断动摇的都是没上车的。

“我们没有不看好过。”前述投资人说，“外面所谓的舆论是我们两三年前就知道的事实，不觉得有什么预期上的偏差。”

之所以不动摇，来自于一个长期判断：AGI能实现，绕不开大模型，而o1的出现说明了AGI可以实现，它的确提振了资本的信心。

这也将很大程度上决定大模型公司的融资命运。

“到30亿美元估值以后，大家就很难融了。 ”陈昱指出，这是“六小虎”当前共同的困境。舆论之所以唱衰，主要原因也是估值和商业化程度不匹配。

“今年这几家融了三五亿美元以上的，明年都还可以活，因为大家一年大概烧2亿美元，加上之前的钱，活个三年是没问题的。”陈昱说，“但他们得尽快解决商业模式的问题，烧钱是不可持续的。 ”

商业化，就是当前来自投资人最直接的拷问。需要认清的是，o1这个技术上的“大变革”，并不一定能激发大商机。

一方面，o1所代表的“模型即产品”思路可能会革掉一批应用层公司的命。由于o1本身相当于内置了一个AI Agent，很多简单的Agent不再有特殊价值。一名关注AI应用层的投资人对界面新闻记者表示，o1对很多创业公司都产生了生死影响，比如只做AI编程的Cursor AI ，双方已经到了要比拼用户体验的阶段。

另一方面，o1即便做出来，在产品上也没有直接的变现手段。最直观的改变可能在于，产品形态需要重新设计，从同步的方式变为异步。异步是指，用户发送请求后，模型会过若干分钟再反馈结果，而不是现在这种让用户干等的问答形式。

李江的看法有些悲观，认为即使国内公司做出o1这样的产品也不会对商业应用带来本质改变。“很多商业模式跟模型性能有关联，但又没有那么深的关联。 ”

这也是朱啸虎此前强调的，现阶段的模型性能提升不会对应用层带来实质影响，就算是模型准确率提升50% ，在多步推理之后叠加形成的错误率也是灾难性的。Minimax创始人兼CEO闫俊杰也曾公开强调，模型错误率只有降到个位数才是可信赖的状态，才能为行业带来本质的变化。

以此来看，o1可能是大模型技术上的分水岭，但用户很难感知到。“大模型是一个非常复杂的系统工程，o1能产生的作用，只是在其中某个环节改变那么一点点东西，对全局没有那么大的影响。”李江指出。

在AGI进程放缓时，o1的出现几乎被视为“全村的希望”，但它依然无法带大家挣到更多的钱，那它的意义到底是什么？——答案可能仍然在融资里。

在投资人视角，做o1的优先级不是最高，但它可以炫技和秀肌肉。在创业周期，这是融资的筹码。

作为创业者，李江很清楚，在砸钱推进模型通往AGI的过程中，创业公司有所图，也有牺牲。牺牲在于，一家大模型公司最终要卖的东西，可能跟模型性能本身并没有更深的关联。而它图的是，这个模型代表了它要销售的AGI愿景——这个愿景既要销售给用户，也要销售给投资人。

“长期来看，你得靠它让大家相信这个故事——它是在朝着AGI发展。”李江说。

（受采访对象要求，李江为化名。）

（界面新闻记者李彪对本文亦有贡献。）

你可能想看：

商业头条No.47 | 鸿蒙初开|界面新闻 · 科技