分析师分享会纪要|从通用模型到个性化 AI,下一代智能将走向何处?
2026-04-20
在近日举行的分析师分享会上,围绕 Mano-P 的模型定位、技术路径及其背后的 Personalized AI 思考,明略科技副总裁,多模态首席科学家 Cyrus 进行了系统分享。
随着大模型发展进入新阶段,行业竞争的焦点正在从单纯追求更大参数规模,逐步转向对真实任务执行能力、持续学习能力以及个性化适配能力的深入探索。Mano-P 正是在这一背景下提出的一项重要尝试。
以下为分析师分享会纪要。
Cyrus:今天我主要汇报的题目是 Personalized AI。这既是我们推动 Mano-P 这项工作的核心出发点,也是我们决定将模型推向个性化方向背后最重要的思考。
首先,我想分享一个判断:我们正再次处在新旧 AI 时代的交界点。有人可能会问,之前大模型时代到来时,我们已经说过行业进入了一个新的分界点,那么这一次所谓的新旧 AI 交界点,指的又是什么?我们目前的结论是,AGI 和 Personal AI 是两条完全不同的路线。接下来,我想展开讲讲我们为什么会得出这样的结论,以及这一判断背后究竟发生了什么。
今年春节期间,行业非常热闹,既有 OpenClaw,也有各家厂商发布的新模型。但在这场看似激烈的 AI 军备竞赛背后,大家也会产生一个疑问:春节期间,诸如 Claude 4.6、GPT 5.2 等模型相继发布,为什么却没有出现像此前 DeepSeek GRPO 那样具有标志性的方法创新或重量级技术报告?
答案其实很直接:大家现在都在为数据所困。互联网上的知识,基本已经被消耗殆尽,越来越像“化石”。谁的 Agentic 类 App 用户量更大、流量更高,谁就能获得更多新数据,也就更有机会让模型学到真正新的知识。
我们已经可以看到,一般的对话类智能体很难继续为模型训练提供有效数据。比如用户每天询问天气如何、感冒该吃什么药,这类信息对于模型来说已经不再属于高价值语料。用户反复提出同类问题,对模型训练的增益已经非常有限。真正能够持续提供新数据的,只有 Agentic 类 智能体。
最近 Anthropic 一直在强调,不要再等下一代模型,而是立刻去做 Harness。现在大家普遍认为,Agent 等于 LLM 加上 Harness。这句话背后的意思其实很清楚:如果不尽快做 Harness,就没有足够的数据去训练下一代模型。
眼下真正有价值的新数据,只有一种,就是完整的 Agent 工作流,而且这个工作流必须是真正替代人类完成了具体任务。只有这样的数据,才会对下一代模型产生实质性帮助。
Claude 作为 OpenClaw 背后的大脑,大家可能会觉得它很好用,但其实这些模型本身早就已经出现了。为什么 OpenClaw 看起来更智能、能做的事情更多?关键原因在于 CUA 的使用场景。一个 CUA 场景意味着更高的权限,也意味着一个长期存在的工作平台。
你在电脑上留存的历史文档,都可以被 OpenClaw 调用,这和在沙箱中运行的 Agent 有本质区别。沙箱中的任务结束后即被销毁,灌输进去的上下文也随之消失;但 OpenClaw 会持续存在于你的电脑上,随着时间推移,它会逐步了解你近期在做什么工作,并把这些内容积累下来。因此,这类智能体会给人一种“伴随你一起成长”的感觉。
但这件事本身也会带来新的问题。随着使用时间拉长,你会发现 OpenClaw 反而可能慢慢变笨。原因在于,电脑里的文件系统可以无限扩展,而大语言模型的上下文通常只有 100 万到 200 万 Tokens。
刚开始使用时,文件量可能不到 1G,压缩进 100 万 Tokens 后,压缩率还相对可控,因此 OpenClaw 还能够较完整地看到上下文。但如果用上几个月,记忆增长到 1T 甚至 100T,再把这些内容压缩进去,就必然会丢失大量信息,最终导致它记不住很多过去发生的事情。与此同时,每次请求都要重新传入已经占满的上下文,哪怕只是一次简单交互,成本都可能高得惊人。
OpenClaw 背后的大脑,也未必像大家想象中那样聪明。比如你问大模型,距离 50 米去洗车,应该开车还是走路,大多数模型仍然会回答走路。这说明大模型本身存在明显问题。如果把它类比成人类,它更像一个患有顺行性遗忘症、也就是海马体受损的患者。它能够记住今天之前发生的事情,但对于今天之后发生的事情,往往只能形成短期记忆,很难形成长期记忆。
在 CL-Bench 这类设定了虚构物理规则的测试中,模型的表现并不理想,最好的模型准确率也只有 23.7%。原因在于,在强化学习过程中,我们要求模型不能违背事实进行推理,因此它面对新知识时,仍然倾向于基于原有记忆展开推理。也正因此,今天的 AI 更像是记忆大师,而不是学习专家。那些依靠死记硬背就能刷高分的榜单,评测意义其实并不大。真正有价值的,是测试模型学习新知识的能力,也就是持续学习和终身学习的能力。
那么,怎样解决“上下文不变,但记忆持续增长”的问题?如果有一种技术,能够把新的常识和新的客观事实直接更新到模型的参数或权重中,这个问题就有可能被解决。比如一个月之内发生的事情被压缩进参数里,模型从 4.2B 变成 4.5B,知识真正进入参数之后,就不需要每次都重复携带在上下文中,不仅更节省成本,准确率也会更高。
再看另一个问题。人类是已知神经元最多的生物吗?并不是。短肢领航鲸和非洲象的神经元数量都比人更多。在模型训练中,Scaling Law 和 Overfitting 是并存的。举例来说,在辨别人脸时,参数量更大的模型有时会过度拟合一些无关特征,比如衣服,导致特征稍有变化就无法识别;相反,参数更小的模型如果抓住了更核心的特征,反而能够识别出来。所以,参数更多并不必然意味着模型更聪明。
综合前面这些问题,我们认为,当前 AI 真正的瓶颈,不是参数不够多,不是数据不够大,也不是算力不够强,而是缺乏持续学习能力。而具备参数化持续学习能力的模型,必然发生在端侧,因为用户不可能去修改商业模型的参数。
基于以上判断,接下来我介绍一下 Mano-P 本身。它是 Personal AI 的第一步,目标是在端侧持续打造真正属于你的模型。它将分三个阶段开源。
第一阶段已经开源,主要面向现有 OpenClaw 用户的 Agent Skill。很多工具虽然已经实现 API 化,但在实际工作流中,一旦遇到需要 GUI 操作的软件,仍然离不开人工介入,这也成为整个流程中的瓶颈。我们要做的,就是替代人工去操作 GUI 软件,把这段工作流彻底打通。我们这次开源的 Skill 叫 Mano CUA。用户下载安装之后,就相当于拥有了一只“虚拟手”来操作电脑。目前开源的是云端版本。
第二阶段将开源端侧模型和本地版本,主要面向安全性要求更高的用户。它可以在本地断网运行,直接使用 Mac,尤其是 M4 芯片以上设备上的 GPU 与 ANE 混合算力,或者接入 USB 算力棒,即可完成本地推理,不需要英伟达显卡,也不需要本地服务器。
第三阶段,我们会开源整个模型的训练方法。到那个时候,开发者就可以基于这套方法,打造属于自己的端侧模型。
Mano P 目前已经在全球多模态 13 个榜单上达到 SOTA。在 100B 以内的小尺寸模型中,基本处于领先位置;在不限尺寸的情况下,也基本能够稳定进入前三。在 9 个主要榜单上,全部排名第一。
而刚才提到的参数化持久记忆,到底如何实现?我们把这套方法称为嵌套学习。现有大语言模型建立在 Deep Learning 基础之上,但在这一范式形成之初,并没有真正把持续学习的问题纳入核心设计,因此它更像是“海马体受损”的状态。人类之所以能够形成长期记忆,是因为会不断经历在线巩固和离线巩固。而我们现在采用的这套学习方式,就像齿轮结构一样,每一层的更新频率都不相同。
在 Mano-P 的训练过程中,我们设计了三个 Agent,分别是执行者、教授和哲学家,它们的更新频率各不相同。其中,哲学家的更新频率最低,相当于长期稳定的准则。借助这套技术,我们在 CL Bench 上取得了仅次于 GPT 5.1 的成绩。
所以,最后的结论是,基于 Deep Learning 和 Transformer 的大模型,本质上是记忆大师,而不是学习天才,它缺乏持续学习能力。现有路线更多依靠扩大上下文来弥补这一点,但这种方式意味着极高的成本。
嵌套学习的理念,将使 AI 真正具备终身学习能力。新时代的 AI 将运行在端侧,成为辅助个体的最强模型。未来,追求通用智能的 AGI 和追求个性化智能的 Personal AI 会长期共存。没有人真正需要一个万亿参数的通用模型,你真正需要的,可能是一个懂你、了解你、能够陪伴你一起成长的个性化 AI 模型。
Cyrus:Mano-P 在 GUI 操作能力上有了明显提升,不仅页面操作的准确率更高,更重要的是,我们开始能够处理越来越多的长尾问题。因为 Mano-P 具备持续学习能力,所以只要你告诉它你的卡点在哪里,它就有可能把这个问题学会。
Cyrus:和那些做通用大模型的公司不同,我们更关注个性化 AI 能力的建设,这就需要很多不同方向的技术支持,比如嵌套学习、持续学习等。接下来,我们会把更多研发精力投入到这些方向上。通用模型厂商走的基本是 Scaling up 路线,而我们提出的是 Scaling out。
对于可信智能的构建来说,Scaling out 的优势在于,它可以让学习过程更透明。因为它运行在你的客户端上,本质上是一个白盒,安全风险会更低,你也会更愿意信任它,把自己的资料交给它学习。
Cyrus:Mano-P 究竟能帮我们做什么?以全自动化软件开发场景为例,现在大家可以借助各种工具编写代码,但软件最终仍然是给人使用的,因此界面功能和交互体验仍然需要人来测试。也就是说,在测试这个环节中,人反而成为自动化的瓶颈。我们的这套技术,可以通过 GUI 操作替代人工测试,从而实现从需求拆解、编码到测试的全流程自动化。
相似的,在视频剪辑的工作流中,从一句话生成TVC粗剪,到智能分析视频问题,再到剪映自动精修,全程不用人工操纵,Mano-P 同样可以直接帮你点鼠标、改字幕、传文件,实现工作流的自动化运行。
而我们之所以坚持自研模型,是因为我们需要它去适配更多真实产品。在 Agent 时代,模型在后台需要完成任务拆解、意图理解、步骤规划,再进一步调用工具。在这个过程中,哪怕底层模型能力只差 10%,最终呈现出来的结果也可能是 0 和 1 的区别,要么任务完成,要么整个流程失效。我们真正想做的,是一个更适配 Agent 的底层大模型,它对人类意图的识别更敏锐,也更有能力帮助我们真正完成任务。
后面我们也会更关注一些更硬核的榜单,重点考察上下文学习能力和持续学习能力,因为这些榜单上的表现,与真实应用水平之间的偏差会更小。
Cyrus:这个问题其实已经困扰很多人很久了。无论是把知识压缩到上下文里,还是压缩到向量空间里,本质上都还是压缩,而压缩的上限又受限于商业模型的上下文窗口。扩大上下文,只能寄希望于模型厂商。但参数化这条路径不一样。因为模型运行在端侧,是你自己的模型,所以参数量增加到什么程度,其实由你自己决定,你可以持续扩展。我们认为,这是一条更可靠、也更科学的方式。
信息填写