分析师分享会纪要｜从通用模型到个性化 AI，下一代智能将走向何处？-明略科技

首页干货文章分析师分享会纪要｜从通用模型到个性化 AI，下一代智能将走向何处？

分析师分享会纪要｜从通用模型到个性化 AI，下一代智能将走向何处？

2026-04-20

在近日举行的分析师分享会上，围绕 Mano-P 的模型定位、技术路径及其背后的 Personalized AI 思考，明略科技副总裁，多模态首席科学家 Cyrus 进行了系统分享。

随着大模型发展进入新阶段，行业竞争的焦点正在从单纯追求更大参数规模，逐步转向对真实任务执行能力、持续学习能力以及个性化适配能力的深入探索。Mano-P 正是在这一背景下提出的一项重要尝试。

以下为分析师分享会纪要。

Cyrus：今天我主要汇报的题目是 Personalized AI。这既是我们推动 Mano-P 这项工作的核心出发点，也是我们决定将模型推向个性化方向背后最重要的思考。

首先，我想分享一个判断：我们正再次处在新旧 AI 时代的交界点。有人可能会问，之前大模型时代到来时，我们已经说过行业进入了一个新的分界点，那么这一次所谓的新旧 AI 交界点，指的又是什么？我们目前的结论是，AGI 和 Personal AI 是两条完全不同的路线。接下来，我想展开讲讲我们为什么会得出这样的结论，以及这一判断背后究竟发生了什么。

今年春节期间，行业非常热闹，既有 OpenClaw，也有各家厂商发布的新模型。但在这场看似激烈的 AI 军备竞赛背后，大家也会产生一个疑问：春节期间，诸如 Claude 4.6、GPT 5.2 等模型相继发布，为什么却没有出现像此前 DeepSeek GRPO 那样具有标志性的方法创新或重量级技术报告？

答案其实很直接：大家现在都在为数据所困。互联网上的知识，基本已经被消耗殆尽，越来越像“化石”。谁的 Agentic 类 App 用户量更大、流量更高，谁就能获得更多新数据，也就更有机会让模型学到真正新的知识。

我们已经可以看到，一般的对话类智能体很难继续为模型训练提供有效数据。比如用户每天询问天气如何、感冒该吃什么药，这类信息对于模型来说已经不再属于高价值语料。用户反复提出同类问题，对模型训练的增益已经非常有限。真正能够持续提供新数据的，只有 Agentic 类智能体。

最近 Anthropic 一直在强调，不要再等下一代模型，而是立刻去做 Harness。现在大家普遍认为，Agent 等于 LLM 加上 Harness。这句话背后的意思其实很清楚：如果不尽快做 Harness，就没有足够的数据去训练下一代模型。

眼下真正有价值的新数据，只有一种，就是完整的 Agent 工作流，而且这个工作流必须是真正替代人类完成了具体任务。只有这样的数据，才会对下一代模型产生实质性帮助。

Claude 作为 OpenClaw 背后的大脑，大家可能会觉得它很好用，但其实这些模型本身早就已经出现了。为什么 OpenClaw 看起来更智能、能做的事情更多？关键原因在于 CUA 的使用场景。一个 CUA 场景意味着更高的权限，也意味着一个长期存在的工作平台。

你在电脑上留存的历史文档，都可以被 OpenClaw 调用，这和在沙箱中运行的 Agent 有本质区别。沙箱中的任务结束后即被销毁，灌输进去的上下文也随之消失；但 OpenClaw 会持续存在于你的电脑上，随着时间推移，它会逐步了解你近期在做什么工作，并把这些内容积累下来。因此，这类智能体会给人一种“伴随你一起成长”的感觉。

但这件事本身也会带来新的问题。随着使用时间拉长，你会发现 OpenClaw 反而可能慢慢变笨。原因在于，电脑里的文件系统可以无限扩展，而大语言模型的上下文通常只有 100 万到 200 万 Tokens。

刚开始使用时，文件量可能不到 1G，压缩进 100 万 Tokens 后，压缩率还相对可控，因此 OpenClaw 还能够较完整地看到上下文。但如果用上几个月，记忆增长到 1T 甚至 100T，再把这些内容压缩进去，就必然会丢失大量信息，最终导致它记不住很多过去发生的事情。与此同时，每次请求都要重新传入已经占满的上下文，哪怕只是一次简单交互，成本都可能高得惊人。

OpenClaw 背后的大脑，也未必像大家想象中那样聪明。比如你问大模型，距离 50 米去洗车，应该开车还是走路，大多数模型仍然会回答走路。这说明大模型本身存在明显问题。如果把它类比成人类，它更像一个患有顺行性遗忘症、也就是海马体受损的患者。它能够记住今天之前发生的事情，但对于今天之后发生的事情，往往只能形成短期记忆，很难形成长期记忆。

在 CL-Bench 这类设定了虚构物理规则的测试中，模型的表现并不理想，最好的模型准确率也只有 23.7%。原因在于，在强化学习过程中，我们要求模型不能违背事实进行推理，因此它面对新知识时，仍然倾向于基于原有记忆展开推理。也正因此，今天的 AI 更像是记忆大师，而不是学习专家。那些依靠死记硬背就能刷高分的榜单，评测意义其实并不大。真正有价值的，是测试模型学习新知识的能力，也就是持续学习和终身学习的能力。

那么，怎样解决“上下文不变，但记忆持续增长”的问题？如果有一种技术，能够把新的常识和新的客观事实直接更新到模型的参数或权重中，这个问题就有可能被解决。比如一个月之内发生的事情被压缩进参数里，模型从 4.2B 变成 4.5B，知识真正进入参数之后，就不需要每次都重复携带在上下文中，不仅更节省成本，准确率也会更高。

再看另一个问题。人类是已知神经元最多的生物吗？并不是。短肢领航鲸和非洲象的神经元数量都比人更多。在模型训练中，Scaling Law 和 Overfitting 是并存的。举例来说，在辨别人脸时，参数量更大的模型有时会过度拟合一些无关特征，比如衣服，导致特征稍有变化就无法识别；相反，参数更小的模型如果抓住了更核心的特征，反而能够识别出来。所以，参数更多并不必然意味着模型更聪明。

综合前面这些问题，我们认为，当前 AI 真正的瓶颈，不是参数不够多，不是数据不够大，也不是算力不够强，而是缺乏持续学习能力。而具备参数化持续学习能力的模型，必然发生在端侧，因为用户不可能去修改商业模型的参数。

基于以上判断，接下来我介绍一下 Mano-P 本身。它是 Personal AI 的第一步，目标是在端侧持续打造真正属于你的模型。它将分三个阶段开源。

第一阶段已经开源，主要面向现有 OpenClaw 用户的 Agent Skill。很多工具虽然已经实现 API 化，但在实际工作流中，一旦遇到需要 GUI 操作的软件，仍然离不开人工介入，这也成为整个流程中的瓶颈。我们要做的，就是替代人工去操作 GUI 软件，把这段工作流彻底打通。我们这次开源的 Skill 叫 Mano CUA。用户下载安装之后，就相当于拥有了一只“虚拟手”来操作电脑。目前开源的是云端版本。

第二阶段将开源端侧模型和本地版本，主要面向安全性要求更高的用户。它可以在本地断网运行，直接使用 Mac，尤其是 M4 芯片以上设备上的 GPU 与 ANE 混合算力，或者接入 USB 算力棒，即可完成本地推理，不需要英伟达显卡，也不需要本地服务器。

第三阶段，我们会开源整个模型的训练方法。到那个时候，开发者就可以基于这套方法，打造属于自己的端侧模型。

Mano P 目前已经在全球多模态 13 个榜单上达到 SOTA。在 100B 以内的小尺寸模型中，基本处于领先位置；在不限尺寸的情况下，也基本能够稳定进入前三。在 9 个主要榜单上，全部排名第一。

而刚才提到的参数化持久记忆，到底如何实现？我们把这套方法称为嵌套学习。现有大语言模型建立在 Deep Learning 基础之上，但在这一范式形成之初，并没有真正把持续学习的问题纳入核心设计，因此它更像是“海马体受损”的状态。人类之所以能够形成长期记忆，是因为会不断经历在线巩固和离线巩固。而我们现在采用的这套学习方式，就像齿轮结构一样，每一层的更新频率都不相同。

在 Mano-P 的训练过程中，我们设计了三个 Agent，分别是执行者、教授和哲学家，它们的更新频率各不相同。其中，哲学家的更新频率最低，相当于长期稳定的准则。借助这套技术，我们在 CL Bench 上取得了仅次于 GPT 5.1 的成绩。

所以，最后的结论是，基于 Deep Learning 和 Transformer 的大模型，本质上是记忆大师，而不是学习天才，它缺乏持续学习能力。现有路线更多依靠扩大上下文来弥补这一点，但这种方式意味着极高的成本。

嵌套学习的理念，将使 AI 真正具备终身学习能力。新时代的 AI 将运行在端侧，成为辅助个体的最强模型。未来，追求通用智能的 AGI 和追求个性化智能的 Personal AI 会长期共存。没有人真正需要一个万亿参数的通用模型，你真正需要的，可能是一个懂你、了解你、能够陪伴你一起成长的个性化 AI 模型。

分析师：Mano-P 对比 Mano 模型来说，主要提升体现在哪些方面？

Cyrus：Mano-P 在 GUI 操作能力上有了明显提升，不仅页面操作的准确率更高，更重要的是，我们开始能够处理越来越多的长尾问题。因为 Mano-P 具备持续学习能力，所以只要你告诉它你的卡点在哪里，它就有可能把这个问题学会。

分析师：公司当前主要推进的 AI 研发方向是什么？

Cyrus：和那些做通用大模型的公司不同，我们更关注个性化 AI 能力的建设，这就需要很多不同方向的技术支持，比如嵌套学习、持续学习等。接下来，我们会把更多研发精力投入到这些方向上。通用模型厂商走的基本是 Scaling up 路线，而我们提出的是 Scaling out。

对于可信智能的构建来说，Scaling out 的优势在于，它可以让学习过程更透明。因为它运行在你的客户端上，本质上是一个白盒，安全风险会更低，你也会更愿意信任它，把自己的资料交给它学习。

分析师：Mano-P 在榜单上的成绩提升非常明显，但如果从客户实际应用体感来看，它和测评分数之间是什么关系？

Cyrus：Mano-P 究竟能帮我们做什么？以全自动化软件开发场景为例，现在大家可以借助各种工具编写代码，但软件最终仍然是给人使用的，因此界面功能和交互体验仍然需要人来测试。也就是说，在测试这个环节中，人反而成为自动化的瓶颈。我们的这套技术，可以通过 GUI 操作替代人工测试，从而实现从需求拆解、编码到测试的全流程自动化。

相似的，在视频剪辑的工作流中，从一句话生成TVC粗剪，到智能分析视频问题，再到剪映自动精修，全程不用人工操纵，Mano-P 同样可以直接帮你点鼠标、改字幕、传文件，实现工作流的自动化运行。

而我们之所以坚持自研模型，是因为我们需要它去适配更多真实产品。在 Agent 时代，模型在后台需要完成任务拆解、意图理解、步骤规划，再进一步调用工具。在这个过程中，哪怕底层模型能力只差 10%，最终呈现出来的结果也可能是 0 和 1 的区别，要么任务完成，要么整个流程失效。我们真正想做的，是一个更适配 Agent 的底层大模型，它对人类意图的识别更敏锐，也更有能力帮助我们真正完成任务。

后面我们也会更关注一些更硬核的榜单，重点考察上下文学习能力和持续学习能力，因为这些榜单上的表现，与真实应用水平之间的偏差会更小。

分析师：关于刚才提到的，OpenClaw 在过度压缩记忆文件之后会丢失很多信息，这个问题如果从技术角度来解决，应该怎样提升整体效果？

Cyrus：这个问题其实已经困扰很多人很久了。无论是把知识压缩到上下文里，还是压缩到向量空间里，本质上都还是压缩，而压缩的上限又受限于商业模型的上下文窗口。扩大上下文，只能寄希望于模型厂商。但参数化这条路径不一样。因为模型运行在端侧，是你自己的模型，所以参数量增加到什么程度，其实由你自己决定，你可以持续扩展。我们认为，这是一条更可靠、也更科学的方式。