首页干货文章端侧 GUI 智能体模型全球第一：Mano-P 如何做到“又强又安全”

端侧 GUI 智能体模型全球第一：Mano-P 如何做到“又强又安全”

2026-04-13

2026 年 3 月 24 日，Anthropic 宣布其 “Computer Use”功能正式获得“操作你电脑”的能力——在 Claude中，AI 可以移动鼠标、点击按钮、打开应用、填写表格，像一个真正坐在你电脑前的助手那样工作。

一个新赛道正在以肉眼可见的速度成型：GUI 智能体——不是和你聊天的 AI，而是替你干活的 AI。

但一个被大多数报道忽略的问题是：当 AI 在帮你操作电脑时，你的屏幕截图正在被上传到云端。Anthropic 自己在官方文档中警告：“当 Computer Use 激活时，Claude 能看到屏幕上显示的一切，包括个人数据、敏感文档或私人信息。”他们甚至建议用户在虚拟机或容器中运行这项功能。

这不是一个小问题——对于处理客户数据、财务信息、法律文件的企业来说，这可能是一个根本性的架构选择问题。

有没有一种 GUI 智能体，能像 Claude 一样强大，但数据完全不出设备？

明略科技 Mano-P 已经给出了答案：围绕隐私与个性化两大支柱，72B 模型屠榜证明实力，4B 蒸馏版上机证明可用——在 OSWorld 专用模型榜以 58.2% 成功率拿下全球第一，领先第二名超过 13 个百分点，而这一切完全在你自己的 Mac 上本地运行。

关键要点

GUI 智能体赛道逐渐成型：Anthropic 发布 Claude Computer Use 桌面版
核心矛盾浮出水面：当前主流 GUI 智能体都需要将屏幕截图上传云端，Anthropic 官方文档明确警告隐私风险
72B 屠榜，4B 上机：明略科技Mano-P 72B 模型以 58.2% 成功率拿下 OSWorld 专用模型全球第一，蒸馏为 4B 版本后可在 M4 Mac 上流畅运行
端侧模型不等于弱模型：Mano-P 在 WebRetriever 等多个基准测试中超越多个千亿参数级通用大模型
架构级安全：本地模式下所有推理在设备上完成，屏幕截图不出设备，支持完全离线运行
AI for Personal 双支柱：隐私（数据不出设备）+ 个性化（三阶段逐步释放完整技术栈）

二、GUI 智能体是什么？为什么它是 AI 落地的关键一步

过去两年，大模型的能力主要体现在“说”——写文章、回答问题、生成代码。但企业真正需要的不是一个能说会道的聊天机器人，而是一个能真正干活的数字员工。

GUI 智能体（GUI Agent）就是这一步的关键跨越。它的核心能力是：通过理解图形用户界面（GUI），像人类一样操作电脑完成任务。你告诉它“帮我在 CRM 系统里录入今天的客户拜访记录”，它就真的打开 CRM、找到对应字段、填写内容、点击保存——全程不需要你动手。

这和传统的 RPA（机器人流程自动化）有本质区别：

RPA 依赖系统 API 和预设规则，界面一改版就得重配，维护成本高，灵活性差。

GUI 智能体基于视觉理解，像人一样“看”屏幕、“理解”界面、“决定”下一步操作。界面改了？它能自适应，因为它理解的是语义，不是像素坐标。

这个差异意味着什么？意味着 GUI 智能体可以操作任何人类能操作的软件——不管是现代 SaaS 工具、老旧的 ERP 系统，还是只有图形界面没有 API 的专业软件。它解锁的不是某一个系统的自动化，而是通用的桌面自动化能力。

三、行业现状：能力很强，但有两个根本性问题

截至目前，GUI 智能体赛道的主流方案几乎都走了同一条路：依赖云端大模型推理。底层逻辑都是“截屏→上传云端→模型推理→返回操作指令”。

这条路有两个根本性的问题：

第一个问题是数据安全。你的每一张屏幕截图都在云端服务器上走了一遭。对于个人用户操作浏览器这种场景，这或许可以接受。但当企业把 GUI 智能体用在审查合同、处理财务报表、录入客户数据等核心业务时，合规团队会问：“这些截图存在哪里？谁能看到？保留多久？”

第二个问题更根本：云端 AI 不可能真正“主动”帮你。真正有用的 AI 助手应该是主动的——自己发现你有个会议快开了，自动帮你准备资料；看到重要邮件，自动提醒你。但这种主动性意味着 AI 要不停地自发运算。在云端，每一次运算都消耗平台的算力和费用——AI 越主动，平台越亏钱。所以云端平台必然限制 AI 的主动性，这就是为什么你用 ChatGPT 从来不会看到它主动找你。

端侧模型从根本上解决了这两个问题：AI 跑在你自己的设备上，用的是你自己的芯片和电——它主动运行一万次也不花平台一分钱；同时数据一步都不出你的设备。

这就引出了一个关键问题：有没有一种端侧方案，性能也能达到顶级？

四、Mano-P：72B 屠榜，4B 上机

在上述格局中，明略科技近期开源的的 Mano-P 占据了一个独特的位置：专用模型性能第一 + 端侧本地运行。

性能：不是“也能用”，是“最能打”

基准测试	Mano-P 成绩	排名	说明
OSWorld（专用模型）	58.2% 成功率	全球第一	领先第二名（OpenCUA-72b, 45.0%）13.2个百分点
OSWorld（全部模型）	58.2% 成功率	前五	前四均为千亿参数级通用大模型
WebRetriever Protocol I	41.7 NavEval	全球第一	超越Gemini 2.5 Pro CU（40.9）和Claude 4.5 CU（31.3）
ScreenSpot-V2	93.5	领先	GUI Grounding视觉定位
MMBench	87.5	领先	感知认知
UI-Vision	46.6	领先	UI视觉理解
OS-World-G	69.5	领先	OSWorld视觉定位子任务
端侧推理（4B量化，M4 Pro）	476 tokens/s预填充，76 tokens/s解码	—	峰值内存仅4.356GB

72B 模型屠榜证明技术实力，蒸馏为 4B 上机证明日常可用。对于Mano-P来说，能力和便捷不是二选一。经过专项训练和优化的专用模型，完全可以在特定任务上达到甚至超越通用大模型的水平。端侧模型不等于弱模型。

安全：不是“更安全”，是“架构级安全”

Mano-P 的本地模式不是在已有的云端架构上“加了一层加密”，而是从架构层面消除了数据外泄的可能性：

安全维度	Mano-P 端侧方案	典型云端方案
数据流向	所有推理在本地完成，截图不出设备	截图上传到云端服务器处理
离线能力	支持完全离线运行，无需联网	必须联网才能使用
主动性	7×24 不间断运行，无成本限制	平台限制主动频率，越主动越贵
代码审计	完整源代码开源，企业可自行审查	闭源黑盒，依赖服务商承诺
合规适配	天然满足数据本地化要求	需额外合规评估和协议

对于金融机构审查合同、医疗机构处理病历、政务系统录入公民信息等场景，这种“架构级安全”不是加分项，而是准入门槛。

技术：怎么做到“又大又快”

在一台 Mac 上运行大参数模型做 GUI 操作，听起来不太现实。Mano-P 靠三项核心技术解决了这个问题：

GSPruning 视觉 Token 剪枝：处理高分辨率屏幕截图时，智能保留界面结构骨架和关键 UI 元素，将视觉 Token 数量压缩至 12.57%——相当于只看屏幕上最重要的 13% 信息，推理速度提升数倍，而任务成功率几乎不损失。
混合精度量化（w4a16）：用更紧凑的方式存储模型——权重用 4bit，激活值保留 16bit。效果：4B 量化版本在 M4 Pro 上峰值内存仅 4.356GB，每秒能吐出约 300-400 个中文字，跑 AI 的同时你还能正常办公。
Mano-Action 双向自增强训练：传统模型只学“你告诉我点哪里，我就点哪里”。Mano-P 同时学习正向和反向两个方向，通过循环一致性互相验证。配合三阶段渐进训练（监督微调→离线强化学习→在线强化学习），模型从“背操作手册”进化到“真正学会操作界面”。

五、怎么让 Mano-P在本地设备上自主操作界面完成任务？

Mano-P 提供了三种使用形式，覆盖从开发者到普通用户的不同需求：

使用形式	适合谁	安装方式	特点
命令行工具（mano-cua）	开发者、高级用户	`brew install mano-cua`	终端直接运行任务
Python SDK（mano-client）	Python 开发者	`pip install mano-client`（开发中）	集成到现有项目，支持异步调用
AI Agent Skill（mano-skill）	AI Agent 平台用户	OpenClaw 插件安装	Agent 编排 + GUI 执行无缝衔接

其中 mano-skill 最值得关注。作为 OpenClaw 等 AI Agent 平台的技能插件，Mano-P 赋予了 Agent “看屏幕、动鼠标”的能力。OpenClaw 是大脑，Mano-P 是双手——全链路开源，全程端侧运行，数据一步不出你的设备。

举个例子：你在 OpenClaw 中对 Agent 说“帮我把这份报告的数据录入到公司的 ERP 系统里”，Agent 自动规划任务步骤，需要操作界面时调用 mano-skill，Mano-P 接管屏幕操作——整个过程在本地完成，Agent 编排和 GUI 执行无缝衔接。

运行时，屏幕右上角会显示一个状态面板，实时显示任务进度，用户可以随时暂停或停止。每一步操作执行前，敏感或潜在危险的操作会要求用户确认——AI 干活，人类监督。

六、从“能用”到“敢用”：三阶段开源路线

GUI 智能体赛道正处于从“技术验证”到“规模落地”的关键转折点。

从技术趋势看，两个方向正在同步发展：一是通用大模型持续提升 GUI 操作能力，二是专用端侧模型通过精巧的训练和优化方法，在更小的参数规模上逼近甚至超越通用模型的任务表现。Mano-P 已经用实测数据证明了后一条路线的可行性——而这条路线天然兼容数据安全和合规要求。

Mano-P 代表的端侧路线给出了一个清晰的回答：AI 最强大的能力，应该跑在每个人自己的设备上。开源、本地、可审计——AI 最强大的能力，应该跑在每个人自己的设备上。这不是一句口号，而是一个正在被实现的技术路线。

阶段	开放内容	目标用户	状态
Phase 1（当前）	开源 CUA Skills——GUI 操作的技能库	Agent爱好者，OpenClaw/Claude Code用户	已发布
Phase 2	开源本地模型 + Python SDK——完整的端侧推理能力	高安全需求开发者，本地部署	即将开放
Phase 3	开源训练方法 + 剪枝量化技术	研究人员、模型训练者	规划中

立即体验：`brew install mano-cua`

七、常见问题

Q: Mano-P 是什么？

Mano-P 是一个开源的 GUI-VLA（Vision-Language-Action）智能体，设计用于在苹果芯片边缘设备上本地运行。它使用纯视觉理解来跨平台自动化桌面 GUI 操作。Mano 是西班牙语里”手”的意思，P 有两重含义：Person（个体）与 Party（组织）——我们相信，无论个人还是企业，都能够创造属于自己的个性化 AI。核心理念：AI for Personal = 隐私 + 个性化。

Q: Mano-P 与 Claude Computer Use 相比如何？

对比维度	Mano-P	Claude Computer Use
OSWorld（全部模型）	58.2%（专用模型第一，全部模型前五）	全部模型第一（千亿参数级通用大模型）
WebRetriever Protocol I	41.7 NavEval（领先）	31.3（Claude 4.5）
数据流向	完全本地，截图不出设备	需上传到云端 API
离线运行	✅ 支持	❌ 不支持
主动性	✅ 7×24 无限制运行	⚠️ 受平台算力成本限制
开源	✅ Apache 2.0 协议	❌ 闭源

Mano-P 在专用模型中排名全球第一，在网页检索等任务上领先 Claude，且天然满足数据安全要求。适合高安全需求场景。

Q: Mano-P 可以离线运行吗？

可以！在本地模式下，所有模型推理都在 Apple M4 设备上运行。✅ 不会向外部服务器发送任何截图或任务描述。

Q: 需要什么硬件配置？

最低要求：Mac mini 或 MacBook；Apple M4 芯片；32GB 内存

替代方案：任何 Mac + Mano-P 算力棒（通过 USB 4.0+ 连接）

我们计划在未来支持更多设备。

了解更多：[GitHub – Mininglamp-AI/Mano-P] (https://github.com/Mininglamp-AI/Mano-P)

联系我们：model@mininglamp.com