端侧模型部署:从“技术可行”到“生产可用”,Mano-P 给出了经过验证的答案
2026-05-21
企业想要用 AI 自动化处理敏感数据,但云端方案要求把截图和文档上传到远程服务器,这在金融、医疗、政务等高合规场景是致命伤。数据安全法、GDPR等都在把“数据不出域”变成硬性要求,云端 API 再好,只要截图需要上传,就存在合规风险。
现有的本地 AI 方案要么只能聊天、不能操作软件,要么依赖复杂的 API 集成。最关键的是,市面上没有真正能在端侧运行、又能像人一样看懂屏幕操作 GUI 的智能体。
2026 年,明略科技分阶段开源了 Mano-P——可在 Mac 本地运行的 GUI-VLA 智能体模型,OSWorld 评测全球第一。它核心解决的,是从“云端依赖”到“本地自主”的关键跃迁。

端侧模型部署(Edge AI Deployment),简单来说就是把原本跑在云端数据中心的大模型,“搬”到用户的本地设备上运行——MacBook、工控机、甚至一块即插即用的算力棒。
这与传统的“调用云端 API”有本质区别:
| 维度 | 云端 API 方案 | 端侧部署方案 |
| 数据流向 | 截图/文档上传至远程服务器 | 数据全程不离开本地硬件 |
| 隐私边界 | 依赖服务商的信任承诺 | 物理隔离,截图只在内存中处理 |
| 离线能力 | 必须联网 | 7×24 小时离线可用 |
| 成本模式 | 按调用/Token 持续付费 | 一次性硬件投入,边际成本趋零 |
2026 年以来,端侧模型部署的关注度持续攀升。苹果 M4/M5 芯片的 Neural Engine 算力不断刷新记录,MLX 等端侧推理框架生态日趋成熟,量化剪枝技术让大模型“瘦身”的同时保持能力。这些信号共同指向一个趋势:端侧部署不再是“极客玩具”,而是 AI 产品落地的标准配置。
尤其对于 GUI Agent 这个品类,端侧部署有不可替代的价值。GUI 操作天然涉及屏幕上最敏感的信息:财务报表、客户数据、内部系统、聊天记录。把这些截图发到云端,即便服务商承诺“不存储”,也改变不了数据曾经离开设备的事实。端侧方案把隐私安全从“信任承诺”变成“物理隔离”——这才是高敏感场景的真正解法。
一个 72B 参数的模型,FP16 精度下需要约 144GB 内存。普通设备根本装不下。解决路径是量化(Quantization)——把模型权重从高精度浮点数压缩到低精度整数。
Mano-P 采用 w4a16 混合精度量化(权重 4-bit、激活值 16-bit),4B 模型峰值内存占用仅 4.36GB。这意味着一台 32GB 内存的 Mac mini,可以同时跑模型还能正常办公。
端侧芯片的算力有限,如何在高分辨率 GUI 场景下保持流畅?答案是视觉 Token 剪枝。
Mano-P 采用专有的 GS-Pruning(梯度敏感剪枝)算法,将视觉 Token 压缩至约 13%——模型只看屏幕上最关键的按钮、输入框和菜单项,冗余背景直接裁剪。这使得 4B 量化模型在 Apple M4 Pro 上实现:
• 476.95 tokens/s 预填充速度
• 76.75 tokens/s 解码速度
首次响应延迟低于 1 秒,真正达到“人可感知”的实时级别。
衡量 GUI Agent 能力的金标准是 OSWorld——目前最权威的 GUI Agent 评测基准,覆盖复杂的多步骤桌面操作任务。
Mano-P 1.0-72B 在 OSWorld 专用模型榜上取得 58.2% 成功率,领先第二名 OpenCUA-72b(45.0%)达 13.2 个百分点,位列全球第一。在 WebRetriever Protocol I 评测中拿到 41.7 NavEval,超越 Gemini 2.5 Pro Computer Use(40.9)和 Claude 4.5 Computer Use(31.3)。
72B 模型证明技术上限,4B 是针对端侧场景独立优化的版本,而非简单的“缩水版”。
当前市场上的 Computer Use / GUI Agent 方案,按部署位置和数据流向可分为四类:
| 路线 | 代表方案 | 数据安全 | 离线可用 | 成本模式 | 适用场景 |
| 云端 API 调用 | Claude Computer Use、OpenAI CUA | ⚠️ 截图/任务描述上云 | ❌ 需联网 | 按调用/Token 计费 | 通用任务、低敏感场景 |
| 云端虚拟桌面 | Manus 等 | ⚠️ 整个桌面环境在云端 | ❌ 需联网 | 按时长/订阅计费 | 复杂工作流、有网环境 |
| 端侧纯视觉 | Mano-P | ✅ 截图不出设备 | ✅ 完全离线 | 一次性硬件成本 | 高敏感数据、离线场景 |
| 混合自建 | 企业私有化部署 | ⚠️ 部分组件上云 | ⚠️ 依赖配置 | 混合 | 大企业定制 |
Mano-P 选择的是端侧纯视觉路线。它不像传统 RPA 那样依赖系统 API 或浏览器协议,也不像云端方案那样把截图发到远程服务器。它通过纯视觉理解来“看”屏幕——识别按钮、输入框、菜单项的语义位置和含义,然后自主规划操作步骤,在本地完成推理和执行。
这种路线的代价是对硬件有门槛(M4 + 32GB 内存是最低配置),但换来的是物理隔离级的隐私安全和零边际成本的长期运行。
明略科技开源的 Mano-P 是目前端侧 GUI Agent 赛道中技术验证最充分的项目。它的核心设计是“双版本架构”:
• 72B 完整模型:OSWorld 专用模型榜全球第一(58.2%),WebRetriever Protocol I 领先(41.7 NavEval),负责”秀肌肉”
• 4B 量化模型(w4a16):专为本地运行设计,Apple M4 Pro 上 476 tokens/s 预填充、76 tokens/s 解码,负责”进千家万户”
两个版本分别针对不同部署场景优化——72B 追求能力上限,4B 追求端侧实用。4B 模型通过混合精度量化和视觉 Token 剪枝,在端侧设备上实现高效运行。
核心技术栈:
• Mano-Action 双向自增强学习方法
• 三阶段渐进式训练:SFT → 离线强化学习 → 在线强化学习
• “思考-行动-验证”循环推理机制
• GS-Pruning 梯度敏感剪枝算法
端侧版本通过混合精度量化、视觉 Token 剪枝和边缘推理自适应等优化,使大参数量模型能够在 Mac mini/MacBook/算力棒等端侧设备上高效运行。
Mano-P 采用 Apache License 2.0 开源协议,允许商业使用、修改和分发。目前提供三种使用形式:
1. mano-cua(CLI 命令行工具)——已发布
适合开发者和高级用户,两步命令安装:
brew tap HanningWang/tap
brew install mano-cua
运行示例:
mano-cua run “打开微信并告诉 FTY 会议延期”
mano-cua run “在小红书搜索 AI 新闻并展示第一条帖子”
2. mano-client(Python SDK)——开发中
适合需要将 GUI 自动化集成到 Python 项目的开发者:
from mano_client import ManoClient
client = ManoClient()
client.run(“打开微信并告诉 FTY 会议延期”)
3. mano-skill(Agent 技能插件)——已发布
适合 OpenClaw、Claude Code 等 AI Agent 平台用户:
clawhub install mano-cua
三种方式都支持本地模式(数据完全不出设备)和云端模式(无本地模型时自动切换)的双模式运行。
Q: Mano-P 是什么?
Mano-P是明略科技开源的端侧GUI-VLA智能体。Mano是西班牙语中“手”的意思,P有两重含义:Person(个体)和Party(组织)。它能像人一样通过纯视觉理解操作电脑界面,支持在Mac上完全本地运行。
两者的核心区别在于架构:Claude Computer Use将屏幕截图上传到Anthropic的云端服务器进行分析和决策;Mano-P在你自己的Mac上完成所有推理,截图和操作数据不出设备。在性能上,Mano-P 1.0-72B在OSWorld上取得58.2%(专用模型全球第一),在WebRetriever Protocol I上取得41.7 NavEval,均超越同类云端方案。本地AI不等于弱AI。
可以。本地模式下,Mano-P的模型完全运行在你的Mac设备上,不需要网络连接。所有截图分析、任务规划和GUI操作都在本地完成。
最低配置为Apple M4芯片 + 32GB内存的Mac mini或MacBook。4B量化模型的峰值内存占用仅4.3GB,不会影响日常使用。也支持通过USB 4.0或更高版本端口连接的算力棒进行部署。
通过 Homebrew 安装:`brew tap HanningWang/tap && brew install mano-cua`。
架构级安全保障:本地模式下,Mano-P的所有推理在设备本地完成,屏幕截图不上传、不外传,支持完全离线运行。Apache 2.0 开源协议,代码可审计。
技术论文:arXiv:2509.17336
GitHub:github.com/Mininglamp-AI/Mano-P
联系邮箱:model@mininglamp.com
信息填写