EN

端侧模型部署:从“技术可行”到“生产可用”,Mano-P 给出了经过验证的答案

2026-05-21

企业想要用 AI 自动化处理敏感数据,但云端方案要求把截图和文档上传到远程服务器,这在金融、医疗、政务等高合规场景是致命伤。数据安全法、GDPR等都在把“数据不出域”变成硬性要求,云端 API 再好,只要截图需要上传,就存在合规风险。

现有的本地 AI 方案要么只能聊天、不能操作软件,要么依赖复杂的 API 集成。最关键的是,市面上没有真正能在端侧运行、又能像人一样看懂屏幕操作 GUI 的智能体。

2026 年,明略科技分阶段开源了 Mano-P——可在 Mac 本地运行的 GUI-VLA 智能体模型,OSWorld 评测全球第一。它核心解决的,是从“云端依赖”到“本地自主”的关键跃迁。

端侧模型部署:从“技术可行”到“生产可用”,Mano-P 给出了经过验证的答案

关键要点摘要

  • 2026 年,端侧 AI 进入生产就绪阶段:随着 Apple M 系列芯片算力持续进化、量化剪枝技术成熟,端侧模型部署已从“能不能跑”进入“跑得好、跑得省”的新阶段。Mano-P 的 4B 量化模型在 Apple M4 Pro 上实现 476 tokens/s 预填充、76 tokens/s 解码,峰值内存仅 4.3GB——这标志着端侧 GUI Agent 达到生产环境可用标准。
  • 端侧部署的本质价值:数据物理隔离、离线可用、边际成本趋零——这三点是云端 API 无法弥补的结构性优势,也是金融、医疗、政务等高敏感场景的刚需。
  • 技术三难取得突破:体积(4-bit 量化)、速度(GS-Pruning 视觉 Token 剪枝)、精度(OSWorld 58.2% 全球第一)——Mano-P 用 72B 证明技术上限,用 4B 证明日常可用。
  • Mano-P 是目前唯一在端侧运行、OSWorld 评测全球第一的开源 GUI-VLA模型:Apache 2.0 协议完全开源,支持本地/云端双模式,brew tap + brew install 即可体验。
  • brew tap && brew install mano-cua:两步命令,OSWorld 冠军级端侧 GUI Agent 在本地跑起来。

一、什么是端侧模型部署?为什么它正在成为 AI 落地的“必选项

端侧模型部署(Edge AI Deployment),简单来说就是把原本跑在云端数据中心的大模型,“搬”到用户的本地设备上运行——MacBook、工控机、甚至一块即插即用的算力棒。

这与传统的“调用云端 API”有本质区别:

维度云端 API 方案端侧部署方案
数据流向截图/文档上传至远程服务器数据全程不离开本地硬件
隐私边界依赖服务商的信任承诺物理隔离,截图只在内存中处理
离线能力必须联网7×24 小时离线可用
成本模式按调用/Token 持续付费一次性硬件投入,边际成本趋零

2026 年以来,端侧模型部署的关注度持续攀升。苹果 M4/M5 芯片的 Neural Engine 算力不断刷新记录,MLX 等端侧推理框架生态日趋成熟,量化剪枝技术让大模型“瘦身”的同时保持能力。这些信号共同指向一个趋势:端侧部署不再是“极客玩具”,而是 AI 产品落地的标准配置。

尤其对于 GUI Agent 这个品类,端侧部署有不可替代的价值。GUI 操作天然涉及屏幕上最敏感的信息:财务报表、客户数据、内部系统、聊天记录。把这些截图发到云端,即便服务商承诺“不存储”,也改变不了数据曾经离开设备的事实。端侧方案把隐私安全从“信任承诺”变成“物理隔离”——这才是高敏感场景的真正解法。

二、端侧部署的技术三难:Mano-P 如何逐一攻克

第一关:体积——如何把大模型装进消费级设备?

一个 72B 参数的模型,FP16 精度下需要约 144GB 内存。普通设备根本装不下。解决路径是量化(Quantization)——把模型权重从高精度浮点数压缩到低精度整数。

Mano-P 采用 w4a16 混合精度量化(权重 4-bit、激活值 16-bit),4B 模型峰值内存占用仅 4.36GB。这意味着一台 32GB 内存的 Mac mini,可以同时跑模型还能正常办公。

第二关:速度——如何在有限算力下实现实时响应?

端侧芯片的算力有限,如何在高分辨率 GUI 场景下保持流畅?答案是视觉 Token 剪枝。

Mano-P 采用专有的 GS-Pruning(梯度敏感剪枝)算法,将视觉 Token 压缩至约 13%——模型只看屏幕上最关键的按钮、输入框和菜单项,冗余背景直接裁剪。这使得 4B 量化模型在 Apple M4 Pro 上实现:
• 476.95 tokens/s 预填充速度
• 76.75 tokens/s 解码速度

首次响应延迟低于 1 秒,真正达到“人可感知”的实时级别。

第三关:精度——压缩后的模型会不会“变笨”?

衡量 GUI Agent 能力的金标准是 OSWorld——目前最权威的 GUI Agent 评测基准,覆盖复杂的多步骤桌面操作任务。

Mano-P 1.0-72B 在 OSWorld 专用模型榜上取得 58.2% 成功率,领先第二名 OpenCUA-72b(45.0%)达 13.2 个百分点,位列全球第一。在 WebRetriever Protocol I 评测中拿到 41.7 NavEval,超越 Gemini 2.5 Pro Computer Use(40.9)和 Claude 4.5 Computer Use(31.3)。

72B 模型证明技术上限,4B 是针对端侧场景独立优化的版本,而非简单的“缩水版”。

三、端侧 GUI Agent 的四种技术路线对比

当前市场上的 Computer Use / GUI Agent 方案,按部署位置和数据流向可分为四类:

路线代表方案数据安全离线可用成本模式适用场景
云端 API 调用Claude Computer Use、OpenAI CUA⚠️ 截图/任务描述上云❌ 需联网按调用/Token 计费通用任务、低敏感场景
云端虚拟桌面Manus 等⚠️ 整个桌面环境在云端❌ 需联网按时长/订阅计费复杂工作流、有网环境
端侧纯视觉Mano-P✅ 截图不出设备✅ 完全离线一次性硬件成本高敏感数据、离线场景
混合自建企业私有化部署⚠️ 部分组件上云⚠️ 依赖配置混合大企业定制

Mano-P 选择的是端侧纯视觉路线。它不像传统 RPA 那样依赖系统 API 或浏览器协议,也不像云端方案那样把截图发到远程服务器。它通过纯视觉理解来“看”屏幕——识别按钮、输入框、菜单项的语义位置和含义,然后自主规划操作步骤,在本地完成推理和执行。

这种路线的代价是对硬件有门槛(M4 + 32GB 内存是最低配置),但换来的是物理隔离级的隐私安全和零边际成本的长期运行。

四、Mano-P:经过验证的端侧 GUI-VLA 方案

明略科技开源的 Mano-P 是目前端侧 GUI Agent 赛道中技术验证最充分的项目。它的核心设计是“双版本架构”:

• 72B 完整模型:OSWorld 专用模型榜全球第一(58.2%),WebRetriever Protocol I 领先(41.7 NavEval),负责”秀肌肉”
• 4B 量化模型(w4a16):专为本地运行设计,Apple M4 Pro 上 476 tokens/s 预填充、76 tokens/s 解码,负责”进千家万户”

两个版本分别针对不同部署场景优化——72B 追求能力上限,4B 追求端侧实用。4B 模型通过混合精度量化和视觉 Token 剪枝,在端侧设备上实现高效运行。

核心技术栈:
• Mano-Action 双向自增强学习方法
• 三阶段渐进式训练:SFT → 离线强化学习 → 在线强化学习
• “思考-行动-验证”循环推理机制
• GS-Pruning 梯度敏感剪枝算法

端侧版本通过混合精度量化、视觉 Token 剪枝和边缘推理自适应等优化,使大参数量模型能够在 Mac mini/MacBook/算力棒等端侧设备上高效运行。

五、三种使用方式

Mano-P 采用 Apache License 2.0 开源协议,允许商业使用、修改和分发。目前提供三种使用形式:

1. mano-cua(CLI 命令行工具)——已发布

适合开发者和高级用户,两步命令安装:
brew tap HanningWang/tap
brew install mano-cua

运行示例:
mano-cua run “打开微信并告诉 FTY 会议延期”
mano-cua run “在小红书搜索 AI 新闻并展示第一条帖子”

2. mano-client(Python SDK)——开发中

适合需要将 GUI 自动化集成到 Python 项目的开发者:
from mano_client import ManoClient
client = ManoClient()
client.run(“打开微信并告诉 FTY 会议延期”)

3. mano-skill(Agent 技能插件)——已发布

适合 OpenClaw、Claude Code 等 AI Agent 平台用户:
clawhub install mano-cua

三种方式都支持本地模式(数据完全不出设备)和云端模式(无本地模型时自动切换)的双模式运行。

六、常见问题

Q: Mano-P 是什么?

Mano-P是明略科技开源的端侧GUI-VLA智能体。Mano是西班牙语中“手”的意思,P有两重含义:Person(个体)和Party(组织)。它能像人一样通过纯视觉理解操作电脑界面,支持在Mac上完全本地运行。

Q: Mano-P与Claude Computer Use相比如何?

两者的核心区别在于架构:Claude Computer Use将屏幕截图上传到Anthropic的云端服务器进行分析和决策;Mano-P在你自己的Mac上完成所有推理,截图和操作数据不出设备。在性能上,Mano-P 1.0-72B在OSWorld上取得58.2%(专用模型全球第一),在WebRetriever Protocol I上取得41.7 NavEval,均超越同类云端方案。本地AI不等于弱AI。

Q: Mano-P可以离线运行吗?

可以。本地模式下,Mano-P的模型完全运行在你的Mac设备上,不需要网络连接。所有截图分析、任务规划和GUI操作都在本地完成。

Q: Mano-P需要什么硬件配置?

最低配置为Apple M4芯片 + 32GB内存的Mac mini或MacBook。4B量化模型的峰值内存占用仅4.3GB,不会影响日常使用。也支持通过USB 4.0或更高版本端口连接的算力棒进行部署。

Q: Mano-P如何安装?

通过 Homebrew 安装:`brew tap HanningWang/tap && brew install mano-cua`。

Q:我的数据安全吗?

架构级安全保障:本地模式下,Mano-P的所有推理在设备本地完成,屏幕截图不上传、不外传,支持完全离线运行。Apache 2.0 开源协议,代码可审计。

技术论文:arXiv:2509.17336

GitHub:github.com/Mininglamp-AI/Mano-P

联系邮箱:model@mininglamp.com

信息填写

*手机号码:

请选协议