在昨天拿到ManusAI的测试码、连续进行了数个小时的测试之后,有不少在手机/PC厂商的工程师/产品经理朋友,来找我「打听」ManusAI的真正能力如何。
为什么硬件行业这么关注Manus?这与当下硬件行业最受关注的概念——LAM有关。LAM是一个从LLM延伸而来的名词,全名为大型行动模型(LargeActionModels),也称为大型智能体模型。
与LLM致力于「超越人类」,因此在训练方法上也经常突破人类经验完全不同,现阶段LAM想要做到的,是成为人类的手,去作为人类用户在数字世界中的代理人。
这与Manus的核心理念有相通之处。目前而言,ManusAI的体验,围绕在一个运行在云端的Ubuntu操作系统虚拟机上,同时在操作系统中打开Chrome浏览器界面,在网页中或是调用其他软件,来完成各种用户的请求。
为了完成这个要求,Manus需求同时具备「自然语义理解和计算机视觉」,以及「用户行为习惯学习与场景感知」,同时拥有「意图识别自主决策」的能力,当然最重要的,同时也是让ManusAI与此前的ComputerUse在体验上拉开明显差距的,还是「跨应用调用工具」的能力。
举例来讲,对于常见的「能不能用ManusAI生成一段视频」这个问题,严格来讲回答是「可以」,但ManusAI去生成一段视频的方式,也是通过在网络上搜索第三方AI视频生成工具,并在这个过程中使用到各种工具,来完成用户的请求。
01、LAM真正的未来
进入2025年,AgentAI,或者说LAM在端侧的落地,已经是再明显不过的趋势。但怎么落地,以及最终呈现给用户的会是怎样的商业产品,仍然有很多问题。
早在2024年初,彼时发布的RabbitR1硬件,以及对应的LAM工具——RabbitLAMPlayground其实已经展现出了今天我们在ManusAI中看到的能力雏形。
在官方的演示中,RabbitR1所搭载的LAMPlayground,能主动帮助用户完成类似音乐播放、打车等服务,实际上背后的技术原理,就是通过使用LAM来访问对应服务的网站,通过模拟人类与网站的交互方式,完成用户指令中的工作内容。
但彼时的RabbitPlayground受限于模型以及开发能力的限制,还并不能做到像人类一样,在互联网中畅通无阻。
在实际用户的测试中,面对类似人机验证这样的场景RabbitPlayground仍然难以通过,也无法使用第三方工具,来完成生成复杂表格、导出PPT这样的用户需求。
由于在实际使用中面临着诸多挑战,RabbitR1作为一款明星AI硬件,很快就退出主流用户的视野,AI时代的热点变化的是如此之快,以至于到了2025年年初,在互联网上已经很难找到关于这款产品讨论的声音。
但LAM这个概念,作为一个可能改变人类用户与智能硬件设备交互的火种,留存了下来,仍然作为行业中一个重要的研究方向而存在。
ManusAI的出现,尤其是它在自然语义理解,以及在互联网访问网站时,面对各种各样的人机识别,都能「畅行无阻」的能力,让不少仍然在致力于LAM产品开发、并希望在今年推出相关测试产品的人,再次看到了一个契机,并希望通过ManusAI目前的能力以及展现出的短板,来进一步完善自己的产品。
ManusAI已经能在遇到各种人机验证时成功通过,大幅提升了对互联网的访问能力|图片
目前,在致力于开发LAM产品、来提升用户对手机/电脑等产品使用体验的硬件厂商中,系统级厂商在做LAM中,有着最明显的优势。
「ManusAI这种命令执行方式,对于算力要求非常高,但如果是浏览器或智能手机操作系统来做这件事,能通过获得更多高质量数据的方式,大幅降低算力成本与提升运行速度」。
「做通用LAM并不用针对某些单一网站去适配,虽然在某些场景下可能」
「ManusAI中的一些简单的场景,并不需要完全搬到(云端)上面去处理,反而是留在端侧效果会更好」据这位面向桌面端开发LAM应用的开发者介绍,当前的端侧模型经过针对性训练之后,目前也能实现简单的通用网页访问并内容识别能力,已经能初步完成例如「访问旅游相关网站并制定旅游计划」这样的需求。
此外由于端侧有着更便捷的文件管理系统,同时也有更强大的本地文件管理工具,遇到类似「整理并分析简历」这样的需求,端侧LAM同样能做到更好的效果。
在我的实际测试中,我想要让ManusAI帮我生成一个PPT文件,它就能自动在电脑上安装对应的依赖环境,然后利用工具来自动完成PPT生成,虽然最终仍然完成了用户指令中的需求,但仍然因此大幅拉低了对请求的响应时间。
02、如何理解Manus的意义
当前,ManusAI展示出的逻辑中,已经向外界展示了LAM在「生产力」领域能带来怎样的改变,但仍然有很多问题亟待解答。
其中最重要的,也是被问到最多的,或许就是商业化这件事:不少用户对于ManusAI这样的服务,最终会定价多少有着诸多的猜测。
除了类似ManusAI这样,完全交给云端运行,用户端只需要「输入命令-返回成果」的模式,前面提到的不少硬件厂商,实际上是将端侧/云端混合运行的模式作为主流方案。
这其实也暗示了,未来LAM的发展,或许将分为两个不同的主流方向;不仅有基于现有硬件算力,在端侧实现性能稍差的LAM,也有完全基于云端的「数字代理」服务。
但这样的服务,距离最终投向市场可能还有不小的距离。「ManusAI如果订阅的话,这样的服务20美元(订阅费)显然是完全不够的。」一位目前就职于手机厂商,研发LAM端侧应用的工程师对此评价道。
仅仅是全程虚拟机运行以及以及实时显示内容串流的高昂成本,就足以成为此类服务现阶段面向普通消费级市场的最大阻力。
对于以ChatGPT为代表的LLM产品来讲,过去几年已经迅速建立起一套行之有效的订阅系统,用户也在「每个月20美元」的周期往复中,建立起了一个准确的心理预期。
如果LAM未来想要以这种「前端硬件+后端云服务」的方式继续存在,同样也要经历这样一个过程,同时在这个过程中将订阅成本快速拉低,最终将这一商业模式跑通。
随着完全在云端部署的LAM进一步完善,我们大概率会再次看到像RabbitR1这样、有着更灵活形态的AI硬件设备出现:它可以是智能手表、也可以是AI眼镜,甚至都可能是完全不需要屏幕的智能耳机等设备。
到这个阶段,LAM实际上已经进化成了AgentUI:用户并不再需要传统手机桌面、浏览器那样的用户交互界面,只需要一个供用户输入指令的方式,以及接受LAM最终交付成果的终端。
它或许不如LLM那样科幻,但它却是在现有硬件的基础上,短期内我们能看到最明显、最有能力给用户与硬件的交互,带来改变的方向。
随着ManusAI进一步将LAM以及AgentAI能做到什么,展现给更多普通用户,这或许就是ManusAI在这场浪潮最终退去之后,给我们留下的最重要的收获。
「即便最终赢家不是它,它也足够意义重大。」一位LAM产品经理这样评价ManusAI的行业价值。
评论列表