面壁智能开源全模态模型MiniCPM-o4.5,边看边听还能主动抢答
面壁智能开源全模态模型MiniCPM-o4.5,边看边听还能主动抢答
  • 2026-03-17 23:28:21
    来源:漫天过海网

    面壁智能开源全模态模型MiniCPM-o4.5,边看边听还能主动抢答

    字体:

    henry 发自 凹非寺量子位 | 公众号 QbitAI

    空气炸锅“叮”了一声。

    我还没反应过来,AI先开口了:“好了,它已经叮了。”

    这不是语音助手升级,而是面壁智能刚开源的全模态模型MiniCPM-o4.5

    手机往厨房一放,它能一边跟你说话,一边盯着灶台、听动静。

    不再是“你问一句、它答一句”,而是边看、边听、主动说的AI。

    AI开始竖起耳朵,瞪大眼睛

    既然这AI这么能盯,还能提醒,那是不是干脆给它挂在教室、楼道门口?

    老师家长一来就提醒我,岂不美哉?(doge)

    Wwwwwait!AI肯定不是这么用的。

    不过,在实测和官方用例里,我们确实发现了一件挺有意思的事:它能干的事儿,已经和以前的AI不一样了。

    先说最直观的。

    这次面壁的MiniCPM-o4.5,最大的变化,其实就一句话:它能一边听、一边看,还能主动说

    比如逛超市,人往前走,货架在变,商品也在变。

    随口问一句:水果都什么价?它立马接得上。

    这里的关键不在“答得快”,而在于它在回答我的同时,眼睛其实没停,一直跟着你看。

    你走着,货架在变,它也能马上接话,就像旁边有个朋友。

    要是放在以前的AI身上,基本就是你问一句,它答一句。

    等它下一次再说话,才重新“看”一次世界,加载的圆圈多少要重新开始转几圈。

    再比如出门上班。你走进电梯,刷着手机,脑子已经在想别的事了。

    你只需要在一开始告诉它提醒你,它就能持续识别电梯楼层的变化,在你该下的时候,直接开口提醒。

    还有一点也很关键:MiniCPM-o4.5不需要你先开口,也能主动应答

    这一点,在开头的测试里表现得特别明显。因为在现实场景中,等你再去问一句“好了没”,往往已经晚了。

    真正有用的是——你没问,AI听到“叮”的一声,直接来一句:“加热好了。”

    此外,我们还发现MiniCPM-o4.5一个挺反直觉的地方:它在说话的时候,也还在听

    因为大家都知道,人一旦开口说话,注意力基本就不在“听”上了。

    但o4.5不一样,一方面,它能一边跟你聊天,一边留意外界的动静——

    敲门声、烧水声、空气炸锅“叮”的那一下,都不会被漏掉。

    更狠的是,在它自己说话的时候,也能听见你新插进来的指令,能实现即时自由对话

    为此,我们刻意做了件有点“为难”模型的事。

    它正在解说画面的蓝色鸭子在哪里,这时我突然插一句新的要求,让它告诉我小黄(鸭子)在哪里。

    结果是,MiniCPM-o4.5在说完上句话后,立马回答了这句突然插入的话。

    这也让MiniCPM-o4.5跟那种一问一答的AI不一样。

    它不是等你说完一句再轮到它,而是一边听、一边说,一边随时改口

    换句话说,今年的AI已经不玩回合制问答,开始整临场反应,学会抢答了。

    顺带一提,除了上面这些,还有更“邪修”的玩法。比如让AI解说实况比赛,或者盯着你练组数、数次数。

    我们就不一一演示了,链接在最后,留给大家自己去慢慢折腾。

    首个可以「即时自由对话」的大模型

    那么,上面这些“自由对话”是怎么做到的?

    关键在于MiniCPM-o4.5对交互方式本身做了重构

    以往的多模态模型,本质是串行的:先听完,再想,再说。

    一旦开始输出,模型对外界输入的感知就会被暂停,形成典型的I/O阻塞,这是无法边看边听边说的原因。

    在MiniCPM-o4.5中,面壁团队首次引入了全双工(Full-Duplex)多模态实时流机制。模型可以一边持续接收视频和音频输入,一边同步生成语音或文本输出,两条信息流并行运行,互不阻塞。

    在实现上,MiniCPM-o4.5将原本离线的模态编码器与解码器,升级为支持流式输入/输出的在线版本;

    语音侧采用文本与语音token交错建模,既支持全双工语音生成,也提升了长语音生成的稳定性。

    同时,通过时分复用机制,对在毫秒级时间线上对齐的多模态输入与输出进行统一建模,实现高效的流式处理。

    在整体架构上,MiniCPM-o4.5采用端到端的全模态设计,通过稠密特征将各模态的编码器与解码器直接连接到大语言模型主干,视觉、音频等模态在模型生成输出的同时仍能持续更新。

    除了并行处理,MiniCPM-o4.5还改变了对话时机的判断方式。模型会持续进行语义层面的判断,并以1Hz的频率决定是否介入回应,而不再依赖“检测到静音就回答”的VAD(语音互动检测)机制。

    (传统语音助手往往依赖外部的VAD:一旦检测到短暂静音,就认为用户“说完了”并开始回答)

    这使得模型不仅能被自然打断,还能基于对场景的持续理解,主动发起提醒或评论。

    这也是为什么前面我还没把话说完,它就已经“抢答”了。

    此外,值得一提的是,在Benchmark测试上,MiniCPM-o4.5的表现同样亮眼。

    在仅9B参数规模下,模型在全模态理解、视觉理解、文档解析、语音理解与生成,声音克隆等多个方向上,均达到了当前全模态模型的领先水平

    那么像MiniCPM-o4.5这样,边看、边听、主动说的AI,意味着什么?

    最近,Clawdbot(现已更名为OpenClaw)的爆火,其实已经提前给了答案:人们真正需要的,可能不是“更聪明的问答机”,而是能持续运行、一直在场的AI

    不是你问它一句,它才醒一下;而是它本来就在运行,在看、在听,也随时准备说话。

    这,正是这类“边看、边听、主动说”的模型真正产生价值的地方。

    过去的AI,更像对讲机。你说完,它才听;它一开口,外界就等于被按了暂停键。

    而这一次,面壁做的尝试是:让AI在说话的时候,世界周遭事物依然是流动的。它在持续感知世界的同时,也在持续参与对话和行为,而不是仅在节点式的“提问/回复”之间来回倒腾。

    也正因为这样,它能自然地延展到更多地方:

    对具身智能来说,感知、决策、动作本来就不该被拆开;对车端或终端助手来说,真正有用的往往不是“回答问题”,而是在合适的时机接话;对复杂系统来说,“等一下再想”本身就是一种失效。

    因此,全双工并不是体验升级,而是AI能否真正进入现实连续世界的分水岭。

    也正是在这个意义上,面壁将MiniCPM-o4.5定义为一款全模态的基础模型,并以此作为后续赋能汽车、手机、机器人等各类终端形态的起点。

    面壁智能:只做端,把端做到极致

    面壁智能成立于2022年8月。

    在端侧AI还远没成为行业热词、讨论重心仍集中在云端和算力堆叠时,面壁就已经把方向押在了端侧AI模型这条路上。

    这次发布的MiniCPM-o4.5,由清华大学人工智能学院助理教授、面壁智能多模态首席科学家姚远牵头研发。

    在整场发布中,面壁反复强调了两个关键词:软硬一体,端侧部署

    以MiniCPM-o4.5为例,它主打的是持续感知视觉和听觉环境。而这种“全天候伴随”的AI形态,本身就无法以云端为主要形态存在。

    一方面是不可回避的隐私风险;另一方面,是延迟、稳定性和可用性在工程上根本扛不住。

    也正因为如此,MiniCPM-o4.5从一开始就被定义为一款端侧模型,并且与面壁长期坚持的端侧路线保持高度一致。

    面壁智能联合创始人、CEO李大海在采访中提到:

    端侧模型的目标,本来就是赋能终端,而赋能终端天然就要跟端侧芯片要做更深的结合。

    据透露,过去近两年,面壁与多家芯片厂商形成了一种高度协同的工作方式:

    芯片在设计阶段就向模型侧开放,验证架构是否匹配未来模型需求;模型研发也同步反向输入,对算子形式与硬件能力提出明确要求。

    这种软硬一体、双向奔赴,已经成为模型演进的前提条件。

    在具体的路径上,面壁智能联合创始人、COO雷升涛则给出了更清晰的拆解:

    端原生模型:不把云端模型压缩下来跑,而是在训练阶段就以端侧芯片为目标环境,让模型“生来就能跑在端上”。软硬协同的Infra层:包括量化、精度压缩之后能力如何保持。这一层技术难度极高,依赖长期积累,是最核心的壁垒。产品化交付:把这些能力打包成可直接使用的方案,交付给客户和合作伙伴,跑在不同终端上。

    像面壁计划在年中发布的首款AI硬件松果派(Pinea Pi),用于支持硬件场景的全栈开发,以及过去一年多在智能座舱等方向的落地,都是这条软硬协同路线的具体体现。

    从这个角度看,MiniCPM-o4.5本身也可以被理解为一款端侧原生的全模态模型。

    据面壁智能介绍,MiniCPM-o4.5将与松果派这款AI Native的端侧智能开发板配套推出,计划于今年上市,在开发板上实现“开箱即用”,面向开发者快速构建端侧智能硬件。

    与此同时,松果派等端侧硬件本身,也构成了面壁在生态层面的能力:

    在发布模型的同时,就明确指定并深度适配好的硬件平台,让开发者更快上手,让终端厂商更快把能力真正跑进场景里。

    本质上,这是在打通端侧模型到应用的最后一公里

    当被问及如何看待有越来越多玩家进入端侧市场时,面壁也指出了一个常被误解的地方:很多人把“端侧”当成一个统一市场。

    但在面壁看来,其实恰恰相反——端侧由大量差异化终端和长尾高价值场景构成。

    从技术上看,端侧的关键不是规模,而是用尽可能少的参数,实现尽可能强的能力。

    从商业上看,这也意味着:这是一个可以同时容纳很多创业公司的市场,而不是必须打“阵地战”的地方。

    也正是在这种背景下,面壁给出的差异化非常明确:

    我们最大的差异化就是我们只做端,而且我们把端做到极致。如果一家公司专注于做端的话,那我觉得其他公司可能很难跟我们相比把端做得这么好。

    从两三年前手机、车、机器人普遍质疑“真的需要大模型吗”,到今天逐渐成为共识,端侧AI正在不断被重新定义。

    而MiniCPM-o4.5所呈现的,并不是一次炫技式的能力展示,而是面壁这条路线走到今天的自然结果:

    只做端,把端做到极致

    GitHub:https://github.com/OpenBMB/MiniCPM-oHuggingFace:https://huggingface.co/openbmb/MiniCPM-o-4_5ModelScope:https://www.modelscope.cn/models/OpenBMB/MiniCPM-o-4_5体验链接-全双工全模态模式:https://huggingface.co/spaces/openbmb/minicpm-omni体验链接-图文对话模式:http://211.93.21.133:18121/

    【纠错】【责任编辑:源哥太帅了】