找回密码
 注册

QQ登录

只需一步,快速开始

搜索
查看: 98|回复: 3

[科技新闻] 逛完华强北,我对小模型彻底改观了

[复制链接]
  • 打卡等级:已臻大成
  • 打卡总天数:411
发表于 2026-2-6 08:32 | 显示全部楼层 |阅读模式

马上注册,查看更多内容,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册

×
上周去了趟深圳,逛了一圈华强北。说实话,有点被五花八门的 AI 硬件震到。
各种 AI 硬件,很多形态是之前完全没想过的。AI 眼镜、AI 录音笔、AI 翻译机这些算常规的。
还有 AI 宠物、AI 玩具、AI 香薰机,甚至有个东西叫 AI 鱼缸,能自动识别鱼的状态然后调节水质。
很多产品可能还挺粗糙,但我能感受到一种趋势:有了 AI 能力之后,几乎所有的硬件品类也许都有了新的想象空间。
但这些 AI 硬件足够好用的前提,是它们有一个好的端侧模型。
为什么必须是端侧?两个原因。
第一是响应速度。云端模型要上传数据、处理、再返回结果,中间任何一个环节卡一下,体验就崩了。过个隧道没信号,或者网络抖一下,AI 眼镜就变成了普通眼镜……
第二是隐私。如果未来这些 AI 硬件真的变成全天候陪伴的状态,随时在看、随时在听,记录着生活里的一切。这些数据如果都要传到云上处理,等于把自己完全暴露给一个大公司的服务器。谁受得了?
所以终端设备想要真正智能,就必须有一个跑在本地的模型。要么完全是端侧模型,要么是端云配合。
我由此想到,小模型会成为接下来几年 AI 行业的 Game Changer。
虽然现在大家的焦点还在超级大模型上,但越往后走,越多人会意识到:在很多真实场景里,模型根本不需要那么大。而且有些数据,压根就不能传到云端去。
#01
小模型的可能性
面壁智能周三发了一个非常惊艳的小模型,叫 MiniCPM-o 4.5,参数量 9B,而且开源。
https://huggingface.co/openbmb/MiniCPM-o-4_5

9B 放在现在的语境下,确实是个小模型。和动辄万亿参数的大模型相比,大概是它们的百分之一都不到。
这个小模型在全模态交互上做到了同尺寸的领先水平。它原生支持视频、音频、图像、文本的输入理解,也能输出语音和文本。
语音合成是端到端的,音色和拟人感比之前的模型好不少。而且支持声音克隆。
1.webp

大家要是做 AI 硬件的话,可以关注下。毕竟我觉得 AI 硬件多数的场景里,都需要视觉和语音能力。
这次模型最核心的突破是全双工。这是行业首个原生支持全双工的全模态模型。
什么意思?看下面这个 Case 就明白了。
模型在讲话的时候,画面在不断变化。换作之前的模型,一旦开始输出,就没法再接收新的信息了,只能把之前想好的话说完。
但 MiniCPM-o 4.5 不一样,它说话的同时还在看,画面变了它能立刻感知到,并且实时调整自己的输出。
再比如下面这个 Case,我知道豆包之前就能够实现类似的功能。但豆包是云端模型想象空间就有限。
你想想,如果我们把面壁的这个小模型,部署到一个台灯里,是不是就有更大的可能性。
再比如还有这个场景,我觉得再等等,监控可以部署这样的小模型时,那就太酷了。
查了下,包括 OpenAI,看起来支持实时语音,但它们都没有做到真正的全双工。
豆包我没有 100% 确定它是不是全双工,不过即便是,我感觉场景也没有小模型性感。
全双工这个词有点技术,我稍微解释下。
想象一下发微信语音。你录一段,发出去,等对方听完,再回你一段。录的时候你不知道对方什么反应,对方听的时候你也不知道。一来一回,必须轮流。
现在市面上大多数的 AI 语音交互,本质上都是这个模式。我说一句,AI 回一句。
AI 在回答的时候,其实是闭着眼睛、捂着耳朵的。它不知道你想打断它,不知道旁边发生了什么,只是把之前想好的话念完。
MiniCPM-o 4.5 不一样。它可以边看、边听、边说,三件事同时进行,互不阻塞。
更像打电话,你在说,对方也能同时出声,你能听到对方的反应,随时调整自己说的内容。想插话,不用等对方说完。
为什么之前没人能做到?因为技术上很难。
目前市面上有些模型号称支持双工,但大多是外挂一个叫 VAD 的小工具来实现的。
VAD 是做语音检测的,听到有人说话就告诉模型别说了,听到没人说话就让模型开始回答。
这套方案问题很多:分不清谁在说话,分不清人声和环境音,而且必须等一个固定的静默时间才能判断对方说完了没,延迟很高。本质上是工程层面的妥协。
MiniCPM-o 4.5 的做法完全不同。
它给所有的信息流加上精确的时间戳。视频流、音频流、模型输出的文字和语音,每一帧、每一个词都标记着对应的时间点,精度在毫秒级。
这样模型就有了时间感,知道自己说的每一个字对应的是外界的哪一刻。
然后它把连续的视频和音频切成很多小块,循环编码,让串行的计算架构能够处理并行的信息流。
输入不会因为模型在输出就中断,输出也不会因为有新的输入就卡住。
2.webp

最关键的是自主判断说话时机。模型每秒钟判断一次:现在该不该开口?完全基于语义理解,不依赖外部工具。
它能分辨出对方是说完了还是只是停顿了一下,能分辨出旁边的对话是不是在跟它说。
这些加在一起,就实现了真正的全双工。
从交互范式的角度看,这应该是一次代际升级。之前所有的语音交互,不管体验做得多流畅,底层都是回合制。
全双工把人和 AI 的交互变成了实时的、连续的、双向的。
这不是快一点或者体验好一点的问题,是交互方式本身变了。
有意思的是,之前那些头部 AI 公司其实没在这个方向上发力。技术难是一方面,但我觉得更重要的原因是:在它们的场景里,全双工没那么迫切。
你想想 OpenAI 的主战场,还是 Chat 类的交互,打字问、打字答,回合制够用了。
但做端侧小模型的公司不一样。
智能硬件的交互靠什么?语音和视觉。你不可能对着一个 AI 眼镜或者车载助手一直打字。这些场景天然需要更自然的交互方式,全双工就变成了一个绕不过去的问题。
这里我想多说一句:小模型不是大模型的缩水版。
很多人有个直觉,觉得小模型就是能力弱一点、便宜一点的大模型,是一种性能和成本之间的妥协。
但都 2026 年了,我觉得这个理解可能要修正一下。小模型和大模型更像是两条平行的路线,各自有各自要解决的问题。
所以我们会看到,小模型在某些方向上反而走得更快。全双工就是一个例子。
因为小模型面对的是端侧场景,而端侧的主场景绝对不是打字聊天,它需要能看、能听、能说。
你想象一下,一个AI助手在跟你说话的时候,如果突然有人敲门,它应该能听到,能停下来提醒你。
这才是正常的交互方式。端侧不可能像 ChatGPT 那样交互。
面壁这家公司我不多说了,大家可以搜下。去年我就写过,我觉得它会是大模型领域的一匹黑马。
随着小模型的场景逐步显现,大家会意识到他们做的事情的价值。
#02
小模型能走多远?
刚说小模型和大模型是两条平行路线。那自然会有一个问题:这条路线的天花板在哪里?毕竟参数量摆在那里,9B 和千亿级别的模型比,能装的知识肯定少。小模型在端侧场景有优势,但如果能力上限太低,优势也发挥不出来。
这个担心是合理的。但有一条暗线,很多人没注意到。
迈向通用人工智能其实有两条主线在并行推进。
一条是能力跃迁。2018 年,大规模预训练开始成为主流范式。
到了 2023 年,GPT-4 把模型的综合能力往前推了一大截。文本、代码、图像输入融合在一起,复杂任务的完成度明显提高。
再到 2024 年,OpenAI o1 的出现,让大家意识到,模型不只是更聪明了,它开始展现出更长链条的推理能力。
总之,模型能力的跃迁大家都非常关注。
但还有另一条线,很多人没太注意到:能效提升。
用更低的成本实现同样水平的智能。
记得面壁提过一个概念叫 Densing Law,知识密度定律。
他们统计了 2023 年以来全球最先进的开源模型,发现模型的能力密度大约每 3.5 个月翻一倍。
3.webp

什么意思?同样参数量的模型,过三个多月能装进去的知识就能翻一倍。反过来说,达到同样的能力,需要的参数量每三个多月减少一半。
这条规律意味着什么?小模型的能力上限不是固定的,而是在持续抬升。
2024 年的时候,一些优化过的小模型已经能在特定任务上展示不错的表现,但综合能力还是和大模型有差距。
到了 2025 年,经过结构优化和压缩,端侧设备上已经可以跑出像模像样的推理逻辑。虽然还不能完全复刻大模型的能力,但差距在肉眼可见地缩小。
今天 9B 做不到的事,可能明年 9B 就能做到。
再加上硬件这边也在配合。端侧芯片的算力涨得很快,智能座舱芯片从 40 TOPS 到 320 TOPS,接近 10 倍的增长。
模型密度在提升,芯片算力在增长。两条曲线交汇的地方,就是端侧智能爆发的时候。
#03
写在最后
我们经常聊大模型公司的路线。要么像 OpenAI 那样全力做平台,想成为一个超级 AI 入口。要么像 Anthropic 那样专打垂直场景,比如 Coding,把一个方向吃透。2026 年,大模型大概会进入淘汰赛。找不到自己特色、找不到生态位的公司,处境会比较尴尬。
现在头部的几个模型已经很清晰了,谁擅长什么大家心里有数,应用也铺开了。模型本身找不到定位,基于它的应用就更难有落脚点。
但其实不是只有这两条路。
小模型会是第三条确定性的路线。今年大家会越看越清楚。
它的逻辑不是去卷云端的能力上限,而是解决一类大模型解决不了的问题:让 AI 真正进入日常生活的各种设备里,实时响应,保护隐私,断网也能用。
就像计算设备从大型机变成 PC、笔记本、手机,越来越小、离人越来越近。AI 应该也会走类似的路。
我在深圳待了几天,真的见到很多有意思的硬件。
比如有个哥们的公司做墨水屏设备,很小一个,可以放在书桌上当日历,也能连日程提醒。加了 AI 能力之后,还支持语音唤醒。就挺有趣的,你会觉得这东西好像本来就应该有 AI。
类似的产品还有很多。现在可能都还挺早期,但方向是对的。
未来的智能大概不会只存在于云端的几个超级大脑里,而是会分散到我们身边各种各样的设备上。这些设备需要的,恰恰就是小模型。
面壁押的就是这个方向。听说他们今年年中还会发一款叫松果派的开发板,专门做端侧 AI 的全栈开发。从模型到硬件,想把这条链路打通。
非常期待。
  • 打卡等级:已臻大成
  • 打卡总天数:410
发表于 2026-2-6 09:58 | 显示全部楼层
感谢楼主分享!
回复 支持 反对

使用道具 举报

  • 打卡等级:炉火纯青
  • 打卡总天数:64
发表于 2026-2-6 11:09 | 显示全部楼层
谢谢分享
回复 支持 反对

使用道具 举报

  • 打卡等级:自成一派
  • 打卡总天数:189
发表于 2026-2-6 12:23 | 显示全部楼层
看帖看完了至少要顶一下,还可以加入到淘帖哦!
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

文字版|手机版|小黑屋|RSS|举报不良信息|精睿论坛 ( 鄂ICP备07005250号-1 )|网站地图

GMT+8, 2026-2-6 17:24 , Processed in 0.147562 second(s), 5 queries , Redis On.

Powered by Discuz! X3.5

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表