“华米OV”的新战场:手机大模型

在见识了大模型重塑IT基础设施、营销、办公、自动驾驶等行业后,深陷于手机行业销量和技术双周期“低谷”的手机厂商们,急迫且高调地涌入大模型+手机的赛道。

走在前面的是华为和小米。今年8月,华为和小米先后宣布自家手机助手接入大模型。一时间,手机助手也拥有了类似ChatGPT一般的深度对话、自然语言理解以及编程能力。

然而,这样依赖云端的大模型部署方式,在使用上需要用户等待太久,并且消耗大量带宽和算力资源,对话也经常不流畅。

为了把大模型塞进手机,OPPO、vivo、小米纷纷先后推出手机端十亿参数级别的“轻量版大模型”。芯片厂商联发科和高通也根据大模型的需求推出了更适合AI计算的手机SoC(系统级芯片)。

在11月即将到来的OPPO和vivo开发者大会后,“华米OV”们将再次在手机大模型上齐聚一堂。

如今,如何用好大模型的能力,虽然手机厂商还在初级阶段,但已经在许多方向上有了共识,比如:如何压缩模型、如何云和端协同、如何在底层打通大模型和系统、应用的能力等。

在硬件进化多年之后,手机也再次走到了软件定义手机的新节点,这更考验手机厂商的研发实力。也正因为如此,最近手机厂商也纷纷发布和升级自己的自研操作系统,以求在软件体验上胜出一筹。

可以预见,一波大模型➕手机的新卖点就在路上,而随着大模型对算力要求的提升,能否拉动起一波新的换机潮,把手机厂商们从寒冬中拉出来?

首先是近在眼前的vivo开发者大会。早在九月,vivo 执行副总裁、首席运营官胡柏山就宣布即将发布自研大模型,并且会和新机一起跟大家见面。

不过,可能是“新闻太大,憋不住”,才一个月过去,vivo副总裁、全球AI研究院院长周围,开始在微博上不断“剧透”即将推出的大模型的信息和能力。

其中,即将发布的vivoLM(vivo大模型)一共分为5个版本,按照参数量又分成十亿(1B/7B)、百亿(66B)和千亿(130B/175B)三个级别。其中,7B的版本是vivoLM 将对外开放的版本。

在具体的能力上,大模型是很好的文本生成助理,同时也是很好的知识获取入口。周围认为,“文本生成助理,除了普通的生文、总结、扩写,它甚至能帮你写SWOT分析。同时它也是很好的知识获取入口,只要问对问题,它就可以用人人都能听懂的语句解释很多专业领域的知识,比你在搜索引擎里淘金要高效的多,真正的‘旦用难回’。”

10月11日,OPPO宣布基于AndesGPT大模型打造的新版AI助手——新小布1.0开启了第一测。

OPPO对手机大模型的应用展望,也是助理形象。“今天AIGC真的像一个人在跟你对话,这是最超出想象的一个体验。所以,未来的手机一定是你的超级助理。”在关于AIGC和大模型技术的颠覆性上,OPPO高级副总裁、首席产品官刘作虎在近日的采访中表示。

8月4日,在华为开发者大会上,华为常务董事、终端BG CEO、智能汽车解决方案BU CEO余承东宣布推出大模型加持的全新小艺,更新的功能还是主要体现在智慧交互,能够完成自然语言理解的设备控制、文案内容辅助、图片二次创作等功能。

在小米这边,8月14日小米开启了小爱大模型的邀请测试,覆盖大量手机机型和部分智能音箱。升级版的小爱具有理解上下文、更高质量的问答、生成式内容输出等能力,基本上相当于把文心一言、讯飞星火这种大模型App的能力直接嵌入到了手机中。但与App不同的是,这种嵌入会更加底层,交互也更多种多样。

首先,手机行业虽然在大模型应用的具体架构和路径上看法不同,但“云端+终端”的协同设计思路已经达成了共识。

在数据中心,大模型动辄几百亿、上千亿的参数,训练时对应上万张GPU的硬件需求,完整的大模型根本不可能塞进手机“消费级”的硬件里面。

而纯云端的方案下,用户在等待网络通信的时间、云计算传输时间、判断反馈时间的叠加下,等待时间太长,体验非常差。光是结合大模型的输入法推荐词的耗时都要长达两秒,根本没法用在实时聊天场景中,更别提在地库、电梯、老办公楼这些信号较弱的地点了。

再加上,想提供更多的智能辅助,势必也会接触到更多用户信息。这些信息全上传云端,那么隐私等信息安全也无法保证,而就算信息安全能够支持,这些信息全部上传云端,当前存量庞大的智能硬件所产生的天量数据,将对本就GPU硬件吃紧的厂商们带来进一步的网络带宽、存储等各方面硬件上的压力。

正如高通高级副总裁Alex Katouzian所言,“随着连接设备和数据流量加速增长,叠加数据中心成本攀升,(我们)不可能将所有内容都发送到云端。”

“模型训练需要巨大的算力,一定都会在云端进行。而手机端的应用,其实是推理。在推理的时候,模型可以只激活一部分的模块、一部分的神经元来计算,”小米技术委员会 AI 实验室大模型团队负责人栾剑表示。

例如在手机上可以执行一些简单的任务,比如写作、建议、文生图等。另一些涉及到复杂的知识体系和实时性的信息,不太适合数据采集和学习的,例如订票、订酒店等操作,可以调动云端的能力。

接下来,是改造手机SoC,在原本的硬件平台基础上添加适合大模型的GPU、NPU(神经网络处理器)、APU(加速处理器)等硬件。

在新款旗舰芯片上,针对大模型的搭载,高通和联发科都有相对应的升级。例如在10月25日新鲜出炉的骁龙8Gen3上,NPU性能提升98%,并且还给了两个低功耗的NPU单元。令人惊喜的是,骁龙8Gen3支持100 亿参数的模型。这意味着,当前高通的新硬件装下手机厂商们的大模型绰绰有余。

另一边,与vivo和OPPO深度合作的联发科,在其即将推出的天玑9300芯片上也集成了新的AI处理器。

在参数层面,手机厂商们普遍选择十亿级别的大模型落地。例如小米的13亿、vivo的10亿和70亿、OPPO的70亿等。参数量的减小,有效降低了大模型在侧端占用的存储空间,避免了千亿级的大模型,光是参数就要占据几百G存储空间的尴尬。

以华为的全新小艺为例,小艺是在华为盘古大模型的基础上,针对终端消费者场景构建并精调的对话模型。在调整中,小艺重点学习了终端消费者可能产生的数据,如对话、设备操作,购物、吃穿用度等生活常识。在针对学习让大模型“专精”后,华为在prompt(提示词)和输出格式做了逐字分析和压缩,最终实现推理时延减半。

另一边,当前的量化技术也在推动大模型变小。例如将模型从 FP32 缩小到 INT8。所谓 FP32,是一种单精度浮点数,可以表述小数点后 7 位,相当精确,但是运算开销较大。INT8 就是 8 位整数,只占用 1 个字节,运算开销较小。这个过程,可以理解为把原本精细的计算部分模糊化,量化操作让端侧的大模型无需达到云端的“尽善尽美”,也能给出合理的答案。

参考vivo大模型负责人周围在微博的“剧透”。在大模型的用处中,vivo分为自然语言处理、图像处理、推荐系统、人工智能安全、自动化决策和模型训练优化五个大类。

对于手机厂商布局端侧大模型的动作,栾剑表示:“首先我觉得从手机厂商来说,一定会探索这种可能性。如果不探索的话,未来有可能在这个领域落后”。

而在用户侧的感知上,以生成图像、图像识别的图像处理和商品推荐、音乐推荐的推荐系统为例,大模型的加入,将给智能手机带来智能化的新高度。

前者可以对应当前手机的AI优化摄影功能。区别于之前妙鸭相机这种小程序,大模型接入后的摄影将不再局限自动P图、建议拍摄位置等功能,可以实现自然语言调整图片内容,甚至还能建议你,摆什么姿势最好看。

而后者推荐系统将有望打破音乐、购物、出行、餐饮、长短视频等一系列APP的“封闭”壁垒,实现不需要打开对应APP就全方位接收推荐算法。

消费者挑选更智能的手机,将不需要看评测、对比拍摄样张、看跑分、看温度表现等等产品之间的细微差别。大模型的PK,手机产品将直接表现为“智力水平”的高低,这也正是为何手机厂商们当前开始热衷大模型“打榜”的原因之一。

当前手机厂商们“下饺子”式的入局大模型,还只是个开始,后续应用落地、模型迭代、优化体验等环节,眼见着将成为手机行业玩家们的新一轮“无限游戏”。

而来自软件层面“看得见,摸得着”的智能化体验,也将对过去手机发布会关于“摄像头如何来之不易”、“性能参数又赢苹果”、“手机壳材质太极限了”这些内容的大侃特侃,注入全新的内容活力。

过去,因硬件配置过剩,出现了一台手机用5年的“手机钉子户”,大模型的升级体验或许将给其一个无法拒绝的换机理由,从而为手机行业带来销售层面的增长。