WAIC 2024 商汤科技发布日日新 5.5 原生多模态大模型，能识别活动并介绍书籍-欣猫博客

图片[1]-WAIC 2024 商汤科技发布日日新 5.5 原生多模态大模型，能识别活动并介绍书籍-欣猫博客

撰文 / 刘宝华

编辑 / 黄大路

设计 / 师超

“你猜一猜我现在参加什么样的活动呢？”

“你参加的是WAIC，就是那个人工智能的大Party，超多科技高手都在这……”

“你帮我介绍一下这本书吧。”

“这书叫《反脆弱，从不确定性中获益》，讲的是怎么在混乱里找机会，作者塔勒布，来自土耳其，还写了《黑天鹅》，里面提了不少新词，像反脆弱者，书里挺有给我启发的东西……”

以上两段对话来自7月5日，2024世界人工智能大会暨人工智能全球治理高级别会议（WAIC 2024）上，商汤科技发布的“日日新5.5”原生多模态大模型现场演示对话。大模型能从工作人员脖子上佩戴的胸卡带子上的文字识别出所在活动，随便翻开一本书，都能归纳总结整本书或者任何一页的内容，而且都在瞬间完成。

当天，商汤旗下智能汽车事业群商汤绝影发布了自动驾驶大模型DriveAGI，以及行业首个车载生成式交互界面“随心界面”（FlexInterface）、“随意操控”（AgentFlow）等基于多模态大模型的车载AI Agent应用。

图片[2]-WAIC 2024 商汤科技发布日日新 5.5 原生多模态大模型，能识别活动并介绍书籍-欣猫博客

3月28日小米SU7发布会上的语音演示中，车主可以问小爱同学“这条隧道有多长？”“旁边路过的河是什么河”“前面的车是什么车”“有没有离簋街和望京都很近的川菜馆”，车载语音交互的历史进程向前迈进了一大步。

小米SU7语音交互背后就有商汤大模型的支持。商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚透露，商汤与小米的合作从去年的小爱手机开始，小米汽车语音的特点是与手机、其他终端由由同一套体系支撑，汽车语音需要根据用车场景做适度修改，早期有其他供应商平行推进。

到今年1月，雷军体验过车机语音后认为模型效果不够好，其他供应商没有做出快速整改，绝影用了一个多星期时间根据要求做出了适应用车要求的模型。比如小米要求首次响应的延时必须控制在2秒之内，也就是说，使用者说了一段话，输入一堆文字，车机反馈时，即使是云端的反馈，也需要在一两秒内迅速响应。

这对每家供应商都有挑战，绝影通过各种资源优化和保障措施最终完成得比较好。优化的背后需要一个专注汽车领域的团队，让模型更好地为汽车服务。这次考验后，商汤正式成为小米SU7语音大模型的供应商。

6月25日，吉利控股集团旗下子品牌翼真汽车（LEVC）旗下首款豪华纯电MPV翼真L380上市发布，商汤绝影为翼真 L380定制化打造了“AI闲聊”、“美图壁纸”、“童话绘本”、“AI问诊”等AI大模型座舱产品和功能。

图片[3]-WAIC 2024 商汤科技发布日日新 5.5 原生多模态大模型，能识别活动并介绍书籍-欣猫博客

大模型发力自动驾驶之前，已经在智能座舱上多点落地。

多模态大模型能够将语音、文字、图像、手势、视频等各种模态进行高效且深度地融合，提供更加丰富且自然的人机交互体验。

过去模型处理不同模态信息是先把语音等输入转化为文字，文字和图像结合进行分析，输出反馈也是先生成文字，根据文字再生成语音输出，会有大量信息丢失和很高的延迟。多模态大模型是一种端到端的模型，文字、语音、视频等不同模态一同输入，模型统一处理后输出相应模态的信息，相较于过去的方案，多模态融合的体验与技术难度都呈几何倍数的提升。

智能座舱被改变。

下半年交火点：智驾全国都能开，智舱多模态大模型__下半年交火点：智驾全国都能开，智舱多模态大模型

为智能座舱带来多大变化

大模型在2023年成为人工智能的最大风口，很快形成百模大战局面。

有公开数据称，截至2024年4月底，国内共推出305个大模型，10亿参数规模以上的大模型数量已超100个，数量可观。

2024年成为大模型真正落地元年。

汽车领域，大模型上车两个最大的应用是自动驾驶和智能座舱多模态交互，后者落地速度更快，问界借助华为旗下盘古大模型、极越利用百度文心一言都实现了车端落地，蔚小理这些新势力车企选择自研，小米、LEVC是与供应商合作的代表。

大模型能为智能座舱带来多大变化？

图片[5]-WAIC 2024 商汤科技发布日日新 5.5 原生多模态大模型，能识别活动并介绍书籍-欣猫博客

首先是语音能够实现连续多轮对话，更像人与人的交互。此前的语音系统不支持多轮对话，每次对话都是独立的，缺乏记忆功能，车机无法记住之前的信息。大模型支持多轮对话，能够记住之前的对话内容，并能从大量输入中总结出有用信息，甚至可以处理长达100万token的上下文输入，理解整本书的内容。这是大模型特有的能力。

其次，犹如增加了一位线上助理。大模型能帮助管理日程表，只需简单指示，它能在开车等不便操作的情况下，为车主找到合适的时间安排会议，并在有冲突时协助调整。

大模型能在视频会议结束后生成会议总结，包括会议要点，每位与会者说了什么话、重点是什么、计划和行动是什么，都能总结提炼出来。

最大的变化是，大模型能根据使用者的指令跨APP完成复杂任务。

王晓刚举例：“你现在开车说我要看欧洲杯，能不能给我找一个酒馆，我一边看欧洲杯，一边吃饭，你到小红书上查一查，有没有比较好的馆子。”

如果做任务分解，这件事分几个步骤：首先激活小红书APP，大模型需要理解每个页面是什么内容，每个按钮代表什么操作，每条评论有什么价值。这涉及到的文字大模型、多模态大模型的能力，能够像人一样读懂文字信息、图片信息、视频信息。读懂之后选择符合要求的餐馆。第二个步骤是上美团APP找到这个餐馆订餐。第三个步骤是导航到该餐馆。

以往的语音控制体系是一条指令对应一个执行动作或一个APP，上述举例给出的是一个复杂任务，需要多个动作、调用多个APP分步骤完成，是一系列执行动作的组合，相比以前的人机交互是革命性的，拥有了类似人类的协调资源、解决问题的能力。

图片[6]-WAIC 2024 商汤科技发布日日新 5.5 原生多模态大模型，能识别活动并介绍书籍-欣猫博客

大模型还带来一些小彩蛋，比如车机界面可变，每天心情不同、关注点不同，就可以设置不同的界面。比如最近关注欧洲杯，就可以让中控大屏显示欧洲杯主题，有最新战报，还可以随时播放比赛信息。

_下半年交火点：智驾全国都能开，智舱多模态大模型_下半年交火点：智驾全国都能开，智舱多模态大模型

训练一个模型要上亿投入

上述跨APP完成复杂任务的难点在于让大模型准确理解每个APP页面的信息含义、每个操作按钮的含义。

“多模态的模型可以去自动地分析几百万个图形界面，分析后知道每个图形界面是干什么的。另外还有任务分解，我说了一段话，你要把它分解成一个工作流，我说的是到小红书上看看再定，我并没有清楚地告诉它你第一步干什么，第二步、第三步干什么，它要自己理解这件事，然后把工作流排出来。它本质上带来的就是一个人机交互变革的大模型。”王晓刚说。

功能实现背后是对大模型的海量训练和硬件支撑，并不是所有公司具备这样的条件，王晓刚认为大部分汽车公司自研大模型是不现实或者性价比很低的。

“一个语言模型的训练有几千亿参数，几千张卡，要训练三个月，光这里面投入的成本要几千万甚至上亿。还有数据的清洗、计算的资源，它是一个研发体系。把3000张卡放在一起去训练一个模型，这件事儿本身就很难，因为3000张卡这么多硬件，中间某一个硬件出了问题，整个系统就失效了。要让这个系统能够稳定运行一个月以上，这里面有很多软硬件基础的建设。另外训练大模型的研发团队也很烧钱，经验丰富的团队都是资源和钱堆出来的。”王晓刚说。

图片[8]-WAIC 2024 商汤科技发布日日新 5.5 原生多模态大模型，能识别活动并介绍书籍-欣猫博客