2024 世界人工智能大会：腾讯混元大模型的新进展与多模态趋势-欣猫博客

2024世界人工智能大会期间，腾讯公布了旗下混元大模型的最新进展和落地案例。在2024世界人工智能大会腾讯论坛上，腾讯方面透露，目前腾讯混元大模型单日调用Tokens已达千亿级别，单日调用次数超3亿。经过一轮“价格战”后，各家大模型企业正在将多模态能力的突破作为大模型发展的下一个关键节点，大模型行业本身也正经历从单模态到多模态，再到全模态的演进。除了文生图以外，文生视频也正在朝着更高分辨率、更长时长、更精细的方向发展。腾讯集团副总裁蒋杰在现场提到，腾讯混元大模型本身正在积极部署多模态甚至全模态技术，而未来场景应用仍是大模型的决胜要素。“当前大模型的落地主要集中在生产工具和提效方面，距离真正的业务创新还有一定距离，缺少杀手级的应用，不过行业的探索一直没有停下”。

混元单日调用次数超3亿，关注模型可用性和性价比

随着“百模大战”逐渐演变成“千模大战”，大模型厂商开始转战应用落地，但如何找到实用的落地场景与强需求的落地应用，成为摆在厂商面前的一大难题。在论坛上，针对这一问题，腾讯云副总裁、腾讯云智能负责人、腾讯优图实验室负责人吴运声表明，他认为模型落地、实用为先，大模型的研发、应用必须关注、解决具体业务场景，必须关注可用性和性价比。

腾讯云副总裁、腾讯云智能负责人、腾讯优图实验室负责人吴运声。

自2023年9月首次亮相以来，腾讯混元大模型已经过多次迭代升级。据吴运声现场透露，目前腾讯混元大模型参数量已达万亿，Tokens数量超过7万亿，居国内大模型第一梯队。此外，模型单日调用Tokens已达千亿级别，单日调用次数超3亿，并在腾讯云上全新开放混元lite 256k版本、vision多模态版本，以及代码生成、角色扮演、functioncall等子模型和接口，满足不同企业和开发者的需求。

基于夯实的底层能力，同时面对企业在应用大模型技术时所需的降低使用门槛、提高平台适配性、保障安全合规等核心诉求，腾讯云还全新升级大模型知识引擎、图像创作引擎、视频创作引擎。

“大模型的打造只是起点，把技术落地到产业场景、创造价值才是目标。”在落地场景方面，吴运声特别强调了大模型知识引擎在智能客服、营销等多个场景的落地应用案例，比如在客服场景，知识引擎可以融入到客服系统，让客服人员更准确、更高效率地解答客户的问题；在产品营销场景，知识引擎可以整合到腾讯企点营销SCRM中，提供更优质的服务，提升客户转化率；在人才培训场景，知识引擎可以结合腾讯乐享知识学习平台，把员工的智慧聚集成企业知识库，促进内部知识分享和传播。

布局应用与多模态，近700个业务场景接入混元

经历过一轮“价格战”后，各家大模型企业正在将多模态能力突破作为大模型发展的下一个关键节点。智谱AI首席执行官张鹏也在此次世界人工智能大会提到，多模态将成为下一轮竞争的关键，多模态将帮助人解决真正的问题，这方面能力的突破会带来AI的普惠，能把原来金字塔型底座大、投入大、收益小的结构，变成一个倒金字塔结构，真正放大价值。

在论坛上腾讯集团副总裁蒋杰也表示，大模型行业正经历从单模态到多模态，再到全模态的演进。比如在文生图领域，最近效果比较好的是采用 DiT架构的模型，它融合了早前主要用于文本生成的Transformer架构，并在图像和视频生成任务中展现出显著的优势；在文生视频领域，视频生成正朝着更高分辨率、更长时长、更精细的方向发展，一些较好的模型已经能够生成长达数分钟高清的视频，带来了广阔的应用想象空间。

而腾讯混元大模型本身，也在积极部署多模态甚至全模态技术，在文生图方面，混元文生图打造了业界首个中文原生DiT架构生图模型效果超开源 Stable Diffusion 模型；在3D生成方面，单图输入仅需30秒即可生成动漫、汽车、建筑等类型的3D模型；在视频生成方面，腾讯混元拥有文生视频、图生视频、图文生视频、视频生视频4大核心能力，支持视频风格化、视频重绘等多样化的产品玩法。

不过蒋杰提到，场景应用依然会成为未来大模型的决胜要素。当前大模型的应用主要集中在生产工具和提效方面，距离真正的业务创新还有一定距离，缺少杀手级的应用，而行业的探索一直没有停下。未来，腾讯将发挥“专心致志、做好比特”的专长，将更多的“比特”转化成智能生产力，加速大模型等前沿人工智能技术在实体经济、文化保护、科学发现等领域的应用，为全社会的智能升级做好技术支持。

腾讯方面还透露，腾讯很早就将混元定义为应用级大模型，内部已有接近 700个业务场景接入了混元大模型，单日调用量近3亿次，通过包括微信输入法、微信读书、QQ浏览器AI助手等业务。接下来，基于这些实践沉淀下来的能力和经验，也将通过腾讯云对外开放，让大模型走入千行百业。

阅文集团、瑞金医院利用腾讯大模型训练行业大模型

腾讯云副总裁、腾讯云智能负责人、腾讯企点负责人、腾讯优图实验室负责人吴运声在接受媒体群访时表示，为让大模型技术逐渐向更多产业赋能，腾讯不断在该平台上做进一步的迭代和更新。“我们发现，要让技术服务更多产业或者更多行业，仅仅靠几百号人肯定是不行的，需要更广大的产业链加入进来，更多人加入进来。这时候，降低门槛是非常重要的事情。我们迭代平台的能力，让平台降低门槛从而让更多人以更低成本用上这个最新能力，让技术服务于产业。”

面向想要自己训练大模型的行业客户，腾讯云也推出了向量数据库和一站式机器学习平台TI平台等工具。其中TI平台提供从数据预处理、模型构建、模型训练、模型评估到模型服务的全流程开发支持。在TI平台的助力下，阅文集团、瑞金医院-上海市数字医学创新中心等已经训练出了自己的行业大模型。

阅文集团副总裁黄琰在现场介绍，去年7月，阅文集团发布了网络文学行业的大模型“阅文妙笔”。经过近一年的探索实践，妙笔大模型在辅助网文多模态创作、支持用户与角色对话、网文AI多语种翻译等方面均有实践和落地。在大模型加持下，海外翻译成本下降90%，效率提升近百倍。

瑞金医院-上海市数字医学创新中心首席技术官黄飞跃在现场介绍，基于瑞金医院高品质的医学数据，团队构建了面向惠民和助医的医学大模型群。去年发布了瑞金医学大模型，推出体检报告生成和电子病历生成系统，并在瑞金院内应用。以体检报告生成为例，平均每5秒即可自动生成一份总检报告，为医生节约50%+的撰写时间。

今年，瑞金医院还进一步发布了瑞金AI医生。据介绍目前AI医生已能够实现“见多识广、望闻问切”，一方面，AI医生学习了丰富多样的疾病案例和领域专业知识；另一方面，通过多模态交互方式，AI医生可以直接在线上使用，实现望体征、闻声音、问病情、切病因。

采写：南都记者林文琪