阿里通义Qwen2成最强开源模型、国内代码大模型安全规范正式定稿、苹果回应AI仅支持两款iPhone-欣猫博客

每日行业新闻

1、阿里通义Qwen2成斯坦福大模型榜单最强开源模型

斯坦福大学的大模型测评榜单HELM MMLU发布最新结果，斯坦福大学基础模型研究中心主任Percy Liang发文表示，阿里通义千问Qwen2-72B模型成为排名最高的开源大模型，性能超越Llama3-70B模型。

MMLU（Massive Multitask Language Understanding，大规模多任务语言理解）是业界最有影响力的大模型测评基准之一，涵盖了基础数学、计算机科学、法律、历史等57项任务，用以测试大模型的世界知识和问题解决能力。

但在现实测评中，不同参评模型的测评结果有时缺乏一致性、可比性，原因包括使用非标准提示词技术、没有统一采用开源评价框架等等。

根据HELM MMLU最新榜单，阿里巴巴的通义千问开源模型Qwen2-72B排名第5，仅次于Claude 3 Opus、GPT-4o、Gemini 1.5 pro、GPT-4，是排名第一的开源大模型，也是排名最高的中国大模型。（来源：环球网）

2、Anthropic 推出 Claude 3.5 Sonnet AI 模型

Anthropic推出Claude 3.5 Sonnet，这是Claude 3.5系列的首个模型版本，在各项评估中优于OpenAI的GPT-4o和谷歌的Gemini 1.5 Pro。

Claude 3.5 Sonnet在前代的基础上迭代升级，性能更快，编码、视觉和自然语言理解能力更强。

Claude 3.5 Sonnet属于中等尺寸模型，介于小型Haiku和高端Opus之间，但Anthropic声称，根据内部基准测试，Sonnet的性能甚至超过了顶级Opus。

Anthropic称，Claude 3.5 Sonnet处理输入的速度是Opus的两倍。该公司称，在编码挑战方面，Sonnet超越了之前的Opus模型，修复了64%的代码错误，而Opus只有38%。

基准测试结果还显示，Sonnet在9个总体类别中的7个类别、5个视觉任务中的4个任务上击败了竞争对手。（来源：IT之家）

3、大模型价格战调查：有客户调用量增5000倍，大模型落地的逻辑变了

上个月中旬，超15家知名大模型厂商陆续降价、免费，动辄价格直降99%，百万tokens调用跌至白菜价，大模型产业掀起如火如荼的价格战。

从阿里、百度、腾讯、字节等大模型厂家的后台数据来看，各家主力模型调用量过去一个月均大幅上扬——增长数倍到十几倍都有，甚至有个别客户调用量增长5000倍。智谱AI、科大讯飞、DeepSeek等大模型厂商虽未透露相关数据，但调用量可以预测也是水涨船高。

此前，大多AI应用厂商受限于成本，只会将小部分业务试水接入大模型，仅选用一个或两个大模型；随着大模型进入“白菜价”阶段，AI应用厂商将大部分且功能复杂的业务接入大模型，往往会选择不同的模型接入不同的业务模块。（来源：智东西）

4、国内代码大模型安全规范正式定稿：百度阿里小米 vivo 等参与，中国信通院启动首轮评估

代码大模型已成为企业研发人员辅助编程必备助手，能够生成、翻译、补全代码，帮助定位和修复错误。然而，代码大模型背后隐藏的风险挑战还有待讨论。

中国信息通信研究院依托中国人工智能产业发展联盟（AIIA），联合业内近 30 家单位共同编制了《代码大模型安全风险防范能力要求及评估方法》规范（简称“规范”），聚焦代码大模型的安全能力，从基础功能出发，评估代码大模型的基础能力和安全风险防范能力。

2024年6月18日，规范第三次研讨会成功举办，对规范内容做出进一步的完善和修订，现已完成定稿。（来源：IT之家）

5、苹果回应AI仅支持两款iPhone：是硬件限制，绝非营销套路

苹果在2024年WWDC上发布了全新的AI系统“Apple Intelligence”，并宣布将在今年秋季将其引入到iPad、iPhone和Mac平台上。

然而，目前仅有iPhone 15 Pro和Pro Max型号支持这一功能，尚未发布的iPhone16系列四款机型也将会支持。

对于用户而言，他们可能会感到好奇：“为什么苹果要对硬件进行限制呢”

采访中，苹果人工智能/机器学习主管John Giannandrea、营销主管Greg Joswiak和软件工程主管Craig Federighi解释：“大语言模型的推理计算量非常大。因此，在运行速度方面需要设备具有足够的带宽、NPU规模以及出色的性能来支撑。”

“理论上，这些模型可以在任何设备上运行，但是由于运行速度较慢，甚至可以说毫无意义。”

此外，他还表示内存也是AI功能所需的重要组成部分之一，并且所有兼容Apple Intelligence的设备至少都需要拥有8GB内存。（来源：中关村在线）

6、AI新研究可用手机检测中风：准确率达82%，分析面部肌肉运动

来自皇家墨尔本大学（RMIT）生物医学工程师团和圣保罗州立大学的博士生Guilherme Camargo de Oliveira 共同开发了一款基于 AI 的面部筛查工具，医护人员只需要借助智能手机，在几秒钟内就可以确定患者是否中风。

该工具将 AI 与面部识别技术深度融合，通过分析面部对称性和特定的肌肉运动（称为动作单元）来检测中风。

该工具在检测中风方面的准确率达到了 82%，但不会取代中风的综合临床诊断测试，仅用于帮助更快地识别需要治疗的人。RMIT 生物医学工程学院的 Kumar 教授表示，尽早发现中风并及时地治疗，可以显著提高恢复结果，降低长期残疾的风险。（来源：IT之家）

7、AI初创公司Cerebras秘密申请IPO

AI初创公司Cerebras正秘密申请IPO。

Cerebras是一家AI芯片技术及产品研发商，致力于研发用于深度学习的芯片产品，并向其它相关公司提供相应的技术解决方案等，以优化其硬件与构建完善的机器算法。（来源：财联社）

8、斯坦福发布HumanPlus人形机器人，基于宇树科技的平台

继会烹饪、洗锅等家务活的Mobile ALOHA机器人后，斯坦福大学付子鹏（音）等最近基于中国厂商宇树科技Unitree H1机器人平台开发了名为HumanPlus的“万能”人形机器人。

HumanPlus身高1.75米，拥有33个自由度的活动能力。它可以通过模仿人类的动作来学习新技能，如弹钢琴、打拳击、打字等。

HumanPlus的核心特点在于其学习能力。它并不依赖于复杂的编程或预设算法来执行任务，而是通过观察人类的行为并进行模仿来学习。这种方法极大地简化了机器人的学习过程，并使其能够适应更多样化的任务。

研究团队表示，HumanPlus能自主完成穿鞋站立行走、从仓库货架上拿物品、折叠运动衫、重新摆放物品、打字、打招呼等任务，成功率达60%-100%。（来源：IT之家）

每日投融资事件

1、Decagon获得3500万美元A轮融资

Decagon是一家生成式人工智能服务提供商，旗下平台为客户提供了类似人类的互动，并为客户体验领导者提供了对其组织的控制和可见性，其人工智能分析仪表板会自动审查和分类客户对话，以确定主题，并建议添加到他们的知识库中，以更好地解决客户的问题。

客户体验领导者可以使用它来积极主动地提供客户支持，而不是对个别客户的请求做出反应。

近日，Decagon获得3500万美元A轮融资，Accel Partners、Rippling、Okta Ventures、Lattice、Klaviyo、Airtable及个人投资者投资。（来源：IT桔子）

2、生命科学AI大模型公司百图生科与港投公司达成战略合作

与思谋集团（SmartMore）进行战略合作签约后，香港投资管理有限公司（简称“港投公司”）再觅得战略合作伙伴——生命科学AI大模型公司百图生科（BioMap）。

百图生科的生物语言大模型是生命科学领域规模最大的模型，参数规模达1000亿，领先于最接近的竞争对手8倍之多。

由百度创始人李彦宏和BV百度风投CEO刘维于2020年创立，致力于结合前沿AI和生物技术，构建以蛋白质语言为核心的生命科学基础大模型X Trimo平台。（来源：创业资本汇）

本站所发布的全部内容源于互联网搬运，请在下载后24小时内删除。如果有侵权之处请第一时间联系我们E-mail：zgq3242@qq.com删除。敬请谅解!

THE END

科技资讯
# 创业

阿里通义Qwen2成最强开源模型、国内代码大模型安全规范正式定稿、苹果回应AI仅支持两款iPhone

网易《永劫无间》手游，开启公测

赛力斯回应股价跌停：市场的正常波动和表现

小米15外观渲染图曝光博主：一眼假

民进党重要人物郑文灿交 500 万新台币保释金仍被抗告成功，上任刚满月就辞职

四川最新人事任免涉及成都的有这些

习近平在阿斯塔纳会见联合国秘书长古特雷斯，强调支持联合国在国际事务中发挥核心作用

1汉仪《黑神话：悟空》定制字体官宣！汉仪黑神话即将发布已应用游戏界面

2《庆余年》范闲打小就玩弄人性，一出手，都是降维打击，教观众如何保护自己，看10遍不为过

3国内首家！高德地图宣布适配苹果CarPlay仪表盘导航

4法国政府为迎奥运将数千名无家可归者运出巴黎，引发争议

5海南东方市三家镇鳄鱼产业规模持续扩大，养殖数量超 40 万条

6成都高新区召开企业有限空间作业安全生产专题培训会

站长同款主题购买渠道：

支付宝红包码