每日行业新闻
1、阿里通义Qwen2成斯坦福大模型榜单最强开源模型
斯坦福大学的大模型测评榜单HELM MMLU发布最新结果,斯坦福大学基础模型研究中心主任Percy Liang发文表示,阿里通义千问Qwen2-72B模型成为排名最高的开源大模型,性能超越Llama3-70B模型。
MMLU(Massive Multitask Language Understanding,大规模多任务语言理解)是业界最有影响力的大模型测评基准之一,涵盖了基础数学、计算机科学、法律、历史等57项任务,用以测试大模型的世界知识和问题解决能力。
但在现实测评中,不同参评模型的测评结果有时缺乏一致性、可比性,原因包括使用非标准提示词技术、没有统一采用开源评价框架等等。
根据HELM MMLU最新榜单,阿里巴巴的通义千问开源模型Qwen2-72B排名第5,仅次于Claude 3 Opus、GPT-4o、Gemini 1.5 pro、GPT-4,是排名第一的开源大模型,也是排名最高的中国大模型。(来源:环球网)
2、Anthropic 推出 Claude 3.5 Sonnet AI 模型
Anthropic推出Claude 3.5 Sonnet,这是Claude 3.5系列的首个模型版本,在各项评估中优于OpenAI的GPT-4o和谷歌的Gemini 1.5 Pro。
Claude 3.5 Sonnet在前代的基础上迭代升级,性能更快,编码、视觉和自然语言理解能力更强。
Claude 3.5 Sonnet属于中等尺寸模型,介于小型Haiku和高端Opus之间,但Anthropic声称,根据内部基准测试,Sonnet的性能甚至超过了顶级Opus。
Anthropic称,Claude 3.5 Sonnet处理输入的速度是Opus的两倍。该公司称,在编码挑战方面,Sonnet超越了之前的Opus模型,修复了64%的代码错误,而Opus只有38%。
基准测试结果还显示,Sonnet在9个总体类别中的7个类别、5个视觉任务中的4个任务上击败了竞争对手。(来源:IT之家)
3、大模型价格战调查:有客户调用量增5000倍,大模型落地的逻辑变了
上个月中旬,超15家知名大模型厂商陆续降价、免费,动辄价格直降99%,百万tokens调用跌至白菜价,大模型产业掀起如火如荼的价格战。
从阿里、百度、腾讯、字节等大模型厂家的后台数据来看,各家主力模型调用量过去一个月均大幅上扬——增长数倍到十几倍都有,甚至有个别客户调用量增长5000倍。智谱AI、科大讯飞、DeepSeek等大模型厂商虽未透露相关数据,但调用量可以预测也是水涨船高。
此前,大多AI应用厂商受限于成本,只会将小部分业务试水接入大模型,仅选用一个或两个大模型;随着大模型进入“白菜价”阶段,AI应用厂商将大部分且功能复杂的业务接入大模型,往往会选择不同的模型接入不同的业务模块。(来源:智东西)
4、国内代码大模型安全规范正式定稿:百度阿里小米 vivo 等参与,中国信通院启动首轮评估
代码大模型已成为企业研发人员辅助编程必备助手,能够生成、翻译、补全代码,帮助定位和修复错误。然而,代码大模型背后隐藏的风险挑战还有待讨论。
中国信息通信研究院依托中国人工智能产业发展联盟(AIIA),联合业内近 30 家单位共同编制了《代码大模型安全风险防范能力要求及评估方法》规范(简称“规范”),聚焦代码大模型的安全能力,从基础功能出发,评估代码大模型的基础能力和安全风险防范能力。
2024年6月18日,规范第三次研讨会成功举办,对规范内容做出进一步的完善和修订,现已完成定稿。(来源:IT之家)
5、苹果回应AI仅支持两款iPhone:是硬件限制,绝非营销套路
苹果在2024年WWDC上发布了全新的AI系统“Apple Intelligence”,并宣布将在今年秋季将其引入到iPad、iPhone和Mac平台上。
然而,目前仅有iPhone 15 Pro和Pro Max型号支持这一功能,尚未发布的iPhone16系列四款机型也将会支持。
对于用户而言,他们可能会感到好奇:“为什么苹果要对硬件进行限制呢”
采访中,苹果人工智能/机器学习主管John Giannandrea、营销主管Greg Joswiak和软件工程主管Craig Federighi解释:“大语言模型的推理计算量非常大。因此,在运行速度方面需要设备具有足够的带宽、NPU规模以及出色的性能来支撑。”
“理论上,这些模型可以在任何设备上运行,但是由于运行速度较慢,甚至可以说毫无意义。”
此外,他还表示内存也是AI功能所需的重要组成部分之一,并且所有兼容Apple Intelligence的设备至少都需要拥有8GB内存。(来源:中关村在线)
6、AI新研究可用手机检测中风:准确率达82%,分析面部肌肉运动
来自皇家墨尔本大学(RMIT)生物医学工程师团和圣保罗州立大学的博士生Guilherme Camargo de Oliveira 共同开发了一款基于 AI 的面部筛查工具,医护人员只需要借助智能手机,在几秒钟内就可以确定患者是否中风。
该工具将 AI 与面部识别技术深度融合,通过分析面部对称性和特定的肌肉运动(称为动作单元)来检测中风。
该工具在检测中风方面的准确率达到了 82%,但不会取代中风的综合临床诊断测试,仅用于帮助更快地识别需要治疗的人。RMIT 生物医学工程学院的 Kumar 教授表示,尽早发现中风并及时地治疗,可以显著提高恢复结果,降低长期残疾的风险。(来源:IT之家)
7、AI初创公司Cerebras秘密申请IPO
AI初创公司Cerebras正秘密申请IPO。
Cerebras是一家AI芯片技术及产品研发商,致力于研发用于深度学习的芯片产品,并向其它相关公司提供相应的技术解决方案等,以优化其硬件与构建完善的机器算法。(来源:财联社)
8、斯坦福发布HumanPlus人形机器人,基于宇树科技的平台
继会烹饪、洗锅等家务活的Mobile ALOHA机器人后,斯坦福大学付子鹏(音)等最近基于中国厂商宇树科技Unitree H1机器人平台开发了名为HumanPlus的“万能”人形机器人。
HumanPlus身高1.75米,拥有33个自由度的活动能力。它可以通过模仿人类的动作来学习新技能,如弹钢琴、打拳击、打字等。
HumanPlus的核心特点在于其学习能力。它并不依赖于复杂的编程或预设算法来执行任务,而是通过观察人类的行为并进行模仿来学习。这种方法极大地简化了机器人的学习过程,并使其能够适应更多样化的任务。
研究团队表示,HumanPlus能自主完成穿鞋站立行走、从仓库货架上拿物品、折叠运动衫、重新摆放物品、打字、打招呼等任务,成功率达60%-100%。(来源:IT之家)
每日投融资事件
1、Decagon获得3500万美元A轮融资
Decagon是一家生成式人工智能服务提供商,旗下平台为客户提供了类似人类的互动,并为客户体验领导者提供了对其组织的控制和可见性,其人工智能分析仪表板会自动审查和分类客户对话,以确定主题,并建议添加到他们的知识库中,以更好地解决客户的问题。
客户体验领导者可以使用它来积极主动地提供客户支持,而不是对个别客户的请求做出反应。
近日,Decagon获得3500万美元A轮融资,Accel Partners、Rippling、Okta Ventures、Lattice、Klaviyo、Airtable及个人投资者投资。(来源:IT桔子)
2、生命科学AI大模型公司百图生科与港投公司达成战略合作
与思谋集团(SmartMore)进行战略合作签约后,香港投资管理有限公司(简称“港投公司”)再觅得战略合作伙伴——生命科学AI大模型公司百图生科(BioMap)。
百图生科的生物语言大模型是生命科学领域规模最大的模型,参数规模达1000亿,领先于最接近的竞争对手8倍之多。
由百度创始人李彦宏和BV百度风投CEO刘维于2020年创立,致力于结合前沿AI和生物技术,构建以蛋白质语言为核心的生命科学基础大模型X Trimo平台。(来源:创业资本汇)
暂无评论内容