2025-07-16 10:43:30 | 来源: AICG工具箱
DeepSeek MoE“变体”来了,200美元以内,内存需求减少17.6-42%!
名叫CoE(Chain-of-Experts),被认为是一种“免费午餐”优化方法,突破了MoE并行独立处理token、整体参数数量较大需要大量内存资源的局限。
与并行处理不同,CoE使专家能在单层内串行通信,形成一种迭代机制,即专家能“沟通”,在其它专家输出之上处理token。
研究团队在实验中发现,经过2次迭代的CoE,在相同的计算预算下将数学任务的验证损失从1.20降低至1.12,仅仅通过重构信息流就获得了性能提升。
通过扩展CoE的迭代次数,在性能相当的情况下,内存使用比通过增加模型层数或扩展专家选择数量的方法降低了17.6-42%。
另外,在专家组合自由度、专家使用效率等其它方面,CoE也都具有显著优势,专家组合增加823倍。
目前,研究团队晒出了CoE技术Blog(完整论文即将发布),引起不少网友围观。
翻看作者主页,还发现作者Zihan Wang真曾在DeepSeek实习过
热门榜单
极有家·真能造
常用AI快影
常用AI星火绘镜
常用AIGPTs:GPT Builder创建器
常用AIHi Echo — 网易有道
常用AI星火文档问答
常用AIQuin
常用AIsharegpt
常用AILooria,ai好物推荐
常用AI热门资讯
1335 万考生都在用的AI高考志愿应用,哪款最靠谱?
06-30刚刚,马斯克切脑全场震撼!插脑只要1.5秒,26年治愈失明,28年全人类变AI
06-30谷歌发布本地VLA模型,机器人界的“安卓系统”要来了?
06-30不融资、不烧钱,9人干半年,卖出5.7亿,这可能是AI时代最狠的创业故事
07-01对话清华大学张亚勤:智能体是大模型时代的APP
07-0180后华人零融资创业:1/10人力营收规模超Scale AI,谷歌OpenAI大模型的“秘密武器”
07-01AI大神Karpathy演讲刷屏:软件3.0时代已来,提示词就是新代码
07-01Midjourney角色一致性命令 "cref "测评丨如何保持多个角色一致性
12-27AI绘画ComfyUI进阶教程丨插件IPAdapter的详细使用教程,风格模仿,换脸全靠它
01-09stable diffusion怎么进行文生图_stable diffusion参数怎么设置_SD模型
01-17