2025-09-01 09:01:01 | 来源: AICG工具箱
8月14日消息,字节跳动Seed团队今日发布并开源了全模态PyTorch原生训练框架——VeOmni。
近年来,大模型技术正从单一文本模态,向包含图像、语音、视频等多种信息的“全模态”(Omni-Modal)理解生成方向演进。但目前训练一个能“看”、能“听”、能“说”的全能模型,依然面临着系统性的工程挑战。
字节跳动介绍称,VeOmni采用以模型为中心的分布式训练方案,可将复杂的分布式并行逻辑与模型计算解耦,让研究员像搭积木一样,为全模态模型组合设置高效的并行训练方案。这一方式可大幅降低工程开销,提升训练效率和扩展性,将数周的工程开发时间缩短至几天。
此前,使用Megatron-LM等以系统为中心的分布式训练框架训练全新架构的视觉-语言模型,往往需要一周以上进行工程研发,以及更长时间推进分布式优化和精度对齐,且耗时高度依赖于Infra工程团队的经验积累。而使用VeOmni只需一天即可完成模型代码构建,开启训练任务,工程耗时可压缩90%以上。
实验结果表明,基于VeOmni框架,一个300亿参数的全模态MoE模型(支持文本、语音、图片、视频的理解和生成),在128张卡上训练吞吐量可超过2800tokens/sec/GPU,并能轻松扩展至160K超长上下文序列。
目前,VeOmni的相关论文和代码仓库均已对外公开,GitHubStar数超过500。附开源地址:
arXiv:https://arxiv.org/pdf/2508.02317
GitHub:https://github.com/ByteDance-Seed/VeOmni
热门榜单
Emo-阿里巴巴的AI视频生成框架
常用AI讯飞绘文
常用AITutorAI
常用AILiblibAI·哩布哩布AI
常用AIProdia
常用AIWink Studio
常用AIGPTs:GPT Builder创建器
常用AICharisma.ai
常用AIValideo,亚马逊购物助手
常用AI热门资讯
有哪些好用的AI工具_AI工具测评使用_
12-31零基础2天速成!白嫖「秋叶」官方AI绘画课程,卷死同事
01-08盘点50个目前最火的AIGC应用工具:ChatGPT占据60%+份额,90%公司已开始盈利
05-15GPT-4o回来了,评论区炸了
08-19商汤「日日新」5.0大模型上新:现场“暴打”GPT-4,端侧小模型SenseChat Lite效率突出,多项测评击败Llama 2
04-13波士顿动力最新电驱版Atlas机器人,完美复刻《午夜凶铃》贞子女鬼经典动作
04-15Sora发布了首支音乐MV《Worldweight》丨天工大模型3.0细节披露:4000亿参数丨抖音禁止发布“AI复活”视频
04-17OpenAI研发团队:Sora目前还不能算一个成熟的产品,暂时不会向公众开放使用
04-21李彦宏:AI时代「程序员」职业将不复存在,未来编程语言将剩下中文与英文
04-24利润暴增,股价涨300%?老牌企业靠AI翻盘,如何布局?
08-19