2025-04-02 17:29:21 | 来源: AICG工具箱
5月14日报道丨5月14日下午,腾讯发布今年第二季度业绩财报,并宣布宣布旗下的混元文生图AI大模型升级并对外正式开源,目前开源代码已经在 Hugging Face 及 Github 上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费商用。
升级后的混元文生图大模型采用了与 Sora 一致的 DiT 架构,腾讯表示,混元 DiT 是首个中英双语 DiT 架构。
混元 DiT 是一个基于 Diffusion transformer 的文本到图像生成模型,此模型具有中英文细粒度理解能力,混元 DiT 能够与用户进行多轮对话,根据上下文生成并完善图像。这也是业内首个中文原生的 DiT 架构文生图开源模型,支持中英文双语输入及理解,参数量 15 亿。
运行该模型需要支持 CUDA 的英伟达 GPU,单独运行混元 DiT 所需的最低显存为 11GB,同时运行 DialogGen(腾讯推出的文本转图像多模态交互式对话系统)和混元 DiT 则至少需要 32GB 的显存,腾讯表示他们已经在 Linux 上测试了英伟达的 V100 和 A100 GPU。
这是业内首个中文原生的DiT架构文生图开源模型,支持中英文双语输入及理解,参数量15亿。
评测数据显示,最新的腾讯混元文生图模型效果远超开源的 Stable Diffusion 模型,是目前效果最好的开源文生图模型;整体能力属于国际领先水平。
升级后的腾讯混元文生图大模型采用了全新的DiT架构(DiT,即Diffusion With Transformer),这也是Sora和 Stable Diffusion 3 的同款架构和关键技术,是一种基于Transformer架构的扩散模型。
过去,视觉生成扩散模型主要基于 U-Net 架构,但随着参数量的提升,基于 Transformer 架构的扩散模型展现出了更好的扩展性,有助于进一步提升模型的生成质量及效率。
腾讯混元是业界最早探索并应用大语言模型结合 DiT 结构的文生图模型之一。从 2023 年 7 月起,腾讯混元文生图团队就明确了基于DiT架构的模型方向,并启动了新一代模型研发。今年初,混元文生图大模型已全面升级为DiT架构。
在DiT架构之上,腾讯混元团队在算法层面优化了模型的长文本理解能力,能够支持最多 256 字符的内容输入。同时,在算法层面创新实现了多轮生图和对话能力,可实现在一张初始生成图片的基础上,通过自然语言描述进行调整,从而达到更满意的效果。
中文原生也是腾讯混元文生图大模型的一大亮点,此前,像 Stable Diffusion 等主流开源模型核心数据集以英文为主,对中国的语言、美食、文化、习俗都理解不够。混元文生图是首个中文原生的DiT模型,具备中英文双语理解及生成能力,在古诗词、俚语、传统建筑、中华美食等中国元素的生成上表现出色。
评测结果显示,新一代腾讯混元文生图大模型视觉生成整体效果,相比前代提升超过 20%,在语义理解、画面质感与真实性方面全面提升,在多轮对话、多主体、中国元素、真实人像生成等场景下效果提升显著。
热门榜单
Hi Echo — 网易有道
常用AITextomap
常用AIValideo,亚马逊购物助手
常用AICanva AI图像生成
常用AIRibbet.ai
常用AIMagicStudio
常用AIBooltool
常用AIGraviti Diffus
常用AICanva可画
常用AI热门资讯
小白0基础教程:利用AI视频生成工具,批量制作视频,太爽哦
01-15百川智能发布超千亿大模型Baichuan 3:医疗场景全面覆盖,实测中文任务赶超GPT-4,写诗写词更懂国人
12-27实测百度文心大模型4.0_媲美GPT-4,果真如此吗?
12-31荣耀CEO赵明:荣耀领先三年,很高兴看到苹果追随我们的AI手机发展路线
02-24小米AI助理“小爱同学”接入字节跳动豆包大模型,将用于小米旗下所有「人车家」终端
02-24国产最强文生视频模型「可灵」首发:直出2分钟超长视频,生成质量完胜OpenAI Sora丨免费体验
02-25我测评了10款好玩到哭的GPTs原生AI应用:教你减肥、调酒、帮你解梦…ChatGPT最新GPTs玩法大公开
12-27商汤全新AI绘图大模型“秒画Artist”v0.3.5版本上手测评:作画水平比肩Midjourney!划重点——免费
12-31实测ChatGPT大升级!数学逻辑能力大幅提升:1.2万道数学题测试,突破78.2%的难题
01-07零基础2天速成!白嫖「秋叶」官方AI绘画课程,卷死同事
01-08