2025-06-06 12:17:45 | 来源: AICG工具箱
6月12日报道 |北京百度网讯科技有限公司获得了一项关于生成数字人的专利授权。该专利名为"生成数字人的方法、模型的训练方法、装置、设备和介质",涉及到自然语言处理、深度学习、计算机视觉、图像处理、增强现实和虚拟现实等人工智能技术领域。该专利的应用范围包括元宇宙等多个场景。
专利方案的实现过程如下:
首先,获取素材内容。利用预训练的场景划分模型从素材内容中确定多个场景。每个场景对应素材内容中的一个具有完整语义信息的内容片段。针对每个场景,基于相应的内容片段确定该场景对应的目标内容。根据目标内容确定该场景的场景标签信息。最后,根据场景标签信息配置特定于该场景的数字人。该专利的目的是改善数字人在视频中的应用体验。传统的数字人应用通常基于固定的模板进行,比如播报新闻的数字人。然而,在这种情况下,数字人可能与内容割裂,播报内容与数字人形象不匹配,给用户带来差劲的观看体验。
通过将素材内容按照场景切分并以场景为粒度配置数字人,该专利确保了数字人与场景和目标内容的一致性。这种方法改善了素材内容和数字人之间的融合,提升了用户观看数字人的体验。
该专利的授权对于数字人技术的发展和元宇宙等领域的应用具有重要意义,为提升数字人与场景的一致性和用户体验提供了新的解决方案。
热门榜单
小冰岛
常用AIDALL·E 3
常用AIPika AI
常用AI猫箱
常用AIWink Studio
常用AI夸克扫描王
常用AI百度搜索丨AI智能回答
常用AI博思白板 — boardmix AI
常用AISDXL Turbo — Clipdrop
常用AI热门资讯
TensorRT插件安装_TensorRT插件怎么提升SD生图速度_stable diffusion插件
05-08神州问学深入大模型微调技术研究,小参数的模型在特定任务场景中表现超越大模型
01-31DeepL推出新一代翻译编辑大模型:翻译质量超越竞争对手谷歌微软ChatGPT
02-13落地发绿卡?微软加速AI团队撤出中国,加码布局投资东南亚市场
03-27微软Build 2024发布Copilot多项服务升级丨通义主力大模型API定价暴降97%丨文心大模型两大主力模型API免费
03-27vivo发布行业首个视障人士辅助多模态大模型,AI智能识别物体,为视障人士开启智能“电子眼睛”
03-28三星新一代旗舰手机Galaxy S24遭到沃尔玛「意外」提前上架:主打AI翻译功能,搭载高通骁龙8 Gen 3处理器
05-03开源版Gemini诞生_全能多模态模型Emu2登热榜_最新Emu2
05-03「微信AI」功能终于要来了:腾讯官宣2024微信公开课PRO定于1月11日开讲,还携手OPPO战略合作
05-03当闭环王者进入开源世界:苹果发布开源多模态大模型Ferret,可用于精准识别与定位图像里边的物体
05-04