2025-04-19 15:17:30 | 来源: AICG工具箱
近日,谷歌在其 GitHub 页面发布博文介绍一款名为 VLOGGER AI 的新模型,用户只需要输入一张肖像照片和一段音频内容,该模型可以让这些人物“动起来”,富有面部表情地朗读音频内容。
VLOGGER AI 是一种适用于虚拟肖像的多模态 Diffusion 模型,使用 MENTOR 数据库进行训练,该数据库中包含超过 80 万名人物肖像,以及累计超过 2200 小时的影片,从而让 VLOGGER 生成不同种族、不同年龄、不同穿着、不同姿势的肖像影片。
研究人员表示:“和此前的多模态模型相比,VLOGGER AI 的优势在于不需要对每个人进行训练,不依赖于人脸检测和裁剪,可以生成完整的图像(而不仅仅是人脸或嘴唇),并且考虑了广泛的场景(例如可见躯干或不同的主体身份),这些对于正确合成交流的人类至关重要”。
除了将静态人物进行动态转化之外,还可以针对不同语言系统进行口型的转换,比如将一则英语播报的主播转换为西班牙语的口型。这将有助于视频主播将内容注入更多的语言场景。
谷歌的研究团队认为,可以将 VLOGGER 应用于将 AI 聊天机器人具象可视化,比如让机器人拥有可视化的人物躯干,AI 就可以通过语音、手势和眼神交流以自然的方式与人类互动。 VLOGGER 的应用场景包括可以用于学术报告、教育场域和视频旁白等等 AI 数字人的应用领域。
围观项目主页:
https://enriccorona.github.io/vlogger/
热门榜单
通义万相
常用AI剪映
常用AIEmo-阿里巴巴的AI视频生成框架
常用AI讯飞绘文
常用AICanva AI图像生成
常用AIARC
常用AIDeepSwapper
常用AIGraviti Diffus
常用AI悠船
常用AI热门资讯
B端设计教学_怎么进行UI视觉设计_B端设计教学
01-16中文多模态大模型SuperCLUE-V榜单发布丨Stability AI推出Stable Fast 3D模型丨Meta AI向好莱坞明星采买声音授权
02-11阿里云发布通义千问2.5大模型:号称多项能力赶超GPT-4,发布开源模型Qwen1.5-110B
04-09全网沸腾!AI大模型「开源之王」Llama 3正式发布:性能比肩GPT-4
04-15stable diffusion初识_stable diffusion跟其他工具有什么区别]
01-17小米AI助理“小爱同学”接入字节跳动豆包大模型,将用于小米旗下所有「人车家」终端
02-24OpenAI今夜发布新版GPT-4大模型:“青春版”GPT4-Lite现身,AI搜索引擎「SearchGPT」代码首曝光
04-03英伟达CEO黄仁勋:人形机器人将逐渐成为主流,售价将在1万-2万美元之间
04-15谷歌Gemini引发争议!网友质疑宣传片疑似剪辑效果 夸大宣传丨实测对标GPT-4测评基准有失偏颇
12-30AI绘画教程_怎么用AI创作多角度人像_多角度人像_人物多角度
01-16