2025-06-10 09:03:58 | 来源: AICG工具箱
6月6日报道丨6月2日,来自英国剑桥大学、日本奈良先端科学技术大学院大学、腾讯AI Lab的多位研究人员们在网上公开发布了通用指令跟随大模型PandaGPT(直译过来就是:熊猫GPT)。
据介绍,PandaGPT可以执行复杂的任务,如生成详细的图像描述、编写受视频启发的故事、回答有关音频的问题。PandaGPT可同时接受多模态输入,并自然地组合它们的语义。
PandaGPT在文本、图像/视频、音频、深度、热度(thermal)和IMU六种模态上展示了跨模态能力,但由于ImageBind提供的共享嵌入空间,它只能使用对齐的图像-文本对进行训练。研究人员希望PandaGPT可以作为构建通用人工智能(AGI)的第一步,它可以像人类一样全面地感知和理解不同形式的输入。
值得强调的是,目前的 PandaGPT 版本只使用了对齐的图像 - 文本数据进行训练,但是继承了 ImageBind 编码器的六种模态理解能力,具备在所有模态之间跨模态能力。在实验中,论文作者展示了 PandaGPT 对不同模态的理解能力,包括基于图像 / 视频的问答,基于图像 / 视频的创意写作,基于视觉和听觉信息的推理等等,下面其中一个例子,PandaGPT可以很好的接合图像+音频来判断一个事物:
热门榜单
G3D.AI
常用AIInteriorAI,ai室内设计
常用AIChefGPT,根据现有食材推荐食谱
常用AIAnimeAI
常用AIGemsouls,和虚拟人物交友
常用AIOpus,生成游戏、电影、故事
常用AIAskNow,向名人提问
常用AIPodcast,人工智能生成的播客
常用AICoolAIid
常用AI热门资讯
谷歌Gemini文生图翻大车:生成人像过度追求种族多元性,涉嫌“歧视白人”,这可能是马斯克被“黑”得最惨的一次
04-26TensorRT插件安装_TensorRT插件怎么提升SD生图速度_stable diffusion插件
05-08神州问学深入大模型微调技术研究,小参数的模型在特定任务场景中表现超越大模型
01-31DeepL推出新一代翻译编辑大模型:翻译质量超越竞争对手谷歌微软ChatGPT
02-13落地发绿卡?微软加速AI团队撤出中国,加码布局投资东南亚市场
03-27微软Build 2024发布Copilot多项服务升级丨通义主力大模型API定价暴降97%丨文心大模型两大主力模型API免费
03-27vivo发布行业首个视障人士辅助多模态大模型,AI智能识别物体,为视障人士开启智能“电子眼睛”
03-28三星新一代旗舰手机Galaxy S24遭到沃尔玛「意外」提前上架:主打AI翻译功能,搭载高通骁龙8 Gen 3处理器
05-03开源版Gemini诞生_全能多模态模型Emu2登热榜_最新Emu2
05-03「微信AI」功能终于要来了:腾讯官宣2024微信公开课PRO定于1月11日开讲,还携手OPPO战略合作
05-03