2025-08-16 07:05:28 | 来源: AICG工具箱
在SIGGRAPH大会上,英伟达推出开源物理AI与机器人视觉推理模型CosmosReason,可将复杂指令分解为任务并用常识执行。
在当地时间周一揭幕的行业顶级会议SIGGRAPH(国际计算机协会计算机图形学和交互技术特别兴趣小组年度会议)上,“全球股王”英伟达推出一系列面向机器人开发者的世界模型、应用库和基础设施。
其中,最引人关注的是参数量只有70亿的开源物理AI应用和机器人视觉推理模型CosmosReason。
英伟达介绍称,自从OpenAI多年前发布CLIP模型以来,视觉语言模型已经改变了计算机视觉任务,例如物体与模式的识别等。然而,此前的模型无法解决多步骤任务,也难以应对模糊或新颖的现实体验。
凭借记忆和理解能力,CosmosReason能够使机器人和AI具身代理“像人类一样推理”,并在真实世界中采取行动。
在英伟达给出的案例中,运行视觉推理模型的机器人手臂,成功根据“面包+烤面包机”的场景,推断出最合理的下一步动作是将面包放进烤面包机进行烘烤,并将思考逻辑转化成机器手臂的操作指令。
(来源:英伟达)
这项功能叫做“机器人规划与推理”。CosmosReason能够作为机器人的“大脑”,负责有意识、条理化的决策。视觉推理模型能够解释环境,并在面对复杂指令时将其分解为任务并利用常识执行。
除此之外,这个模型还能用于一系列AI应用。例如自动化对大规模、多样化训练数据集进行整理、标注,也能从海量视频数据中提取有价值的信息并进行归因分析。
目前这个模型已经投入商业化运营。英伟达披露,公司内部的机器人和自动驾驶团队正使用这个模型进行数据整理与过滤、标注以及VLA(视觉语言动作)后训练。优步(Uber)也在使用该模型为自动驾驶训练数据进行标注与生成说明。
除此之外,麦格纳国际正在使用该模型开发全自动即时配送解决方案CityDelivery,用来帮助车辆更快适应新城市环境。VASTData、MilestoneSystems也在交通监控自动化、视觉检测等领域应用该模型。
除了CosmosReason,英伟达也在Cosmos世界模型中新增了CosmosTransfer-2,用来加速从3D仿真等场景生成合成数据,以及一个经过蒸馏、更为注重速度优化的CosmosTransfers版本。
英伟达也在周一更新了Omniverse软件开发工具包,并公布了新的神经重建库。其中包括一种渲染技术库,允许开发者使用传感器数据在三维中模拟现实世界。
这一系列发布标志着AI芯片巨头正在加码进军机器人领域,试图将其培养成AI数据中心之外的下一个重要应用场景。
热门榜单
175FUN
常用AIFacet
常用AIFlagStudio
常用AIHi Echo — 网易有道
常用AI讯飞绘文
常用AI快影
常用AI网易AI创意工坊
常用AI美颜相机
常用AI腾讯文库AI
常用AI热门资讯
Stable Diffusion四大基础模型测评丨附整合包下载地址
12-26体验完ChatGPT最新联网插件Web browsing,我们发现了以下好处与坏处
01-07国产最强文生视频模型「可灵」首发:直出2分钟超长视频,生成质量完胜OpenAI Sora丨免费体验
02-25AI 思维导图:boardmix AI 一款All-in-one的在线白板软件,助力高效远程办公!
05-29Claude突获“超能力”,Anthropic上线实时网络搜索,逆袭OpenAI和谷歌?
07-13入局3D大模型、支持空间内容创作…大厂们都在布局的3D生成领域,离ChatGPT时刻又近了一步?
07-21阿里云通义千问Qwen3旗舰版模型宣布更新:性能全面提升,超越Kimi、DeepSeek等行业顶尖水平
07-28华硕ProArt联合SOHO中国开启2025智享AI创作先锋之旅
08-11字节跳动发布豆包视频生成模型,这效果让我分不清AI虚拟与现实的边界
12-25夸克AI搜索_夸克最新动态_夸克官方网站
12-26