2025-05-20 11:33:40 | 来源: AICG工具箱
8月2日报道丨谷歌研究团队进行一项实验研究,他们使用 OpenAI 的 GPT-4聊天机器人来攻破其他机器学习模型的安全防护措施。这项实验证明了聊天机器人作为研究助手的价值。具体来说,谷歌 Deep Mind 的研究科学家 Nicholas Carlini在一篇题为“AI-Guardian 的 LLM 辅助开发”的论文中,探讨了如何通过指导 GPT-4设计攻击方法并撰写攻击原理的文本,以欺骗 AI-Guardian 的防御机制。AI-Guardian 是一种防御对模型的攻击的系统,旨在检测可能被篡改的图像以欺骗分类器。
GPT-4会发出用于调整图像的脚本(和解释)来欺骗分类器——例如,让它认为某人拿着枪的照片是某人拿着无害苹果的照片——而不会引发 AI-Guardian 的怀疑。AI-Guardian 旨在检测图像何时可能**纵以欺骗分类器,而 GPT-4的任务是逃避该检测。
通过 GPT-4的帮助,攻击者能够成功地破解 AI-Guardian 的防御,使其从98% 的稳健性降低到仅8%。然而,AI-Guardian 的开发者指出,这种攻击方法可能在改进的版本中失效。
据了解到,GPT-4作为研究助手的价值在于它能够快速生成代码,并且不会分心或疲劳,始终可用于完成指定的任务。然而,依赖 GPT-4并不完全解除人类合作者的责任,因为它仍然需要人类提供正确的提示并修复生成的代码中的错误。虽然 GPT-4还存在一些限制,但随着大型语言模型的改进,它们将为计算机科学家提供更多时间来开展有趣的研究问题。
热门榜单
万相营造
常用AITextGPT-短信访问chatgpt服务
常用AIFind Your Next Book--AI荐书
常用AI摩笔马良
常用AI美图设计室
常用AICanva可画
常用AI通义点金
常用AI可灵AI
常用AI讯飞智文 — 科大讯飞
常用AI热门资讯
阿里云通义千问上线AIGC春节新玩法:AI帮你免费拍摄全家福,AI舞蹈视频生成器“全民舞王”新增春晚舞蹈
04-28美国计划出台限中制裁法案:拟禁止开源类AI大模型产品向中国、俄罗斯等竞争对手出口
04-08快手APP上线首个AI社交技能:「AI小快」聊天机器人,成为评论区的欢乐喜剧人
04-13OpenAI正式发布AI绘画生成工具DALL-E 3丨WPS AI接入旗下全线办公产品丨英特尔发布第三代AI芯片,算力暴涨2倍
05-15助力医疗AI数字化转型,百度发布国内首个“产业级”医疗大模型:灵医大模型
05-15天猫精灵升级“未来精灵”品牌:发布3款AI硬件终端,涵盖智能音箱、平板、智能眼镜等领域
05-15上海人工智能实验室发布新一代开源模型“书生·浦语”2.0:测评能力赶超ChatGPT,支持免费商用
12-30讯飞星火大模型3.0测评_对比ChatGPT怎么样?
12-31Ideogram更新,AI可直接生成海报丨附最新使用教程
01-07Reactor AI换脸详细教程,简单好用,秒杀Roop丨Stable Diffusion应用教程
01-10