2025-06-04 09:59:29 | 来源: AICG工具箱
6月15日报道 | OpenAI在3月份公布了GPT-4的重磅升级,这版本的大模型具备了图像输入的能力,能够理解梗图、解答物理问题,甚至能够阅读论文,仍记得这一消息当时震惊了许多人。然而,OpenAI表示图像输入功能仍处于研究预览阶段,尚未向公众开放。然而,最近Reddit上的一位网友却发现他的Bing Chat账号悄悄增加了一个上传图片的入口,并且Bing Chat竟然可以通过识图回答问题。
此前,微软透**ing Chat使用的正是GPT-4模型,并在上个月的更新日志中提到将为Bing加入多模态支持。综合这些信息来看,Bing Chat很可能正在逐步开发并向用户开放识图功能的测试。
该网友进行了大量的测试,让我们一起来看看这个被称为「长了眼睛」的Bing Chat有多厉害吧。
网友将这张梗图上传到Bing Chat进行测试,Bing Chat并没有认出这是VGA接口,因此也无法理解其中的笑点。但是,Bing Chat还是可以将照片解读出来,甚至提供线缆的品牌和更详细的资料。这可能是Bing Chat的一个偶然误差,或者是微软在实际应用GPT-4时进行了更多限制和调整,导致回答的偏差。
网友还上传了一张关于机器学习的梗图漫画,这次Bing Chat能够准确地回答出图片中的内容和笑点。
同样,Bing Chat对一张关于在汽车上烫衣服的梗图的分析也非常到位。
Bing Chat的识图精度似乎相当高,网友还上传了一张《任天堂大乱斗》游戏的角色图,要求Bing Chat识别其中的所有角色。结果显示,Bing Chat在12个角色中认出了7个,这说明对于二次元的问题,它还存在一定的困难。
OpenAI在发布GPT-4时还展示了通过手绘图编程网页的案例,这位网友也手画了一张图来测试Bing Chat。虽然代码的部分被省略了,但可以看出基础的网页雏形已经搭建完成。
识图功能的加入为Bing Chat增添了许多实用的用途。毕竟,有些现实世界中的内容(如公式、图表)很难用文字来清晰表达,这时候通过一张图向AI提问就能得到答案。
加入视觉识别后,Bing Chat甚至可以充当初中、高中甚至大学老师的角色,帮助学生解答复杂的数理化问题。如果将识图功能推广开来,或许能在一定程度上解决教育资源不均衡的问题。
用户还可以利用Bing Chat进行基础的医疗诊断,节约就医所需的金钱和时间,充分展现了AI对大众的普惠价值。
然而,尽管Bing Chat能够基本理解现实世界的内容,但它的回答终究只能作为参考,不能被当作专业意见。因此,要完全向公众开放识图功能,微软仍需要进行大量的限制和调试,以确保公众不会因为错误的AI回答而导致安全问题的发生。
热门榜单
快影
常用AI小冰岛
常用AI通义万相
常用AIDALL·E 3
常用AIPika AI
常用AI猫箱
常用AIWink Studio
常用AI讯飞同传
常用AI夸克扫描王
常用AI热门资讯
TensorRT插件安装_TensorRT插件怎么提升SD生图速度_stable diffusion插件
05-08神州问学深入大模型微调技术研究,小参数的模型在特定任务场景中表现超越大模型
01-31DeepL推出新一代翻译编辑大模型:翻译质量超越竞争对手谷歌微软ChatGPT
02-13落地发绿卡?微软加速AI团队撤出中国,加码布局投资东南亚市场
03-27微软Build 2024发布Copilot多项服务升级丨通义主力大模型API定价暴降97%丨文心大模型两大主力模型API免费
03-27vivo发布行业首个视障人士辅助多模态大模型,AI智能识别物体,为视障人士开启智能“电子眼睛”
03-28三星新一代旗舰手机Galaxy S24遭到沃尔玛「意外」提前上架:主打AI翻译功能,搭载高通骁龙8 Gen 3处理器
05-03开源版Gemini诞生_全能多模态模型Emu2登热榜_最新Emu2
05-03「微信AI」功能终于要来了:腾讯官宣2024微信公开课PRO定于1月11日开讲,还携手OPPO战略合作
05-03当闭环王者进入开源世界:苹果发布开源多模态大模型Ferret,可用于精准识别与定位图像里边的物体
05-04