2025-04-30 14:40:00 | 来源: AICG工具箱
一款名为Vary-toy的超小体积的大模型来了!模型大小不到20亿参数,消费级显卡可训练,几年前的GTX1080Ti 8G的老显卡轻松运行。
你想将一份图片文档转换成Markdown的格式?
以往需要文本识别、布局检测和排序、公式表格处理、文本清洗等多个步骤。而现在只需一句话命令:
无论中英文,图片中的大段文字都能分分钟提取出来:
对一张图做对象检测,还是能给出具体坐标的那种:
Vary-toy项目的研究由来自旷视科技、国科大、华中大的研究人员共同提出。
据介绍,Vary-toy虽小,但却几乎涵盖了目前LVLM(大型视觉语言模型)主流研究中的所有能力:文档OCR识别、视觉定位、图像描述、视觉问答。
现在,Vary-toy代码和模型均已开源,并有在线demo可试玩。
网友对于这款大模型,最感兴趣的地方莫过于执行训练的运算卡竟然是GTX 1080,心情Be like:
其实,去年的12月,该研发团队就发布了Vary大模型的首项研究成果“Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models”。
研究人员指出CLIP视觉词表在密集感知能力上的不足,并用一种简单有效的扩充词表方案给出了一种全新的OCR范式。Vary发布后得到广泛关注,目前Github得到了超过1200颗星星,但也有不少人因为资源受限运行不了。
考虑到目前开源得很好且性能出色的“小”VLM比较少,于是该团队又新发布了号称是“年轻人的第一个多模大模型”的Vary-toy。
与Vary相比,Vary-toy除了小之外,也训练了更强的视觉词表,新的词表不再将模型局限于文档级OCR,而是给出了一个更加通用和全面的视觉词表,其不仅能做文档级OCR,还能做通用视觉目标检测。
那这究竟是如何做到的?
Vary-toy的模型结构和训练流程如下图所示,总的来说,训练共分两个阶段。
首先在第一阶段,使用Vary-tiny+结构,预训练出一个相比原版Vary更好的视觉词表,新的视觉词表解决了原Vary只用它做文档级OCR的网络容量浪费问题、以及没有充分利用到SAM预训练优势的问题。
然后在第二阶段中,将第一阶段中训好的视觉词表merge到最终结构进行multi-task training/SFT。
众所周知,一个好的数据配比对于产生一个能力全面的VLM是至关重要的。
因此在预训练阶段,Vary-toy使用了5种任务类型的数据构建对话,数据配比和示例prompt如下图所示:
而在SFT阶段,只使用了LLaVA-80K数据。更多的技术细节,可以查看Vary-toy的技术报告。
Vary-toy在DocVQA、ChartQA、RefCOCO、MMVet四个基准测试的得分如下:
Vary-toy在DocVQA上可以达到 65.6%的ANLS,在ChartQA上达到59.1%的准确率,RefCOCO88.1%的准确率:
MMVet上可以达到29%准确率,无论是从基准测试评分上还是可视化效果上,不到2B的Vary-toy甚至能和一些流行的7B模型的性能一较高下。
项目地址:
https://varytoy.github.io/
热门榜单
Lunit,ai癌症筛查工具
常用AICanva AI图像生成
常用AIMagicStudio
常用AIClipDrop
常用AIVmake AI
常用AIIconGen
常用AIBing Image Creator
常用AI摩笔马良
常用AI175FUN
常用AI热门资讯
全网沸腾!AI大模型「开源之王」Llama 3正式发布:性能比肩GPT-4
04-15英伟达CEO黄仁勋:人形机器人将逐渐成为主流,售价将在1万-2万美元之间
04-15字节跳动发布两款豆包系列视频模型丨ChatGPT「高级语音模式」功能全量上线丨「Apple智能」对存储空间要求进一步提高
02-05金山发布WPS 365办公套件,打造ToB企业全场景一站式AI办公工作流新模式
04-17金山WPS AI新功能新玩法首发测评:不含水分,中文版「GPT+Office」真的来了!
01-07仅需三步,教你学会AI艺术二维码生成!超高成功率,零元喂饭教程
01-15有什么方式可以运行stable diffusion_怎么用Docker容器运行 SD
01-24中文多模态大模型SuperCLUE-V榜单发布丨Stability AI推出Stable Fast 3D模型丨Meta AI向好莱坞明星采买声音授权
02-11OpenAI奥特曼扮演“谜语人”疯狂预热新模型:神秘大模型「gpt2」火爆内测,传闻5月10日凌晨正式上线
04-09微软推出Phi-3-mini迷你模型:苹果iPhone端侧就能运行,38亿参数规模就媲美GPT-3.5性能
04-15