3.5 KiB
3.5 KiB
VLM模型测评总结
测试模型:qwen-vl2-7B,qwen-vl2-2B,minicpm,llama3.2-vision,deepseek-vl2
其中,qwen-vl2-7B,qwen-vl2-2B,minicpm可直接输入视频,视频为10s短视频
llama3.2-vision,deepseek-vl2输入图片,将10s短视频截取为3-8张图片
测试数据包括:
1. 室内右上角全景
2. 沙发正面
3. 右上角-吃饭
4. 左前方-吃饭
4. 左侧
测试结果
-
在处于近景时(左前方、正前方),qwen-vl2-7B,qwen-vl2-2B,minicpm,llama3.2-vision,deepseek-vl2均能较好地识别出场景中的人数,并能较好地描述场景,包括吃饭、睡觉、喝水、玩手机等动作。对于人物的识别都差不多, 表情难以识别,穿着识别较准,性别和外貌一般。
- minicpm会推测是什么食物,只有llama3.2-vision和minicpm识别出食物是玉米,但概率比较小,不是每次都能识别出来。
- qwen-2B效果最差,无法识别出场景中的人数,也无法识别出场景中的人物
- llama3.2-vision对场景描述很详细,只有llama3.2-vision识别到了电视
-
在处于远景时(右上角),动作是吃饭,只有llama3.2-vision识别出吃东西和喝水的动作,但对人数识别不准确,其他模型都认为在工作
-
在处于远景时(右上角),人物在室内活动,此时的行为包括
- 搬纸箱/整理东西:只有qwen-7B准确识别行为和人数,以及人物外貌
- 站立喝水:"qwen-7B"和llama3.2-vision识别出喝水的动作,其余模型会把水杯识别成手机,"qwen-7B"对人数和外貌识别最准,llama3.2-vision对人数及外貌的识别很离谱,
- 坐着使用手机:"deepseek-vl2"有时不能,llama3.2-vision对人数及外貌的识别最差
- 坐着看书:在第一个视频"minicpm"、"qwen-vl2-7B"、llama3.2-vision能肯定是一个人坐着看书。在另一个视频deepseek认为在逗猫,qwen-vl2-7B认为在弹吉他,llama3.2-vision对人数及外貌的识别最离谱
- 蹲着看书:都认为是坐着看书,只有minicpm识别到"蹲"这个动作,
- 行走、站在窗前:"qwen-7B"和"deepseek-vl2"对人数和行为以及行动轨迹的识别最准,其他模型能识别到在行走和行动轨迹,但在人数判断上存在问题
- 移动电视:qwen-vl2-7B准确识别这一行为,其他模型只能识别出弯腰检查东西
针对远景来看,qwen-7B对行为的识别最准,但对于人数的判断最差,minicpm对人数及外貌的判断相对最准确
-
近景左侧时,行为包括
- 看书:都可以识别到
- 使用手机:都可以,llama3.2-vision对人数及外貌的识别还是不行
- 使用电脑:都可以识别到
- 喝水:"qwen-7B"、minicpm、deepseek-vl2、llama3.2-vision都可以识别到喝水
- 在白板上写字:只有minicpm识别到
- 行走:都能识别,但llama3.2-vision对人数及外貌识别差距很大
- 先使用手机,然后拿起书并开始阅读:都可以识别到这个动作
总结
1. 在近景时,几个模型对动作、人物表情、人物外貌的识别都较准确,只有llama3.2-vision对人数以及人物识别最差
2. 在远景时,qwen-7B对行为的识别相对较准,minicpm对人数及外貌的判断相对最准确。
3. 无论是近景还是远景,llama3.2-vision对人数以及人物识别都较差,会出现很多人物,对人物的描述也千奇百怪,但对行为识别还可以
4. qwen-2B表现最差
5. deepseek-vl2一般