VLM模型测评总结

测试模型：qwen-vl2-7B，qwen-vl2-2B，minicpm，llama3.2-vision,deepseek-vl2

其中，qwen-vl2-7B，qwen-vl2-2B，minicpm可直接输入视频，视频为10s短视频
llama3.2-vision,deepseek-vl2输入图片，将10s短视频截取为3-8张图片

测试数据包括：

1. 室内右上角全景
2. 沙发正面
3. 右上角-吃饭
4. 左前方-吃饭
4. 左侧

测试结果

在处于近景时（左前方、正前方），qwen-vl2-7B，qwen-vl2-2B，minicpm，llama3.2-vision,deepseek-vl2均能较好地识别出场景中的人数，并能较好地描述场景，包括吃饭、睡觉、喝水、玩手机等动作。对于人物的识别都差不多，表情难以识别，穿着识别较准，性别和外貌一般。
1. minicpm会推测是什么食物，只有llama3.2-vision和minicpm识别出食物是玉米，但概率比较小，不是每次都能识别出来。
2. qwen-2B效果最差，无法识别出场景中的人数，也无法识别出场景中的人物
3. llama3.2-vision对场景描述很详细，只有llama3.2-vision识别到了电视
在处于远景时（右上角），动作是吃饭，只有llama3.2-vision识别出吃东西和喝水的动作，但对人数识别不准确，其他模型都认为在工作
在处于远景时（右上角），人物在室内活动，此时的行为包括
1. 搬纸箱/整理东西：只有qwen-7B准确识别行为和人数，以及人物外貌
2. 站立喝水："qwen-7B"和llama3.2-vision识别出喝水的动作，其余模型会把水杯识别成手机，"qwen-7B"对人数和外貌识别最准，llama3.2-vision对人数及外貌的识别很离谱，
3. 坐着使用手机："deepseek-vl2"有时不能，llama3.2-vision对人数及外貌的识别最差
4. 坐着看书：在第一个视频"minicpm"、"qwen-vl2-7B"、llama3.2-vision能肯定是一个人坐着看书。在另一个视频deepseek认为在逗猫，qwen-vl2-7B认为在弹吉他，llama3.2-vision对人数及外貌的识别最离谱
5. 蹲着看书：都认为是坐着看书，只有minicpm识别到"蹲"这个动作，
6. 行走、站在窗前："qwen-7B"和"deepseek-vl2"对人数和行为以及行动轨迹的识别最准，其他模型能识别到在行走和行动轨迹，但在人数判断上存在问题
7. 移动电视：qwen-vl2-7B准确识别这一行为，其他模型只能识别出弯腰检查东西
针对远景来看，qwen-7B对行为的识别最准，但对于人数的判断最差，minicpm对人数及外貌的判断相对最准确
近景左侧时,行为包括
1. 看书：都可以识别到
2. 使用手机：都可以，llama3.2-vision对人数及外貌的识别还是不行
3. 使用电脑：都可以识别到
4. 喝水："qwen-7B"、minicpm、deepseek-vl2、llama3.2-vision都可以识别到喝水
5. 在白板上写字：只有minicpm识别到
6. 行走：都能识别，但llama3.2-vision对人数及外貌识别差距很大
7. 先使用手机，然后拿起书并开始阅读：都可以识别到这个动作

总结

1. 在近景时，几个模型对动作、人物表情、人物外貌的识别都较准确，只有llama3.2-vision对人数以及人物识别最差
2. 在远景时，qwen-7B对行为的识别相对较准，minicpm对人数及外貌的判断相对最准确。
3. 无论是近景还是远景，llama3.2-vision对人数以及人物识别都较差，会出现很多人物，对人物的描述也千奇百怪，但对行为识别还可以
4. qwen-2B表现最差
5. deepseek-vl2一般

3.5 KiB Raw Blame History Unescape Escape

VLM模型测评总结

测试模型：qwen-vl2-7B，qwen-vl2-2B，minicpm，llama3.2-vision,deepseek-vl2

测试数据包括：

测试结果

总结

3.5 KiB

Raw Blame History