Files
zydi-web/test_history/report.md
T
2025-01-12 03:01:51 +00:00

3.5 KiB
Raw Blame History

VLM模型测评总结

测试模型:qwen-vl2-7Bqwen-vl2-2Bminicpmllama3.2-vision,deepseek-vl2

其中,qwen-vl2-7Bqwen-vl2-2Bminicpm可直接输入视频,视频为10s短视频
llama3.2-vision,deepseek-vl2输入图片,将10s短视频截取为3-8张图片

测试数据包括:

1. 室内右上角全景
2. 沙发正面
3. 右上角-吃饭
4. 左前方-吃饭
4. 左侧

测试结果

  1. 在处于近景时(左前方、正前方),qwen-vl2-7Bqwen-vl2-2Bminicpmllama3.2-vision,deepseek-vl2均能较好地识别出场景中的人数,并能较好地描述场景,包括吃饭、睡觉、喝水、玩手机等动作。对于人物的识别都差不多, 表情难以识别,穿着识别较准,性别和外貌一般。

    1. minicpm会推测是什么食物,只有llama3.2-vision和minicpm识别出食物是玉米,但概率比较小,不是每次都能识别出来。
    2. qwen-2B效果最差,无法识别出场景中的人数,也无法识别出场景中的人物
    3. llama3.2-vision对场景描述很详细,只有llama3.2-vision识别到了电视
  2. 在处于远景时(右上角),动作是吃饭,只有llama3.2-vision识别出吃东西和喝水的动作,但对人数识别不准确,其他模型都认为在工作

  3. 在处于远景时(右上角),人物在室内活动,此时的行为包括

    1. 搬纸箱/整理东西:只有qwen-7B准确识别行为和人数,以及人物外貌
    2. 站立喝水:"qwen-7B"和llama3.2-vision识别出喝水的动作,其余模型会把水杯识别成手机,"qwen-7B"对人数和外貌识别最准,llama3.2-vision对人数及外貌的识别很离谱,
    3. 坐着使用手机:"deepseek-vl2"有时不能,llama3.2-vision对人数及外貌的识别最差
    4. 坐着看书:在第一个视频"minicpm"、"qwen-vl2-7B"、llama3.2-vision能肯定是一个人坐着看书。在另一个视频deepseek认为在逗猫,qwen-vl2-7B认为在弹吉他,llama3.2-vision对人数及外貌的识别最离谱
    5. 蹲着看书:都认为是坐着看书,只有minicpm识别到"蹲"这个动作,
    6. 行走、站在窗前:"qwen-7B"和"deepseek-vl2"对人数和行为以及行动轨迹的识别最准,其他模型能识别到在行走和行动轨迹,但在人数判断上存在问题
    7. 移动电视:qwen-vl2-7B准确识别这一行为,其他模型只能识别出弯腰检查东西

    针对远景来看,qwen-7B对行为的识别最准,但对于人数的判断最差,minicpm对人数及外貌的判断相对最准确

  4. 近景左侧时,行为包括

    1. 看书:都可以识别到
    2. 使用手机:都可以,llama3.2-vision对人数及外貌的识别还是不行
    3. 使用电脑:都可以识别到
    4. 喝水:"qwen-7B"、minicpm、deepseek-vl2、llama3.2-vision都可以识别到喝水
    5. 在白板上写字:只有minicpm识别到
    6. 行走:都能识别,但llama3.2-vision对人数及外貌识别差距很大
    7. 先使用手机,然后拿起书并开始阅读:都可以识别到这个动作

总结

1. 在近景时,几个模型对动作、人物表情、人物外貌的识别都较准确,只有llama3.2-vision对人数以及人物识别最差
2. 在远景时,qwen-7B对行为的识别相对较准,minicpm对人数及外貌的判断相对最准确。
3. 无论是近景还是远景,llama3.2-vision对人数以及人物识别都较差,会出现很多人物,对人物的描述也千奇百怪,但对行为识别还可以
4. qwen-2B表现最差
5. deepseek-vl2一般