TensorRT-LLMs/agg_unit_mem_df.csv at d2b5954aea76a798d8677caea6e2a81da1d9cb49

mirror of https://github.com/NVIDIA/TensorRT-LLM.git synced 2026-02-06 03:01:50 +08:00

[TRTLLM-7738][feat] Adding implementation of KVCacheManagerV2 (#10736 )

Signed-off-by: Yao Yao <lowsfer@users.noreply.github.com>

KVCacheManagerV2 is a new python-based implementation of the KV cache manager, featuring cleaner API, better abstraction and better code quality without the accumulated legacy.

2026-01-24 04:48:39 -05:00

8.0 KiB

Raw Blame History

1	unittest_case_name	gpu	parallel_factor	comment
2	unittest/trt/quantization	NVIDIA A10	18
3	unittest/trt/model/test_gptj.py	NVIDIA A10	5
4	unittest/trt/functional	NVIDIA A10	6
5	unittest/trt/model/test_gptneox.py	NVIDIA A10	2
6	unittest/trt/attention/test_bert_attention.py	NVIDIA A10	17
7	unittest/trt/model/test_falcon.py	NVIDIA A10	16
8	unittest/trt/model/test_gpt.py -k "partition2"	NVIDIA A10	11
9	unittest/trt/model/test_gpt.py -k "partition3"	NVIDIA A10	11
10	unittest/trt/model/test_gpt.py -k "other"	NVIDIA A10	13
11	unittest/trt/attention/test_gpt_attention_IFB.py	NVIDIA A10	17
12	unittest/trt/attention/test_gpt_attention_no_cache.py	NVIDIA A10	23
13	unittest/trt/model/test_mamba.py	NVIDIA A10	12
14	unittest/trt/model/test_llama.py	NVIDIA A10	3
15	unittest/kv_cache_manager_v2_tests/	NVIDIA A10	8
16	unittest/trt/attention/test_gpt_attention.py -k "partition0"	NVIDIA A10	14
17	unittest/trt/attention/test_gpt_attention.py -k "partition1"	NVIDIA A10	10
18	unittest/trt/attention/test_gpt_attention.py -k "partition2"	NVIDIA A10	3
19	unittest/trt/attention/test_gpt_attention.py -k "partition3"	NVIDIA A10	3
20	unittest/trt/attention/test_gpt_attention.py -k "xqa_generic"	NVIDIA A10	2
21	unittest/trt/model/test_gpt.py -k "partition0"	NVIDIA A30	13
22	unittest/trt/model/test_gpt.py -k "partition1"	NVIDIA A30	13
23	unittest/trt/model/test_gpt.py -k "partition2"	NVIDIA A30	4
24	unittest/trt/model/test_gpt.py -k "partition3"	NVIDIA A30	4
25	unittest/attention/test_sage_attention.py unittest/llmapi/test_llm_download.py unittest/llmapi/test_llm_kv_cache_events.py unittest/llmapi/test_mpi_session.py unittest/trt/model/redrafter unittest/trt/model/test_phi.py unittest/trt/model/test_unet.py unittest/python_plugin unittest/tools unittest/utils unittest/others	NVIDIA A30	1
26	unittest/llmapi/test_llm_models.py -m "part0"	NVIDIA A30	1
27	unittest/llmapi/test_llm_models.py -m "part1"	NVIDIA A30	1
28	unittest/llmapi/test_llm_models.py -m "not (part0 or part1)"	NVIDIA A30	1
29	unittest/attention/test_sage_attention.py unittest/llmapi/test_llm_download.py unittest/llmapi/test_llm_kv_cache_events.py unittest/llmapi/test_mpi_session.py unittest/trt/model/redrafter unittest/trt/model/test_phi.py unittest/trt/model/test_unet.py unittest/python_plugin unittest/tools unittest/utils unittest/others	NVIDIA A100X	4
30	llmapi-tp-2gpu	NVIDIA H100 80GB HBM3	1
31	unittest/llmapi/test_llm_models_multi_gpu.py	NVIDIA H100 80GB HBM3	1
32	unittest/trt/model/test_gptneox.py	NVIDIA H100 80GB HBM3	7
33	unittest/trt/attention/test_bert_attention.py	NVIDIA H100 80GB HBM3	11
34	unittest/trt/model_api/test_model_quantization.py	NVIDIA H100 80GB HBM3	3
35	model-bert	NVIDIA H100 80GB HBM3	11
36	unittest/trt/model/test_gpt_e2e.py	NVIDIA H100 80GB HBM3	12
37	unittest/bindings	NVIDIA H100 80GB HBM3	1
38	unittest/llmapi/test_llm_quant.py	NVIDIA H100 80GB HBM3	1
39	unittest/trt/attention/test_gpt_attention.py -k "xqa_generic"	NVIDIA H100 80GB HBM3	6
40	unittest/trt/functional/test_moe.py	NVIDIA H100 80GB HBM3	10
41	unittest/trt/quantization/test_weight_only_quant_matmul.py	NVIDIA H100 80GB HBM3	13
42	unittest/trt/quantization/test_weight_only_groupwise_quant_matmul.py	NVIDIA H100 80GB HBM3	13
43	unittest/trt/attention/test_gpt_attention_IFB.py	NVIDIA H100 80GB HBM3	11
44	unittest/trt/attention/test_gpt_attention_no_cache.py	NVIDIA H100 80GB HBM3	13
45	unittest/trt/model/test_mamba.py	NVIDIA H100 80GB HBM3	10
46	unittest/kv_cache_manager_v2_tests/	NVIDIA H100 80GB HBM3	8
47	unittest/trt/attention/test_gpt_attention.py -k "partition0"	NVIDIA L40S	14
48	unittest/trt/attention/test_gpt_attention.py -k "partition1"	NVIDIA L40S	10
49	unittest/trt/attention/test_gpt_attention.py -k "partition2"	NVIDIA L40S	6
50	unittest/trt/attention/test_gpt_attention.py -k "partition3"	NVIDIA L40S	6
51	unittest/trt/attention/test_gpt_attention.py -k "xqa_generic"	NVIDIA L40S	3
52	unittest/trt/functional	NVIDIA L40S	32
53	llmapi-tp-2gpu	NVIDIA H100 PCIe	1
54	unittest/llmapi/test_llm_models_multi_gpu.py	NVIDIA H100 PCIe	1
55	unittest/trt/model/test_gptneox.py	NVIDIA H100 PCIe	7
56	unittest/trt/attention/test_bert_attention.py	NVIDIA H100 PCIe	11
57	unittest/trt/model_api/test_model_quantization.py	NVIDIA H100 PCIe	3
58	model-bert	NVIDIA H100 PCIe	11
59	unittest/trt/model/test_gpt_e2e.py	NVIDIA H100 PCIe	12
60	unittest/bindings	NVIDIA H100 PCIe	1
61	unittest/llmapi/test_llm_quant.py	NVIDIA H100 PCIe	1
62	unittest/trt/attention/test_gpt_attention.py -k "xqa_generic"	NVIDIA H100 PCIe	6
63	unittest/trt/functional/test_moe.py	NVIDIA H100 PCIe	10
64	unittest/trt/quantization/test_weight_only_quant_matmul.py	NVIDIA H100 PCIe	13
65	unittest/trt/quantization/test_weight_only_groupwise_quant_matmul.py	NVIDIA H100 PCIe	13
66	unittest/trt/attention/test_gpt_attention_IFB.py	NVIDIA H100 PCIe	11
67	unittest/trt/attention/test_gpt_attention_no_cache.py	NVIDIA H100 PCIe	13
68	unittest/trt/model/test_mamba.py	NVIDIA H100 PCIe	10
69	unittest/kv_cache_manager_v2_tests/	NVIDIA H100 PCIe	8
70	llmapi-tp-2gpu	NVIDIA H100 NVL	1
71	unittest/llmapi/test_llm_models_multi_gpu.py	NVIDIA H100 NVL	1
72	unittest/trt/model/test_gptneox.py	NVIDIA H100 NVL	7
73	unittest/trt/attention/test_bert_attention.py	NVIDIA H100 NVL	11
74	unittest/trt/model_api/test_model_quantization.py	NVIDIA H100 NVL	3
75	model-bert	NVIDIA H100 NVL	11
76	unittest/trt/model/test_gpt_e2e.py	NVIDIA H100 NVL	12
77	unittest/bindings	NVIDIA H100 NVL	1
78	unittest/llmapi/test_llm_quant.py	NVIDIA H100 NVL	1
79	unittest/trt/attention/test_gpt_attention.py -k "xqa_generic"	NVIDIA H100 NVL	6
80	unittest/trt/functional/test_moe.py	NVIDIA H100 NVL	10
81	unittest/trt/quantization/test_weight_only_quant_matmul.py	NVIDIA H100 NVL	13
82	unittest/trt/quantization/test_weight_only_groupwise_quant_matmul.py	NVIDIA H100 NVL	13
83	unittest/trt/attention/test_gpt_attention_IFB.py	NVIDIA H100 NVL	11
84	unittest/trt/attention/test_gpt_attention_no_cache.py	NVIDIA H100 NVL	13
85	unittest/trt/model/test_mamba.py	NVIDIA H100 NVL	10
86	unittest/kv_cache_manager_v2_tests/	NVIDIA H100 NVL	8
87	llmapi-tp-2gpu	NVIDIA H100	1
88	unittest/llmapi/test_llm_models_multi_gpu.py	NVIDIA H100	1
89	unittest/trt/model/test_gptneox.py	NVIDIA H100	7
90	unittest/trt/attention/test_bert_attention.py	NVIDIA H100	11
91	unittest/trt/model_api/test_model_quantization.py	NVIDIA H100	3
92	model-bert	NVIDIA H100	11
93	unittest/trt/model/test_gpt_e2e.py	NVIDIA H100	12
94	unittest/bindings	NVIDIA H100	1
95	unittest/llmapi/test_llm_quant.py	NVIDIA H100	1
96	unittest/trt/attention/test_gpt_attention.py -k "xqa_generic"	NVIDIA H100	6
97	unittest/trt/functional/test_moe.py	NVIDIA H100	10
98	unittest/trt/quantization/test_weight_only_quant_matmul.py	NVIDIA H100	13
99	unittest/trt/quantization/test_weight_only_groupwise_quant_matmul.py	NVIDIA H100	13
100	unittest/trt/attention/test_gpt_attention_IFB.py	NVIDIA H100	11
101	unittest/trt/attention/test_gpt_attention_no_cache.py	NVIDIA H100	13
102	unittest/trt/model/test_mamba.py	NVIDIA H100	10
103	unittest/kv_cache_manager_v2_tests/	NVIDIA H100	8
104	unittest/trt/attention/test_gpt_attention.py -k "partition0"	NVIDIA L40	14
105	unittest/trt/attention/test_gpt_attention.py -k "partition1"	NVIDIA L40	10
106	unittest/trt/attention/test_gpt_attention.py -k "partition2"	NVIDIA L40	6
107	unittest/trt/attention/test_gpt_attention.py -k "partition3"	NVIDIA L40	6
108	unittest/trt/attention/test_gpt_attention.py -k "xqa_generic"	NVIDIA L40	3
109	unittest/_torch/attention	NVIDIA Graphics Device	4	B200 Bring Up Board
110	unittest/_torch/misc	NVIDIA Graphics Device	4	B200 Bring Up Board
111	unittest/_torch/speculative	NVIDIA Graphics Device	4	B200 Bring Up Board
112	unittest/_torch/thop/parallel	NVIDIA Graphics Device	16	B200 Bring Up Board
113	unittest/_torch/auto_deploy/unit/singlegpu -k "not test_trtllm_bench_backend_comparison"	NVIDIA Graphics Device	4	B200 Bring Up Board
114	unittest/_torch/attention	NVIDIA B200	4
115	unittest/_torch/misc	NVIDIA B200	4
116	unittest/_torch/speculative	NVIDIA B200	4
117	unittest/_torch/thop/parallel	NVIDIA B200	16
118	unittest/_torch/auto_deploy/unit/singlegpu -k "not test_trtllm_bench_backend_comparison"	NVIDIA B200	4
119	unittest/kv_cache_manager_v2_tests/	NVIDIA B200	8
120	unittest/_torch/attention	NVIDIA H100	4
121	unittest/_torch/misc	NVIDIA H100	4
122	unittest/_torch/thop/parallel	NVIDIA H100	16

8.0 KiB Raw Blame History

8.0 KiB

Raw Blame History