[None][test] restrict max_num_tokens in disagg mtp config (#10442)

Signed-off-by: Ruodi Lu <ruodil@users.noreply.github.com> Co-authored-by: Ruodi Lu <ruodil@users.noreply.github.com>
2026-01-13 22:18:36 +08:00 · 2026-01-09 10:53:24 +08:00 · 2026-01-09 10:53:24 +08:00 · d707286ca8
commit d707286ca8
parent afa55c12b6
17 changed files with 30 additions and 17 deletions
--- a/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx1_pp4_gen6_tep8_bs1_eplb0_mtp3-Default.yaml
+++ b/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx1_pp4_gen6_tep8_bs1_eplb0_mtp3-Default.yaml
@ -49,7 +49,8 @@ worker_config:
    enable_attention_dp: false
    pipeline_parallel_size: 4
    max_batch_size: 1
-    max_num_tokens: 128
+    # mtp_size=3 ⇒ max_num_tokens = 1 * (3 + 1) = 4
+    max_num_tokens: 4
    max_seq_len: 139296
    cuda_graph_config:
      enable_padding: true
--- a/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx1_pp8_gen1_dep16_bs1_eplb0_mtp3-Default.yaml
+++ b/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx1_pp8_gen1_dep16_bs1_eplb0_mtp3-Default.yaml
@ -49,7 +49,8 @@ worker_config:
    enable_attention_dp: true
    pipeline_parallel_size: 1
    max_batch_size: 1
-    max_num_tokens: 128
+    # mtp_size=3 ⇒ max_num_tokens = 1 * (3 + 1) = 4
+    max_num_tokens: 4
    max_seq_len: 139296
    cuda_graph_config:
      enable_padding: true
--- a/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx1_pp8_gen1_dep8_bs4_eplb0_mtp2-Default.yaml
+++ b/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx1_pp8_gen1_dep8_bs4_eplb0_mtp2-Default.yaml
@ -49,7 +49,8 @@ worker_config:
    enable_attention_dp: true
    pipeline_parallel_size: 1
    max_batch_size: 4
-    max_num_tokens: 128
+    # mtp_size=2 ⇒ max_num_tokens = 4 * (2 + 1) = 12
+    max_num_tokens: 12
    max_seq_len: 139296
    cuda_graph_config:
      enable_padding: true
--- a/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx1_pp8_gen1_tep8_bs1_eplb0_mtp3-Default.yaml
+++ b/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx1_pp8_gen1_tep8_bs1_eplb0_mtp3-Default.yaml
@ -49,7 +49,8 @@ worker_config:
    enable_attention_dp: false
    pipeline_parallel_size: 1
    max_batch_size: 1
-    max_num_tokens: 128
+    # mtp_size=3 ⇒ max_num_tokens = 1 * (3 + 1) = 4
+    max_num_tokens: 4
    max_seq_len: 139296
    cuda_graph_config:
      enable_padding: true
--- a/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx1_pp8_gen1_tep8_bs2_eplb0_mtp3-Default.yaml
+++ b/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx1_pp8_gen1_tep8_bs2_eplb0_mtp3-Default.yaml
@ -49,7 +49,8 @@ worker_config:
    enable_attention_dp: false
    pipeline_parallel_size: 1
    max_batch_size: 2
-    max_num_tokens: 128
+    # mtp_size=3 ⇒ max_num_tokens = 2 * (3 + 1) = 8
+    max_num_tokens: 8
    max_seq_len: 139296
    cuda_graph_config:
      enable_padding: true
--- a/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx1_pp8_gen5_tep8_bs2_eplb0_mtp3-Default.yaml
+++ b/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx1_pp8_gen5_tep8_bs2_eplb0_mtp3-Default.yaml
@ -49,7 +49,7 @@ worker_config:
    enable_attention_dp: false
    pipeline_parallel_size: 1
    max_batch_size: 2
-    max_num_tokens: 128
+    max_num_tokens: 8
    max_seq_len: 139296
    cuda_graph_config:
      enable_padding: true
--- a/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx1_pp8_gen7_tep4_bs2_eplb0_mtp2-Default.yaml
+++ b/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx1_pp8_gen7_tep4_bs2_eplb0_mtp2-Default.yaml
@ -49,7 +49,7 @@ worker_config:
    enable_attention_dp: false
    pipeline_parallel_size: 1
    max_batch_size: 2
-    max_num_tokens: 128
+    max_num_tokens: 6
    max_seq_len: 139296
    cuda_graph_config:
      enable_padding: true
--- a/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx2_pp4_gen7_tep8_bs2_eplb0_mtp3-Default.yaml
+++ b/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx2_pp4_gen7_tep8_bs2_eplb0_mtp3-Default.yaml
@ -49,7 +49,7 @@ worker_config:
    enable_attention_dp: false
    pipeline_parallel_size: 1
    max_batch_size: 2
-    max_num_tokens: 128
+    max_num_tokens: 8
    max_seq_len: 139296
    cuda_graph_config:
      enable_padding: true
--- a/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx3_pp4_gen1_dep8_bs16_eplb0_mtp1-Default.yaml
+++ b/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx3_pp4_gen1_dep8_bs16_eplb0_mtp1-Default.yaml
@ -49,7 +49,7 @@ worker_config:
    enable_attention_dp: true
    pipeline_parallel_size: 1
    max_batch_size: 16
-    max_num_tokens: 128
+    max_num_tokens: 32
    max_seq_len: 139296
    cuda_graph_config:
      enable_padding: true
--- a/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx3_pp8_gen1_dep16_bs8_eplb0_mtp2-Default.yaml
+++ b/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx3_pp8_gen1_dep16_bs8_eplb0_mtp2-Default.yaml
@ -49,7 +49,8 @@ worker_config:
    enable_attention_dp: true
    pipeline_parallel_size: 1
    max_batch_size: 8
-    max_num_tokens: 128
+    # mtp_size=2 ⇒ max_num_tokens = 8 * (2 + 1) = 24
+    max_num_tokens: 24
    max_seq_len: 139296
    cuda_graph_config:
      enable_padding: true
--- a/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx3_pp8_gen1_dep32_bs2_eplb0_mtp3-Default.yaml
+++ b/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx3_pp8_gen1_dep32_bs2_eplb0_mtp3-Default.yaml
@ -49,7 +49,8 @@ worker_config:
    enable_attention_dp: true
    pipeline_parallel_size: 1
    max_batch_size: 2
-    max_num_tokens: 128
+    # mtp_size=3 ⇒ max_num_tokens = 2 * (3 + 1) = 8
+    max_num_tokens: 8
    max_seq_len: 139296
    cuda_graph_config:
      enable_padding: true
--- a/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx5_pp4_gen1_dep16_bs8_eplb0_mtp3-Default.yaml
+++ b/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx5_pp4_gen1_dep16_bs8_eplb0_mtp3-Default.yaml
@ -49,7 +49,8 @@ worker_config:
    enable_attention_dp: true
    pipeline_parallel_size: 1
    max_batch_size: 8
-    max_num_tokens: 128
+    # mtp_size=3 ⇒ max_num_tokens = 8 * (3 + 1) = 32
+    max_num_tokens: 32
    max_seq_len: 139296
    cuda_graph_config:
      enable_padding: true
--- a/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx5_pp4_gen1_dep32_bs2_eplb0_mtp3-Default.yaml
+++ b/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx5_pp4_gen1_dep32_bs2_eplb0_mtp3-Default.yaml
@ -49,7 +49,8 @@ worker_config:
    enable_attention_dp: true
    pipeline_parallel_size: 1
    max_batch_size: 2
-    max_num_tokens: 128
+    # mtp_size=3 ⇒ max_num_tokens = 2 * (3 + 1) = 8
+    max_num_tokens: 8
    max_seq_len: 139296
    cuda_graph_config:
      enable_padding: true
--- a/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx7_pp4_gen1_dep16_bs16_eplb0_mtp1-Default.yaml
+++ b/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx7_pp4_gen1_dep16_bs16_eplb0_mtp1-Default.yaml
@ -49,7 +49,8 @@ worker_config:
    enable_attention_dp: true
    pipeline_parallel_size: 1
    max_batch_size: 16
-    max_num_tokens: 128
+    # mtp_size=1 ⇒ max_num_tokens = 16 * (1 + 1) = 32
+    max_num_tokens: 32
    max_seq_len: 139296
    cuda_graph_config:
      enable_padding: true
--- a/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx8_pp4_gen1_dep16_bs32_eplb0_mtp1-Default.yaml
+++ b/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx8_pp4_gen1_dep16_bs32_eplb0_mtp1-Default.yaml
@ -49,7 +49,8 @@ worker_config:
    enable_attention_dp: true
    pipeline_parallel_size: 1
    max_batch_size: 32
-    max_num_tokens: 128
+    # mtp_size=1 ⇒ max_num_tokens = 32 * (1 + 1) = 64
+    max_num_tokens: 64
    max_seq_len: 139296
    cuda_graph_config:
      enable_padding: true
--- a/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx8_pp4_gen1_dep32_bs4_eplb0_mtp3-Default.yaml
+++ b/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx8_pp4_gen1_dep32_bs4_eplb0_mtp3-Default.yaml
@ -49,7 +49,8 @@ worker_config:
    enable_attention_dp: true
    pipeline_parallel_size: 1
    max_batch_size: 4
-    max_num_tokens: 128
+    # mtp_size=3 ⇒ max_num_tokens = 4 * (3 + 1) = 16
+    max_num_tokens: 16
    max_seq_len: 139296
    cuda_graph_config:
      enable_padding: true
--- a/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx8_pp4_gen1_dep32_bs8_eplb0_mtp3-Default.yaml
+++ b/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx8_pp4_gen1_dep32_bs8_eplb0_mtp3-Default.yaml
@ -49,7 +49,8 @@ worker_config:
    enable_attention_dp: true
    pipeline_parallel_size: 1
    max_batch_size: 8
-    max_num_tokens: 128
+    # mtp_size=3 ⇒ max_num_tokens = 8 * (3 + 1) = 32
+    max_num_tokens: 32
    max_seq_len: 139296
    cuda_graph_config:
      enable_padding: true