[None][test] modify ctx config in 128k8k disagg cases (#10779)

Signed-off-by: Ruodi Lu <ruodil@users.noreply.github.com> Co-authored-by: Ruodi Lu <ruodil@users.noreply.github.com> Signed-off-by: Wangshanshan <30051912+dominicshanshan@users.noreply.github.com>
2026-02-05 02:31:33 +08:00 · 2026-01-19 14:10:19 +08:00 · 2026-01-19 14:10:19 +08:00 · 4df0ca8bd1
commit 4df0ca8bd1
parent af49fbdf65
35 changed files with 60 additions and 59 deletions
--- a/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx1_pp4_gen13_tep4_bs1_eplb0_mtp0-Default.yaml
+++ b/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx1_pp4_gen13_tep4_bs1_eplb0_mtp0-Default.yaml
@ -83,7 +83,7 @@ worker_config:
    max_seq_len: 131104
    tensor_parallel_size: 1
    moe_expert_parallel_size: 1
-    enable_attention_dp: true
+    enable_attention_dp: false
    pipeline_parallel_size: 4
    print_iter_log: true
    cuda_graph_config: null
--- a/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx1_pp4_gen5_tep4_bs4_eplb0_mtp0-Default.yaml
+++ b/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx1_pp4_gen5_tep4_bs4_eplb0_mtp0-Default.yaml
@ -78,12 +78,12 @@ worker_config:
    num_postprocess_workers: 4
    allreduce_strategy: MNNVL
  ctx:
-    max_batch_size: 4
+    max_batch_size: 1
    max_num_tokens: 131104
    max_seq_len: 131104
    tensor_parallel_size: 1
    moe_expert_parallel_size: 1
-    enable_attention_dp: true
+    enable_attention_dp: false
    pipeline_parallel_size: 4
    print_iter_log: true
    cuda_graph_config: null
--- a/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx1_pp4_gen6_tep8_bs1_eplb0_mtp3-Default.yaml
+++ b/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx1_pp4_gen6_tep8_bs1_eplb0_mtp3-Default.yaml
@ -87,7 +87,7 @@ worker_config:
    max_seq_len: 131104
    tensor_parallel_size: 1
    moe_expert_parallel_size: 1
-    enable_attention_dp: true
+    enable_attention_dp: false
    pipeline_parallel_size: 4
    print_iter_log: true
    cuda_graph_config: null
--- a/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx1_pp4_gen7_tep8_bs1_eplb0_mtp0-Default.yaml
+++ b/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx1_pp4_gen7_tep8_bs1_eplb0_mtp0-Default.yaml
@ -83,7 +83,7 @@ worker_config:
    max_seq_len: 131104
    tensor_parallel_size: 1
    moe_expert_parallel_size: 1
-    enable_attention_dp: true
+    enable_attention_dp: false
    pipeline_parallel_size: 4
    print_iter_log: true
    cuda_graph_config: null
--- a/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx1_pp4_gen8_tep4_bs2_eplb0_mtp0-Default.yaml
+++ b/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx1_pp4_gen8_tep4_bs2_eplb0_mtp0-Default.yaml
@ -78,12 +78,12 @@ worker_config:
    num_postprocess_workers: 4
    allreduce_strategy: MNNVL
  ctx:
-    max_batch_size: 2
+    max_batch_size: 1
    max_num_tokens: 131104
    max_seq_len: 131104
    tensor_parallel_size: 1
    moe_expert_parallel_size: 1
-    enable_attention_dp: true
+    enable_attention_dp: false
    pipeline_parallel_size: 4
    print_iter_log: true
    cuda_graph_config: null
--- a/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx1_pp4_gen8_tep8_bs1_eplb0_mtp0-Default.yaml
+++ b/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx1_pp4_gen8_tep8_bs1_eplb0_mtp0-Default.yaml
@ -83,7 +83,7 @@ worker_config:
    max_seq_len: 131104
    tensor_parallel_size: 1
    moe_expert_parallel_size: 1
-    enable_attention_dp: true
+    enable_attention_dp: false
    pipeline_parallel_size: 4
    print_iter_log: true
    cuda_graph_config: null
--- a/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx1_pp8_gen11_tep4_bs2_eplb0_mtp0-Default.yaml
+++ b/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx1_pp8_gen11_tep4_bs2_eplb0_mtp0-Default.yaml
@ -78,12 +78,12 @@ worker_config:
    num_postprocess_workers: 4
    allreduce_strategy: MNNVL
  ctx:
-    max_batch_size: 2
+    max_batch_size: 1
    max_num_tokens: 131104
    max_seq_len: 131104
    tensor_parallel_size: 1
    moe_expert_parallel_size: 1
-    enable_attention_dp: true
+    enable_attention_dp: false
    pipeline_parallel_size: 8
    print_iter_log: true
    cuda_graph_config: null
--- a/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx1_pp8_gen14_tep4_bs1_eplb0_mtp0-Default.yaml
+++ b/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx1_pp8_gen14_tep4_bs1_eplb0_mtp0-Default.yaml
@ -83,7 +83,7 @@ worker_config:
    max_seq_len: 131104
    tensor_parallel_size: 1
    moe_expert_parallel_size: 1
-    enable_attention_dp: true
+    enable_attention_dp: false
    pipeline_parallel_size: 8
    print_iter_log: true
    cuda_graph_config: null
--- a/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx1_pp8_gen1_dep16_bs1_eplb0_mtp3-Default.yaml
+++ b/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx1_pp8_gen1_dep16_bs1_eplb0_mtp3-Default.yaml
@ -86,7 +86,7 @@ worker_config:
    max_seq_len: 131104
    tensor_parallel_size: 1
    moe_expert_parallel_size: 1
-    enable_attention_dp: true
+    enable_attention_dp: false
    pipeline_parallel_size: 8
    print_iter_log: true
    cuda_graph_config: null
--- a/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx1_pp8_gen1_dep8_bs4_eplb0_mtp2-Default.yaml
+++ b/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx1_pp8_gen1_dep8_bs4_eplb0_mtp2-Default.yaml
@ -81,12 +81,12 @@ worker_config:
      decoding_type: MTP
      num_nextn_predict_layers: 2
  ctx:
-    max_batch_size: 4
+    max_batch_size: 1
    max_num_tokens: 131104
    max_seq_len: 131104
    tensor_parallel_size: 1
    moe_expert_parallel_size: 1
-    enable_attention_dp: true
+    enable_attention_dp: false
    pipeline_parallel_size: 8
    print_iter_log: true
    cuda_graph_config: null
--- a/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx1_pp8_gen1_tep8_bs1_eplb0_mtp0-Default.yaml
+++ b/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx1_pp8_gen1_tep8_bs1_eplb0_mtp0-Default.yaml
@ -83,7 +83,7 @@ worker_config:
    max_seq_len: 131104
    tensor_parallel_size: 1
    moe_expert_parallel_size: 1
-    enable_attention_dp: true
+    enable_attention_dp: false
    pipeline_parallel_size: 8
    print_iter_log: true
    cuda_graph_config: null
--- a/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx1_pp8_gen1_tep8_bs1_eplb0_mtp3-Default.yaml
+++ b/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx1_pp8_gen1_tep8_bs1_eplb0_mtp3-Default.yaml
@ -87,7 +87,7 @@ worker_config:
    max_seq_len: 131104
    tensor_parallel_size: 1
    moe_expert_parallel_size: 1
-    enable_attention_dp: true
+    enable_attention_dp: false
    pipeline_parallel_size: 8
    print_iter_log: true
    cuda_graph_config: null
--- a/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx1_pp8_gen1_tep8_bs2_eplb0_mtp3-Default.yaml
+++ b/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx1_pp8_gen1_tep8_bs2_eplb0_mtp3-Default.yaml
@ -82,12 +82,12 @@ worker_config:
      decoding_type: MTP
      num_nextn_predict_layers: 3
  ctx:
-    max_batch_size: 2
+    max_batch_size: 1
    max_num_tokens: 131104
    max_seq_len: 131104
    tensor_parallel_size: 1
    moe_expert_parallel_size: 1
-    enable_attention_dp: true
+    enable_attention_dp: false
    pipeline_parallel_size: 8
    print_iter_log: true
    cuda_graph_config: null
--- a/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx1_pp8_gen5_tep8_bs2_eplb0_mtp3-Default.yaml
+++ b/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx1_pp8_gen5_tep8_bs2_eplb0_mtp3-Default.yaml
@ -81,12 +81,12 @@ worker_config:
      decoding_type: MTP
      num_nextn_predict_layers: 3
  ctx:
-    max_batch_size: 2
+    max_batch_size: 1
    max_num_tokens: 131104
    max_seq_len: 131104
    tensor_parallel_size: 1
    moe_expert_parallel_size: 1
-    enable_attention_dp: true
+    enable_attention_dp: false
    pipeline_parallel_size: 8
    print_iter_log: true
    cuda_graph_config: null
--- a/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx1_pp8_gen7_tep4_bs2_eplb0_mtp2-Default.yaml
+++ b/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx1_pp8_gen7_tep4_bs2_eplb0_mtp2-Default.yaml
@ -81,12 +81,12 @@ worker_config:
      decoding_type: MTP
      num_nextn_predict_layers: 2
  ctx:
-    max_batch_size: 2
+    max_batch_size: 1
    max_num_tokens: 131104
    max_seq_len: 131104
    tensor_parallel_size: 1
    moe_expert_parallel_size: 1
-    enable_attention_dp: true
+    enable_attention_dp: false
    pipeline_parallel_size: 8
    print_iter_log: true
    cuda_graph_config: null
--- a/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx1_pp8_gen7_tep8_bs1_eplb0_mtp0-Default.yaml
+++ b/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx1_pp8_gen7_tep8_bs1_eplb0_mtp0-Default.yaml
@ -83,7 +83,7 @@ worker_config:
    max_seq_len: 131104
    tensor_parallel_size: 1
    moe_expert_parallel_size: 1
-    enable_attention_dp: true
+    enable_attention_dp: false
    pipeline_parallel_size: 8
    print_iter_log: true
    cuda_graph_config: null
--- a/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx1_pp8_gen8_tep4_bs4_eplb0_mtp0-Default.yaml
+++ b/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx1_pp8_gen8_tep4_bs4_eplb0_mtp0-Default.yaml
@ -78,12 +78,12 @@ worker_config:
    num_postprocess_workers: 4
    allreduce_strategy: MNNVL
  ctx:
-    max_batch_size: 4
+    max_batch_size: 1
    max_num_tokens: 131104
    max_seq_len: 131104
    tensor_parallel_size: 1
    moe_expert_parallel_size: 1
-    enable_attention_dp: true
+    enable_attention_dp: false
    pipeline_parallel_size: 8
    print_iter_log: true
    cuda_graph_config: null
--- a/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx2_pp4_gen7_tep8_bs2_eplb0_mtp3-Default.yaml
+++ b/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx2_pp4_gen7_tep8_bs2_eplb0_mtp3-Default.yaml
@ -81,12 +81,12 @@ worker_config:
      num_nextn_predict_layers: 3
    allreduce_strategy: MNNVL
  ctx:
-    max_batch_size: 2
+    max_batch_size: 1
    max_num_tokens: 131104
    max_seq_len: 131104
    tensor_parallel_size: 1
    moe_expert_parallel_size: 1
-    enable_attention_dp: true
+    enable_attention_dp: false
    pipeline_parallel_size: 4
    print_iter_log: true
    cuda_graph_config: null
--- a/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx2_pp8_gen1_dep32_bs2_eplb0_mtp0-Default.yaml
+++ b/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx2_pp8_gen1_dep32_bs2_eplb0_mtp0-Default.yaml
@ -77,12 +77,12 @@ worker_config:
    stream_interval: 20
    num_postprocess_workers: 4
  ctx:
-    max_batch_size: 2
+    max_batch_size: 1
    max_num_tokens: 131104
    max_seq_len: 131104
    tensor_parallel_size: 1
    moe_expert_parallel_size: 1
-    enable_attention_dp: true
+    enable_attention_dp: false
    pipeline_parallel_size: 8
    print_iter_log: true
    cuda_graph_config: null
--- a/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx3_pp4_gen1_dep8_bs16_eplb0_mtp1-Default.yaml
+++ b/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx3_pp4_gen1_dep8_bs16_eplb0_mtp1-Default.yaml
@ -80,12 +80,12 @@ worker_config:
      decoding_type: MTP
      num_nextn_predict_layers: 1
  ctx:
-    max_batch_size: 16
+    max_batch_size: 1
    max_num_tokens: 131104
    max_seq_len: 131104
    tensor_parallel_size: 1
    moe_expert_parallel_size: 1
-    enable_attention_dp: true
+    enable_attention_dp: false
    pipeline_parallel_size: 4
    print_iter_log: true
    cuda_graph_config: null
--- a/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx3_pp8_gen1_dep16_bs16_eplb0_mtp0-Default.yaml
+++ b/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx3_pp8_gen1_dep16_bs16_eplb0_mtp0-Default.yaml
@ -77,12 +77,12 @@ worker_config:
    stream_interval: 20
    num_postprocess_workers: 4
  ctx:
-    max_batch_size: 16
+    max_batch_size: 1
    max_num_tokens: 131104
    max_seq_len: 131104
    tensor_parallel_size: 1
    moe_expert_parallel_size: 1
-    enable_attention_dp: true
+    enable_attention_dp: false
    pipeline_parallel_size: 8
    print_iter_log: true
    cuda_graph_config: null
--- a/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx3_pp8_gen1_dep16_bs8_eplb0_mtp2-Default.yaml
+++ b/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx3_pp8_gen1_dep16_bs8_eplb0_mtp2-Default.yaml
@ -81,12 +81,12 @@ worker_config:
      decoding_type: MTP
      num_nextn_predict_layers: 2
  ctx:
-    max_batch_size: 8
+    max_batch_size: 1
    max_num_tokens: 131104
    max_seq_len: 131104
    tensor_parallel_size: 1
    moe_expert_parallel_size: 1
-    enable_attention_dp: true
+    enable_attention_dp: false
    pipeline_parallel_size: 8
    print_iter_log: true
    cuda_graph_config: null
--- a/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx3_pp8_gen1_dep32_bs2_eplb0_mtp3-Default.yaml
+++ b/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx3_pp8_gen1_dep32_bs2_eplb0_mtp3-Default.yaml
@ -81,12 +81,12 @@ worker_config:
      decoding_type: MTP
      num_nextn_predict_layers: 3
  ctx:
-    max_batch_size: 2
+    max_batch_size: 1
    max_num_tokens: 131104
    max_seq_len: 131104
    tensor_parallel_size: 1
    moe_expert_parallel_size: 1
-    enable_attention_dp: true
+    enable_attention_dp: false
    pipeline_parallel_size: 8
    print_iter_log: true
    cuda_graph_config: null
--- a/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx3_pp8_gen1_dep32_bs4_eplb0_mtp0-Default.yaml
+++ b/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx3_pp8_gen1_dep32_bs4_eplb0_mtp0-Default.yaml
@ -77,12 +77,12 @@ worker_config:
    stream_interval: 20
    num_postprocess_workers: 4
  ctx:
-    max_batch_size: 4
+    max_batch_size: 1
    max_num_tokens: 131104
    max_seq_len: 131104
    tensor_parallel_size: 1
    moe_expert_parallel_size: 1
-    enable_attention_dp: true
+    enable_attention_dp: false
    pipeline_parallel_size: 8
    print_iter_log: true
    cuda_graph_config: null
--- a/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx5_pp4_gen1_dep16_bs16_eplb0_mtp0-Default.yaml
+++ b/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx5_pp4_gen1_dep16_bs16_eplb0_mtp0-Default.yaml
@ -77,12 +77,12 @@ worker_config:
    stream_interval: 20
    num_postprocess_workers: 4
  ctx:
-    max_batch_size: 16
+    max_batch_size: 1
    max_num_tokens: 131104
    max_seq_len: 131104
    tensor_parallel_size: 1
    moe_expert_parallel_size: 1
-    enable_attention_dp: true
+    enable_attention_dp: false
    pipeline_parallel_size: 4
    print_iter_log: true
    cuda_graph_config: null
--- a/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx5_pp4_gen1_dep16_bs8_eplb0_mtp3-Default.yaml
+++ b/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx5_pp4_gen1_dep16_bs8_eplb0_mtp3-Default.yaml
@ -81,12 +81,12 @@ worker_config:
      decoding_type: MTP
      num_nextn_predict_layers: 3
  ctx:
-    max_batch_size: 8
+    max_batch_size: 1
    max_num_tokens: 131104
    max_seq_len: 131104
    tensor_parallel_size: 1
    moe_expert_parallel_size: 1
-    enable_attention_dp: true
+    enable_attention_dp: false
    pipeline_parallel_size: 4
    print_iter_log: true
    cuda_graph_config: null
--- a/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx5_pp4_gen1_dep32_bs2_eplb0_mtp3-Default.yaml
+++ b/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx5_pp4_gen1_dep32_bs2_eplb0_mtp3-Default.yaml
@ -81,12 +81,12 @@ worker_config:
      decoding_type: MTP
      num_nextn_predict_layers: 3
  ctx:
-    max_batch_size: 2
+    max_batch_size: 1
    max_num_tokens: 131104
    max_seq_len: 131104
    tensor_parallel_size: 1
    moe_expert_parallel_size: 1
-    enable_attention_dp: true
+    enable_attention_dp: false
    pipeline_parallel_size: 4
    print_iter_log: true
    cuda_graph_config: null
--- a/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx5_pp4_gen1_dep32_bs4_eplb0_mtp0-Default.yaml
+++ b/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx5_pp4_gen1_dep32_bs4_eplb0_mtp0-Default.yaml
@ -77,12 +77,12 @@ worker_config:
    stream_interval: 20
    num_postprocess_workers: 4
  ctx:
-    max_batch_size: 4
+    max_batch_size: 1
    max_num_tokens: 131104
    max_seq_len: 131104
    tensor_parallel_size: 1
    moe_expert_parallel_size: 1
-    enable_attention_dp: true
+    enable_attention_dp: false
    pipeline_parallel_size: 4
    print_iter_log: true
    cuda_graph_config: null
--- a/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx7_pp4_gen1_dep16_bs16_eplb0_mtp1-Default.yaml
+++ b/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx7_pp4_gen1_dep16_bs16_eplb0_mtp1-Default.yaml
@ -81,12 +81,12 @@ worker_config:
      decoding_type: MTP
      num_nextn_predict_layers: 1
  ctx:
-    max_batch_size: 16
+    max_batch_size: 1
    max_num_tokens: 131104
    max_seq_len: 131104
    tensor_parallel_size: 1
    moe_expert_parallel_size: 1
-    enable_attention_dp: true
+    enable_attention_dp: false
    pipeline_parallel_size: 4
    print_iter_log: true
    cuda_graph_config: null
--- a/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx7_pp4_gen1_dep16_bs32_eplb0_mtp0-Default.yaml
+++ b/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx7_pp4_gen1_dep16_bs32_eplb0_mtp0-Default.yaml
@ -77,12 +77,12 @@ worker_config:
    stream_interval: 20
    num_postprocess_workers: 4
  ctx:
-    max_batch_size: 32
+    max_batch_size: 1
    max_num_tokens: 131104
    max_seq_len: 131104
    tensor_parallel_size: 1
    moe_expert_parallel_size: 1
-    enable_attention_dp: true
+    enable_attention_dp: false
    pipeline_parallel_size: 4
    print_iter_log: true
    cuda_graph_config: null
--- a/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx8_pp4_gen1_dep16_bs32_eplb0_mtp1-Default.yaml
+++ b/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx8_pp4_gen1_dep16_bs32_eplb0_mtp1-Default.yaml
@ -81,12 +81,12 @@ worker_config:
      decoding_type: MTP
      num_nextn_predict_layers: 1
  ctx:
-    max_batch_size: 32
+    max_batch_size: 1
    max_num_tokens: 131104
    max_seq_len: 131104
    tensor_parallel_size: 1
    moe_expert_parallel_size: 1
-    enable_attention_dp: true
+    enable_attention_dp: false
    pipeline_parallel_size: 4
    print_iter_log: true
    cuda_graph_config: null
--- a/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx8_pp4_gen1_dep32_bs4_eplb0_mtp3-Default.yaml
+++ b/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx8_pp4_gen1_dep32_bs4_eplb0_mtp3-Default.yaml
@ -81,12 +81,12 @@ worker_config:
      decoding_type: MTP
      num_nextn_predict_layers: 3
  ctx:
-    max_batch_size: 4
+    max_batch_size: 1
    max_num_tokens: 131104
    max_seq_len: 131104
    tensor_parallel_size: 1
    moe_expert_parallel_size: 1
-    enable_attention_dp: true
+    enable_attention_dp: false
    pipeline_parallel_size: 4
    print_iter_log: true
    cuda_graph_config: null
--- a/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx8_pp4_gen1_dep32_bs8_eplb0_mtp0-Default.yaml
+++ b/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx8_pp4_gen1_dep32_bs8_eplb0_mtp0-Default.yaml
@ -77,12 +77,12 @@ worker_config:
    stream_interval: 20
    num_postprocess_workers: 4
  ctx:
-    max_batch_size: 8
+    max_batch_size: 1
    max_num_tokens: 131104
    max_seq_len: 131104
    tensor_parallel_size: 1
    moe_expert_parallel_size: 1
-    enable_attention_dp: true
+    enable_attention_dp: false
    pipeline_parallel_size: 4
    print_iter_log: true
    cuda_graph_config: null
--- a/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx8_pp4_gen1_dep32_bs8_eplb0_mtp3-Default.yaml
+++ b/tests/integration/defs/perf/disagg/test_configs/disagg/perf/deepseek-r1-fp4_128k8k_ctx8_pp4_gen1_dep32_bs8_eplb0_mtp3-Default.yaml
@ -81,12 +81,12 @@ worker_config:
      decoding_type: MTP
      num_nextn_predict_layers: 3
  ctx:
-    max_batch_size: 8
+    max_batch_size: 1
    max_num_tokens: 131104
    max_seq_len: 131104
    tensor_parallel_size: 1
    moe_expert_parallel_size: 1
-    enable_attention_dp: true
+    enable_attention_dp: false
    pipeline_parallel_size: 4
    print_iter_log: true
    cuda_graph_config: null
--- a/tests/integration/defs/perf/test_perf.py
+++ b/tests/integration/defs/perf/test_perf.py
@ -238,6 +238,7 @@ TRUST_REMOTE_CODE_MODELS = {  # these models require explicit trust_remote_code=
    "llama_v3.3_nemotron_super_49b_fp8",
    "llama_v3.1_nemotron_ultra_253b",
    "llama_v3.1_nemotron_ultra_253b_fp8",
+    "kimi_k2_nvfp4",
 }

 # Autodeploy model configs - maps model name to config file path (relative to TRT-LLM root)