mirror of https://github.com/NVIDIA/TensorRT-LLM.git synced 2026-02-05 10:42:38 +08:00

[TRTLLM-10147][perf] Balanced random MoE workload generator for CuteDSL kernel UT, autotuner and layerwise benchmark (#10279 )

Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com>

2026-01-25 21:02:30 +08:00

446 B

Raw Blame History

Launch Scripts for CuTe DSL Kernels

MoE Workload Generator

# Generate workload using a balanced random method
# Per-rank token number 128, EP size 32 (a typical workload for large EP gen phase)
python moe_workload_generator.py --num_tokens 128 --ep_size 32 --tile_size 128
# Per-rank token number 8192, EP size 4 (a typical workload for ctx phase)
python moe_workload_generator.py --num_tokens 8192 --ep_size 4 --tile_size 256

446 B Raw Blame History

Launch Scripts for CuTe DSL Kernels

MoE Workload Generator

446 B

Raw Blame History