mirror of
https://github.com/vllm-project/vllm.git
synced 2026-06-06 00:16:14 +00:00
[Perf] Add tuned selective_state_update configs for H200 and RTX PRO … (#44251)
Signed-off-by: Majid Taheri Andani <tahemaji@amazon.com> Co-authored-by: Majid Taheri Andani <tahemaji@amazon.com> Co-authored-by: tomeras91 <57313761+tomeras91@users.noreply.github.com>
This commit is contained in:
+87
@@ -0,0 +1,87 @@
|
||||
{
|
||||
"triton_version": "3.6.0",
|
||||
"8": {
|
||||
"BLOCK_SIZE_M": 4,
|
||||
"num_warps": 2
|
||||
},
|
||||
"16": {
|
||||
"BLOCK_SIZE_M": 4,
|
||||
"num_warps": 1
|
||||
},
|
||||
"32": {
|
||||
"BLOCK_SIZE_M": 4,
|
||||
"num_warps": 1
|
||||
},
|
||||
"64": {
|
||||
"BLOCK_SIZE_M": 16,
|
||||
"num_warps": 4
|
||||
},
|
||||
"128": {
|
||||
"BLOCK_SIZE_M": 8,
|
||||
"num_warps": 2
|
||||
},
|
||||
"256": {
|
||||
"BLOCK_SIZE_M": 8,
|
||||
"num_warps": 2
|
||||
},
|
||||
"512": {
|
||||
"BLOCK_SIZE_M": 16,
|
||||
"num_warps": 1
|
||||
},
|
||||
"1024": {
|
||||
"BLOCK_SIZE_M": 16,
|
||||
"num_warps": 1
|
||||
},
|
||||
"2048": {
|
||||
"BLOCK_SIZE_M": 8,
|
||||
"num_warps": 2
|
||||
},
|
||||
"4096": {
|
||||
"BLOCK_SIZE_M": 16,
|
||||
"num_warps": 2
|
||||
},
|
||||
"8192": {
|
||||
"BLOCK_SIZE_M": 32,
|
||||
"num_warps": 2
|
||||
},
|
||||
"12288": {
|
||||
"BLOCK_SIZE_M": 32,
|
||||
"num_warps": 4
|
||||
},
|
||||
"16384": {
|
||||
"BLOCK_SIZE_M": 16,
|
||||
"num_warps": 2
|
||||
},
|
||||
"24576": {
|
||||
"BLOCK_SIZE_M": 32,
|
||||
"num_warps": 4
|
||||
},
|
||||
"32768": {
|
||||
"BLOCK_SIZE_M": 32,
|
||||
"num_warps": 2
|
||||
},
|
||||
"49152": {
|
||||
"BLOCK_SIZE_M": 16,
|
||||
"num_warps": 2
|
||||
},
|
||||
"65536": {
|
||||
"BLOCK_SIZE_M": 16,
|
||||
"num_warps": 2
|
||||
},
|
||||
"98304": {
|
||||
"BLOCK_SIZE_M": 16,
|
||||
"num_warps": 2
|
||||
},
|
||||
"131072": {
|
||||
"BLOCK_SIZE_M": 16,
|
||||
"num_warps": 2
|
||||
},
|
||||
"196608": {
|
||||
"BLOCK_SIZE_M": 16,
|
||||
"num_warps": 2
|
||||
},
|
||||
"262144": {
|
||||
"BLOCK_SIZE_M": 16,
|
||||
"num_warps": 2
|
||||
}
|
||||
}
|
||||
+87
@@ -0,0 +1,87 @@
|
||||
{
|
||||
"triton_version": "3.6.0",
|
||||
"8": {
|
||||
"BLOCK_SIZE_M": 8,
|
||||
"num_warps": 4
|
||||
},
|
||||
"16": {
|
||||
"BLOCK_SIZE_M": 4,
|
||||
"num_warps": 1
|
||||
},
|
||||
"32": {
|
||||
"BLOCK_SIZE_M": 4,
|
||||
"num_warps": 1
|
||||
},
|
||||
"64": {
|
||||
"BLOCK_SIZE_M": 4,
|
||||
"num_warps": 1
|
||||
},
|
||||
"128": {
|
||||
"BLOCK_SIZE_M": 4,
|
||||
"num_warps": 1
|
||||
},
|
||||
"256": {
|
||||
"BLOCK_SIZE_M": 4,
|
||||
"num_warps": 1
|
||||
},
|
||||
"512": {
|
||||
"BLOCK_SIZE_M": 4,
|
||||
"num_warps": 1
|
||||
},
|
||||
"1024": {
|
||||
"BLOCK_SIZE_M": 4,
|
||||
"num_warps": 1
|
||||
},
|
||||
"2048": {
|
||||
"BLOCK_SIZE_M": 4,
|
||||
"num_warps": 1
|
||||
},
|
||||
"4096": {
|
||||
"BLOCK_SIZE_M": 4,
|
||||
"num_warps": 1
|
||||
},
|
||||
"8192": {
|
||||
"BLOCK_SIZE_M": 4,
|
||||
"num_warps": 1
|
||||
},
|
||||
"12288": {
|
||||
"BLOCK_SIZE_M": 8,
|
||||
"num_warps": 1
|
||||
},
|
||||
"16384": {
|
||||
"BLOCK_SIZE_M": 8,
|
||||
"num_warps": 1
|
||||
},
|
||||
"24576": {
|
||||
"BLOCK_SIZE_M": 8,
|
||||
"num_warps": 1
|
||||
},
|
||||
"32768": {
|
||||
"BLOCK_SIZE_M": 4,
|
||||
"num_warps": 1
|
||||
},
|
||||
"49152": {
|
||||
"BLOCK_SIZE_M": 4,
|
||||
"num_warps": 1
|
||||
},
|
||||
"65536": {
|
||||
"BLOCK_SIZE_M": 8,
|
||||
"num_warps": 2
|
||||
},
|
||||
"98304": {
|
||||
"BLOCK_SIZE_M": 4,
|
||||
"num_warps": 1
|
||||
},
|
||||
"131072": {
|
||||
"BLOCK_SIZE_M": 32,
|
||||
"num_warps": 4
|
||||
},
|
||||
"196608": {
|
||||
"BLOCK_SIZE_M": 16,
|
||||
"num_warps": 1
|
||||
},
|
||||
"262144": {
|
||||
"BLOCK_SIZE_M": 16,
|
||||
"num_warps": 1
|
||||
}
|
||||
}
|
||||
+87
@@ -0,0 +1,87 @@
|
||||
{
|
||||
"triton_version": "3.6.0",
|
||||
"8": {
|
||||
"BLOCK_SIZE_M": 4,
|
||||
"num_warps": 4
|
||||
},
|
||||
"16": {
|
||||
"BLOCK_SIZE_M": 4,
|
||||
"num_warps": 1
|
||||
},
|
||||
"32": {
|
||||
"BLOCK_SIZE_M": 4,
|
||||
"num_warps": 1
|
||||
},
|
||||
"64": {
|
||||
"BLOCK_SIZE_M": 8,
|
||||
"num_warps": 8
|
||||
},
|
||||
"128": {
|
||||
"BLOCK_SIZE_M": 16,
|
||||
"num_warps": 8
|
||||
},
|
||||
"256": {
|
||||
"BLOCK_SIZE_M": 16,
|
||||
"num_warps": 8
|
||||
},
|
||||
"512": {
|
||||
"BLOCK_SIZE_M": 16,
|
||||
"num_warps": 8
|
||||
},
|
||||
"1024": {
|
||||
"BLOCK_SIZE_M": 16,
|
||||
"num_warps": 8
|
||||
},
|
||||
"2048": {
|
||||
"BLOCK_SIZE_M": 16,
|
||||
"num_warps": 8
|
||||
},
|
||||
"4096": {
|
||||
"BLOCK_SIZE_M": 16,
|
||||
"num_warps": 8
|
||||
},
|
||||
"8192": {
|
||||
"BLOCK_SIZE_M": 32,
|
||||
"num_warps": 1
|
||||
},
|
||||
"12288": {
|
||||
"BLOCK_SIZE_M": 16,
|
||||
"num_warps": 1
|
||||
},
|
||||
"16384": {
|
||||
"BLOCK_SIZE_M": 32,
|
||||
"num_warps": 4
|
||||
},
|
||||
"24576": {
|
||||
"BLOCK_SIZE_M": 32,
|
||||
"num_warps": 4
|
||||
},
|
||||
"32768": {
|
||||
"BLOCK_SIZE_M": 4,
|
||||
"num_warps": 1
|
||||
},
|
||||
"49152": {
|
||||
"BLOCK_SIZE_M": 32,
|
||||
"num_warps": 2
|
||||
},
|
||||
"65536": {
|
||||
"BLOCK_SIZE_M": 32,
|
||||
"num_warps": 1
|
||||
},
|
||||
"98304": {
|
||||
"BLOCK_SIZE_M": 4,
|
||||
"num_warps": 1
|
||||
},
|
||||
"131072": {
|
||||
"BLOCK_SIZE_M": 4,
|
||||
"num_warps": 1
|
||||
},
|
||||
"196608": {
|
||||
"BLOCK_SIZE_M": 32,
|
||||
"num_warps": 1
|
||||
},
|
||||
"262144": {
|
||||
"BLOCK_SIZE_M": 16,
|
||||
"num_warps": 1
|
||||
}
|
||||
}
|
||||
+87
@@ -0,0 +1,87 @@
|
||||
{
|
||||
"triton_version": "3.6.0",
|
||||
"8": {
|
||||
"BLOCK_SIZE_M": 8,
|
||||
"num_warps": 8
|
||||
},
|
||||
"16": {
|
||||
"BLOCK_SIZE_M": 8,
|
||||
"num_warps": 8
|
||||
},
|
||||
"32": {
|
||||
"BLOCK_SIZE_M": 8,
|
||||
"num_warps": 8
|
||||
},
|
||||
"64": {
|
||||
"BLOCK_SIZE_M": 8,
|
||||
"num_warps": 8
|
||||
},
|
||||
"128": {
|
||||
"BLOCK_SIZE_M": 8,
|
||||
"num_warps": 8
|
||||
},
|
||||
"256": {
|
||||
"BLOCK_SIZE_M": 8,
|
||||
"num_warps": 8
|
||||
},
|
||||
"512": {
|
||||
"BLOCK_SIZE_M": 8,
|
||||
"num_warps": 8
|
||||
},
|
||||
"1024": {
|
||||
"BLOCK_SIZE_M": 16,
|
||||
"num_warps": 8
|
||||
},
|
||||
"2048": {
|
||||
"BLOCK_SIZE_M": 16,
|
||||
"num_warps": 8
|
||||
},
|
||||
"4096": {
|
||||
"BLOCK_SIZE_M": 16,
|
||||
"num_warps": 1
|
||||
},
|
||||
"8192": {
|
||||
"BLOCK_SIZE_M": 4,
|
||||
"num_warps": 8
|
||||
},
|
||||
"12288": {
|
||||
"BLOCK_SIZE_M": 16,
|
||||
"num_warps": 1
|
||||
},
|
||||
"16384": {
|
||||
"BLOCK_SIZE_M": 4,
|
||||
"num_warps": 1
|
||||
},
|
||||
"24576": {
|
||||
"BLOCK_SIZE_M": 4,
|
||||
"num_warps": 1
|
||||
},
|
||||
"32768": {
|
||||
"BLOCK_SIZE_M": 4,
|
||||
"num_warps": 4
|
||||
},
|
||||
"49152": {
|
||||
"BLOCK_SIZE_M": 16,
|
||||
"num_warps": 4
|
||||
},
|
||||
"65536": {
|
||||
"BLOCK_SIZE_M": 64,
|
||||
"num_warps": 8
|
||||
},
|
||||
"98304": {
|
||||
"BLOCK_SIZE_M": 16,
|
||||
"num_warps": 1
|
||||
},
|
||||
"131072": {
|
||||
"BLOCK_SIZE_M": 8,
|
||||
"num_warps": 1
|
||||
},
|
||||
"196608": {
|
||||
"BLOCK_SIZE_M": 64,
|
||||
"num_warps": 8
|
||||
},
|
||||
"262144": {
|
||||
"BLOCK_SIZE_M": 64,
|
||||
"num_warps": 4
|
||||
}
|
||||
}
|
||||
Reference in New Issue
Block a user