TensorRT-LLMs

Zhou Yuxin f01101f687 [None][feat] Hopper Fp8 context mla (#7116 ) Signed-off-by: Yuxin <yuxinz@nvidia.com>	2025-08-26 17:10:20 +08:00
..
fmha_cubin.h	[None][feat] Hopper Fp8 context mla (#7116 )	2025-08-26 17:10:20 +08:00
fmha_v2_flash_attention_bf16_64_32_S_q_paged_kv_64_sm86.cubin.cpp	[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )	2025-08-19 22:04:48 +08:00
fmha_v2_flash_attention_bf16_64_32_S_qkv_128_sm89.cubin.cpp	[None] [feat] Add model gpt-oss (#6645 )	2025-08-07 03:04:18 -04:00
fmha_v2_flash_attention_bf16_64_32_S_qkv_128_sm90.cubin.cpp	[None] [feat] Add model gpt-oss (#6645 )	2025-08-07 03:04:18 -04:00
fmha_v2_flash_attention_bf16_64_32_S_qkv_128_softcapping_sm90.cubin.cpp	[None] [feat] Add model gpt-oss (#6645 )	2025-08-07 03:04:18 -04:00
fmha_v2_flash_attention_bf16_64_128_S_q_kv_128_softmax_tma_ws_sm90.cubin.cpp	[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )	2025-08-19 22:04:48 +08:00
fmha_v2_flash_attention_bf16_64_128_S_q_kv_128_tma_ws_sm90.cubin.cpp	[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )	2025-08-19 22:04:48 +08:00
fmha_v2_flash_attention_bf16_64_128_S_q_paged_kv_128_alibi_tma_ws_sm90.cubin.cpp	[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )	2025-08-19 22:04:48 +08:00
fmha_v2_flash_attention_bf16_64_128_S_q_paged_kv_128_softcapping_tma_ws_sm90.cubin.cpp	[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )	2025-08-19 22:04:48 +08:00
fmha_v2_flash_attention_bf16_64_128_S_q_paged_kv_128_tma_ws_sm90.cubin.cpp	[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )	2025-08-19 22:04:48 +08:00
fmha_v2_flash_attention_bf16_64_128_S_qkv_128_alibi_tma_ws_sm90.cubin.cpp	[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )	2025-08-19 22:04:48 +08:00
fmha_v2_flash_attention_bf16_64_128_S_qkv_128_sm90.cubin.cpp	[None] [feat] Add model gpt-oss (#6645 )	2025-08-07 03:04:18 -04:00
fmha_v2_flash_attention_bf16_64_128_S_qkv_128_softcapping_sm90.cubin.cpp	[None] [feat] Add model gpt-oss (#6645 )	2025-08-07 03:04:18 -04:00
fmha_v2_flash_attention_bf16_64_128_S_qkv_128_softcapping_tma_ws_sm90.cubin.cpp	[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )	2025-08-19 22:04:48 +08:00
fmha_v2_flash_attention_bf16_64_128_S_qkv_128_tma_ws_sm90.cubin.cpp	[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )	2025-08-19 22:04:48 +08:00
fmha_v2_flash_attention_e4m3_64_256_S_q_kv_128_tma_ws_sm90.cubin.cpp	[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )	2025-08-19 22:04:48 +08:00
fmha_v2_flash_attention_e4m3_64_256_S_q_paged_kv_128_alibi_tma_ws_sm90.cubin.cpp	[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )	2025-08-19 22:04:48 +08:00
fmha_v2_flash_attention_e4m3_64_256_S_q_paged_kv_128_softcapping_tma_ws_sm90.cubin.cpp	[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )	2025-08-19 22:04:48 +08:00
fmha_v2_flash_attention_e4m3_64_256_S_q_paged_kv_128_tma_ws_sm90.cubin.cpp	[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )	2025-08-19 22:04:48 +08:00
fmha_v2_flash_attention_e4m3_64_256_S_qkv_128_alibi_tma_ws_sm90.cubin.cpp	[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )	2025-08-19 22:04:48 +08:00
fmha_v2_flash_attention_e4m3_64_256_S_qkv_128_sage_64_64_256_output_bf16_tma_ws_sm90.cubin.cpp	[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )	2025-08-19 22:04:48 +08:00
fmha_v2_flash_attention_e4m3_64_256_S_qkv_128_softcapping_tma_ws_sm90.cubin.cpp	[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )	2025-08-19 22:04:48 +08:00
fmha_v2_flash_attention_e4m3_64_256_S_qkv_128_tma_ws_sm90.cubin.cpp	[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )	2025-08-19 22:04:48 +08:00
fmha_v2_flash_attention_e4m3_fp32_64_32_S_q_kv_72_sm89.cubin.cpp	[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )	2025-08-19 22:04:48 +08:00
fmha_v2_flash_attention_e4m3_fp32_64_32_S_q_kv_128_sm89.cubin.cpp	[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )	2025-08-19 22:04:48 +08:00
fmha_v2_flash_attention_e4m3_fp32_64_32_S_q_paged_kv_72_sm89.cubin.cpp	[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )	2025-08-19 22:04:48 +08:00
fmha_v2_flash_attention_e4m3_fp32_64_32_S_q_paged_kv_80_sm89.cubin.cpp	[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )	2025-08-19 22:04:48 +08:00
fmha_v2_flash_attention_e4m3_fp32_64_32_S_q_paged_kv_96_sm89.cubin.cpp	[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )	2025-08-19 22:04:48 +08:00
fmha_v2_flash_attention_e4m3_fp32_64_32_S_q_paged_kv_104_sm89.cubin.cpp	[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )	2025-08-19 22:04:48 +08:00
fmha_v2_flash_attention_e4m3_fp32_64_32_S_q_paged_kv_128_sm89.cubin.cpp	[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )	2025-08-19 22:04:48 +08:00
fmha_v2_flash_attention_e4m3_fp32_64_32_S_q_paged_kv_160_sm89.cubin.cpp	[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )	2025-08-19 22:04:48 +08:00
fmha_v2_flash_attention_e4m3_fp32_64_32_S_q_paged_kv_192_output_bf16_sm89.cubin.cpp	[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )	2025-08-19 22:04:48 +08:00
fmha_v2_flash_attention_e4m3_fp32_64_32_S_q_paged_kv_192_sm89.cubin.cpp	[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )	2025-08-19 22:04:48 +08:00
fmha_v2_flash_attention_e4m3_fp32_64_32_S_q_paged_kv_256_sm89.cubin.cpp	[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )	2025-08-19 22:04:48 +08:00
fmha_v2_flash_attention_e4m3_fp32_64_32_S_qkv_72_sm89.cubin.cpp	[None] [feat] Add model gpt-oss (#6645 )	2025-08-07 03:04:18 -04:00
fmha_v2_flash_attention_e4m3_fp32_64_32_S_qkv_80_sage_64_32_32_output_bf16_sm89.cubin.cpp	[None] [feat] Add model gpt-oss (#6645 )	2025-08-07 03:04:18 -04:00
fmha_v2_flash_attention_e4m3_fp32_64_32_S_qkv_80_sage_64_32_32_output_fp16_sm89.cubin.cpp	[None] [feat] Add model gpt-oss (#6645 )	2025-08-07 03:04:18 -04:00
fmha_v2_flash_attention_e4m3_fp32_64_32_S_qkv_80_sm89.cubin.cpp	[None] [feat] Add model gpt-oss (#6645 )	2025-08-07 03:04:18 -04:00
fmha_v2_flash_attention_e4m3_fp32_64_32_S_qkv_96_sm89.cubin.cpp	[None] [feat] Add model gpt-oss (#6645 )	2025-08-07 03:04:18 -04:00
fmha_v2_flash_attention_e4m3_fp32_64_32_S_qkv_104_sm89.cubin.cpp	[None] [feat] Add model gpt-oss (#6645 )	2025-08-07 03:04:18 -04:00
fmha_v2_flash_attention_e4m3_fp32_64_32_S_qkv_128_sage_64_32_32_output_bf16_sm89.cubin.cpp	[None] [feat] Add model gpt-oss (#6645 )	2025-08-07 03:04:18 -04:00
fmha_v2_flash_attention_e4m3_fp32_64_32_S_qkv_128_sage_64_32_32_output_fp16_sm89.cubin.cpp	[None] [feat] Add model gpt-oss (#6645 )	2025-08-07 03:04:18 -04:00
fmha_v2_flash_attention_e4m3_fp32_64_32_S_qkv_128_sm89.cubin.cpp	[None] [feat] Add model gpt-oss (#6645 )	2025-08-07 03:04:18 -04:00
fmha_v2_flash_attention_e4m3_fp32_64_32_S_qkv_160_sm89.cubin.cpp	[None] [feat] Add model gpt-oss (#6645 )	2025-08-07 03:04:18 -04:00
fmha_v2_flash_attention_e4m3_fp32_64_32_S_qkv_192_output_bf16_sm89.cubin.cpp	[None] [feat] Add model gpt-oss (#6645 )	2025-08-07 03:04:18 -04:00
fmha_v2_flash_attention_e4m3_fp32_64_32_S_qkv_192_sm89.cubin.cpp	[None] [feat] Add model gpt-oss (#6645 )	2025-08-07 03:04:18 -04:00
fmha_v2_flash_attention_e4m3_fp32_64_32_S_qkv_256_sm89.cubin.cpp	[None] [feat] Add model gpt-oss (#6645 )	2025-08-07 03:04:18 -04:00
fmha_v2_flash_attention_e4m3_fp32_128_128_S_q_kv_32_sm89.cubin.cpp	[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )	2025-08-19 22:04:48 +08:00
fmha_v2_flash_attention_e4m3_fp32_128_128_S_q_kv_64_sm89.cubin.cpp	[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )	2025-08-19 22:04:48 +08:00
fmha_v2_flash_attention_e4m3_fp32_128_128_S_q_paged_kv_32_sm89.cubin.cpp	[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )	2025-08-19 22:04:48 +08:00
fmha_v2_flash_attention_e4m3_fp32_128_128_S_q_paged_kv_40_sm89.cubin.cpp	[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )	2025-08-19 22:04:48 +08:00
fmha_v2_flash_attention_e4m3_fp32_128_128_S_q_paged_kv_48_sm89.cubin.cpp	[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )	2025-08-19 22:04:48 +08:00
fmha_v2_flash_attention_e4m3_fp32_128_128_S_q_paged_kv_64_sm89.cubin.cpp	[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )	2025-08-19 22:04:48 +08:00
fmha_v2_flash_attention_e4m3_fp32_128_128_S_qkv_32_sm89.cubin.cpp	[None] [feat] Add model gpt-oss (#6645 )	2025-08-07 03:04:18 -04:00
fmha_v2_flash_attention_e4m3_fp32_128_128_S_qkv_40_sm89.cubin.cpp	[None] [feat] Add model gpt-oss (#6645 )	2025-08-07 03:04:18 -04:00
fmha_v2_flash_attention_e4m3_fp32_128_128_S_qkv_48_sm89.cubin.cpp	[None] [feat] Add model gpt-oss (#6645 )	2025-08-07 03:04:18 -04:00
fmha_v2_flash_attention_e4m3_fp32_128_128_S_qkv_64_sm89.cubin.cpp	[None] [feat] Add model gpt-oss (#6645 )	2025-08-07 03:04:18 -04:00
fmha_v2_flash_attention_fp16_64_32_S_qkv_128_sm90.cubin.cpp	[None] [feat] Add model gpt-oss (#6645 )	2025-08-07 03:04:18 -04:00
fmha_v2_flash_attention_fp16_64_32_S_qkv_128_softcapping_sm90.cubin.cpp	[None] [feat] Add model gpt-oss (#6645 )	2025-08-07 03:04:18 -04:00
fmha_v2_flash_attention_fp16_64_128_S_q_kv_128_softmax_tma_ws_sm90.cubin.cpp	[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )	2025-08-19 22:04:48 +08:00
fmha_v2_flash_attention_fp16_64_128_S_q_kv_128_tma_ws_sm90.cubin.cpp	[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )	2025-08-19 22:04:48 +08:00
fmha_v2_flash_attention_fp16_64_128_S_q_paged_kv_128_alibi_tma_ws_sm90.cubin.cpp	[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )	2025-08-19 22:04:48 +08:00
fmha_v2_flash_attention_fp16_64_128_S_q_paged_kv_128_sm80.cubin.cpp	[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )	2025-08-19 22:04:48 +08:00
fmha_v2_flash_attention_fp16_64_128_S_q_paged_kv_128_softcapping_tma_ws_sm90.cubin.cpp	[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )	2025-08-19 22:04:48 +08:00
fmha_v2_flash_attention_fp16_64_128_S_q_paged_kv_128_tma_ws_sm90.cubin.cpp	[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )	2025-08-19 22:04:48 +08:00
fmha_v2_flash_attention_fp16_64_128_S_qkv_128_alibi_tma_ws_sm90.cubin.cpp	[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )	2025-08-19 22:04:48 +08:00
fmha_v2_flash_attention_fp16_64_128_S_qkv_128_sm90.cubin.cpp	[None] [feat] Add model gpt-oss (#6645 )	2025-08-07 03:04:18 -04:00
fmha_v2_flash_attention_fp16_64_128_S_qkv_128_softcapping_sm90.cubin.cpp	[None] [feat] Add model gpt-oss (#6645 )	2025-08-07 03:04:18 -04:00
fmha_v2_flash_attention_fp16_64_128_S_qkv_128_softcapping_tma_ws_sm90.cubin.cpp	[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )	2025-08-19 22:04:48 +08:00
fmha_v2_flash_attention_fp16_64_128_S_qkv_128_tma_ws_sm90.cubin.cpp	[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )	2025-08-19 22:04:48 +08:00
fmha_v2_flash_attention_fp16_128_128_S_q_paged_kv_64_sm80.cubin.cpp	[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )	2025-08-19 22:04:48 +08:00
fmha_v2_flash_attention_fp16_fp32_64_32_S_qkv_128_sm90.cubin.cpp	[None] [feat] Add model gpt-oss (#6645 )	2025-08-07 03:04:18 -04:00
fmha_v2_flash_attention_fp16_fp32_64_32_S_qkv_128_softcapping_sm90.cubin.cpp	[None] [feat] Add model gpt-oss (#6645 )	2025-08-07 03:04:18 -04:00
fmha_v2_flash_attention_fp16_fp32_64_128_S_q_kv_128_softmax_tma_ws_sm90.cubin.cpp	[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )	2025-08-19 22:04:48 +08:00
fmha_v2_flash_attention_fp16_fp32_64_128_S_q_kv_128_tma_ws_sm90.cubin.cpp	[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )	2025-08-19 22:04:48 +08:00
fmha_v2_flash_attention_fp16_fp32_64_128_S_q_paged_kv_128_alibi_tma_ws_sm90.cubin.cpp	[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )	2025-08-19 22:04:48 +08:00
fmha_v2_flash_attention_fp16_fp32_64_128_S_q_paged_kv_128_softcapping_tma_ws_sm90.cubin.cpp	[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )	2025-08-19 22:04:48 +08:00
fmha_v2_flash_attention_fp16_fp32_64_128_S_q_paged_kv_128_tma_ws_sm90.cubin.cpp	[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )	2025-08-19 22:04:48 +08:00
fmha_v2_flash_attention_fp16_fp32_64_128_S_qkv_128_alibi_tma_ws_sm90.cubin.cpp	[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )	2025-08-19 22:04:48 +08:00
fmha_v2_flash_attention_fp16_fp32_64_128_S_qkv_128_sm90.cubin.cpp	[None] [feat] Add model gpt-oss (#6645 )	2025-08-07 03:04:18 -04:00
fmha_v2_flash_attention_fp16_fp32_64_128_S_qkv_128_softcapping_sm90.cubin.cpp	[None] [feat] Add model gpt-oss (#6645 )	2025-08-07 03:04:18 -04:00
fmha_v2_flash_attention_fp16_fp32_64_128_S_qkv_128_softcapping_tma_ws_sm90.cubin.cpp	[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )	2025-08-19 22:04:48 +08:00
fmha_v2_flash_attention_fp16_fp32_64_128_S_qkv_128_tma_ws_sm90.cubin.cpp	[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )	2025-08-19 22:04:48 +08:00

fmha_cubin.h

[None][feat] Hopper Fp8 context mla (#7116 )

2025-08-26 17:10:20 +08:00

fmha_v2_flash_attention_bf16_64_32_S_q_paged_kv_64_sm86.cubin.cpp

[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )

2025-08-19 22:04:48 +08:00

fmha_v2_flash_attention_bf16_64_32_S_qkv_128_sm89.cubin.cpp

[None] [feat] Add model gpt-oss (#6645 )

2025-08-07 03:04:18 -04:00

fmha_v2_flash_attention_bf16_64_32_S_qkv_128_sm90.cubin.cpp

[None] [feat] Add model gpt-oss (#6645 )

2025-08-07 03:04:18 -04:00

fmha_v2_flash_attention_bf16_64_32_S_qkv_128_softcapping_sm90.cubin.cpp

[None] [feat] Add model gpt-oss (#6645 )

2025-08-07 03:04:18 -04:00

fmha_v2_flash_attention_bf16_64_128_S_q_kv_128_softmax_tma_ws_sm90.cubin.cpp

[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )

2025-08-19 22:04:48 +08:00

fmha_v2_flash_attention_bf16_64_128_S_q_kv_128_tma_ws_sm90.cubin.cpp

[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )

2025-08-19 22:04:48 +08:00

fmha_v2_flash_attention_bf16_64_128_S_q_paged_kv_128_alibi_tma_ws_sm90.cubin.cpp

[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )

2025-08-19 22:04:48 +08:00

fmha_v2_flash_attention_bf16_64_128_S_q_paged_kv_128_softcapping_tma_ws_sm90.cubin.cpp

[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )

2025-08-19 22:04:48 +08:00

fmha_v2_flash_attention_bf16_64_128_S_q_paged_kv_128_tma_ws_sm90.cubin.cpp

[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )

2025-08-19 22:04:48 +08:00

fmha_v2_flash_attention_bf16_64_128_S_qkv_128_alibi_tma_ws_sm90.cubin.cpp

[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )

2025-08-19 22:04:48 +08:00

fmha_v2_flash_attention_bf16_64_128_S_qkv_128_sm90.cubin.cpp

[None] [feat] Add model gpt-oss (#6645 )

2025-08-07 03:04:18 -04:00

fmha_v2_flash_attention_bf16_64_128_S_qkv_128_softcapping_sm90.cubin.cpp

[None] [feat] Add model gpt-oss (#6645 )

2025-08-07 03:04:18 -04:00

fmha_v2_flash_attention_bf16_64_128_S_qkv_128_softcapping_tma_ws_sm90.cubin.cpp

[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )

2025-08-19 22:04:48 +08:00

fmha_v2_flash_attention_bf16_64_128_S_qkv_128_tma_ws_sm90.cubin.cpp

[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )

2025-08-19 22:04:48 +08:00

fmha_v2_flash_attention_e4m3_64_256_S_q_kv_128_tma_ws_sm90.cubin.cpp

[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )

2025-08-19 22:04:48 +08:00

fmha_v2_flash_attention_e4m3_64_256_S_q_paged_kv_128_alibi_tma_ws_sm90.cubin.cpp

[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )

2025-08-19 22:04:48 +08:00

fmha_v2_flash_attention_e4m3_64_256_S_q_paged_kv_128_softcapping_tma_ws_sm90.cubin.cpp

[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )

2025-08-19 22:04:48 +08:00

fmha_v2_flash_attention_e4m3_64_256_S_q_paged_kv_128_tma_ws_sm90.cubin.cpp

[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )

2025-08-19 22:04:48 +08:00

fmha_v2_flash_attention_e4m3_64_256_S_qkv_128_alibi_tma_ws_sm90.cubin.cpp

[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )

2025-08-19 22:04:48 +08:00

fmha_v2_flash_attention_e4m3_64_256_S_qkv_128_sage_64_64_256_output_bf16_tma_ws_sm90.cubin.cpp

[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )

2025-08-19 22:04:48 +08:00

fmha_v2_flash_attention_e4m3_64_256_S_qkv_128_softcapping_tma_ws_sm90.cubin.cpp

[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )

2025-08-19 22:04:48 +08:00

fmha_v2_flash_attention_e4m3_64_256_S_qkv_128_tma_ws_sm90.cubin.cpp

[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )

2025-08-19 22:04:48 +08:00

fmha_v2_flash_attention_e4m3_fp32_64_32_S_q_kv_72_sm89.cubin.cpp

[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )

2025-08-19 22:04:48 +08:00

fmha_v2_flash_attention_e4m3_fp32_64_32_S_q_kv_128_sm89.cubin.cpp

[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )

2025-08-19 22:04:48 +08:00

fmha_v2_flash_attention_e4m3_fp32_64_32_S_q_paged_kv_72_sm89.cubin.cpp

[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )

2025-08-19 22:04:48 +08:00

fmha_v2_flash_attention_e4m3_fp32_64_32_S_q_paged_kv_80_sm89.cubin.cpp

[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )

2025-08-19 22:04:48 +08:00

fmha_v2_flash_attention_e4m3_fp32_64_32_S_q_paged_kv_96_sm89.cubin.cpp

[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )

2025-08-19 22:04:48 +08:00

fmha_v2_flash_attention_e4m3_fp32_64_32_S_q_paged_kv_104_sm89.cubin.cpp

[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )

2025-08-19 22:04:48 +08:00

fmha_v2_flash_attention_e4m3_fp32_64_32_S_q_paged_kv_128_sm89.cubin.cpp

[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )

2025-08-19 22:04:48 +08:00

fmha_v2_flash_attention_e4m3_fp32_64_32_S_q_paged_kv_160_sm89.cubin.cpp

[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )

2025-08-19 22:04:48 +08:00

fmha_v2_flash_attention_e4m3_fp32_64_32_S_q_paged_kv_192_output_bf16_sm89.cubin.cpp

[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )

2025-08-19 22:04:48 +08:00

fmha_v2_flash_attention_e4m3_fp32_64_32_S_q_paged_kv_192_sm89.cubin.cpp

[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )

2025-08-19 22:04:48 +08:00

fmha_v2_flash_attention_e4m3_fp32_64_32_S_q_paged_kv_256_sm89.cubin.cpp

[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )

2025-08-19 22:04:48 +08:00

fmha_v2_flash_attention_e4m3_fp32_64_32_S_qkv_72_sm89.cubin.cpp

[None] [feat] Add model gpt-oss (#6645 )

2025-08-07 03:04:18 -04:00

fmha_v2_flash_attention_e4m3_fp32_64_32_S_qkv_80_sage_64_32_32_output_bf16_sm89.cubin.cpp

[None] [feat] Add model gpt-oss (#6645 )

2025-08-07 03:04:18 -04:00

fmha_v2_flash_attention_e4m3_fp32_64_32_S_qkv_80_sage_64_32_32_output_fp16_sm89.cubin.cpp

[None] [feat] Add model gpt-oss (#6645 )

2025-08-07 03:04:18 -04:00

fmha_v2_flash_attention_e4m3_fp32_64_32_S_qkv_80_sm89.cubin.cpp

[None] [feat] Add model gpt-oss (#6645 )

2025-08-07 03:04:18 -04:00

fmha_v2_flash_attention_e4m3_fp32_64_32_S_qkv_96_sm89.cubin.cpp

[None] [feat] Add model gpt-oss (#6645 )

2025-08-07 03:04:18 -04:00

fmha_v2_flash_attention_e4m3_fp32_64_32_S_qkv_104_sm89.cubin.cpp

[None] [feat] Add model gpt-oss (#6645 )

2025-08-07 03:04:18 -04:00

fmha_v2_flash_attention_e4m3_fp32_64_32_S_qkv_128_sage_64_32_32_output_bf16_sm89.cubin.cpp

[None] [feat] Add model gpt-oss (#6645 )

2025-08-07 03:04:18 -04:00

fmha_v2_flash_attention_e4m3_fp32_64_32_S_qkv_128_sage_64_32_32_output_fp16_sm89.cubin.cpp

[None] [feat] Add model gpt-oss (#6645 )

2025-08-07 03:04:18 -04:00

fmha_v2_flash_attention_e4m3_fp32_64_32_S_qkv_128_sm89.cubin.cpp

[None] [feat] Add model gpt-oss (#6645 )

2025-08-07 03:04:18 -04:00

fmha_v2_flash_attention_e4m3_fp32_64_32_S_qkv_160_sm89.cubin.cpp

[None] [feat] Add model gpt-oss (#6645 )

2025-08-07 03:04:18 -04:00

fmha_v2_flash_attention_e4m3_fp32_64_32_S_qkv_192_output_bf16_sm89.cubin.cpp

[None] [feat] Add model gpt-oss (#6645 )

2025-08-07 03:04:18 -04:00

fmha_v2_flash_attention_e4m3_fp32_64_32_S_qkv_192_sm89.cubin.cpp

[None] [feat] Add model gpt-oss (#6645 )

2025-08-07 03:04:18 -04:00

fmha_v2_flash_attention_e4m3_fp32_64_32_S_qkv_256_sm89.cubin.cpp

[None] [feat] Add model gpt-oss (#6645 )

2025-08-07 03:04:18 -04:00

fmha_v2_flash_attention_e4m3_fp32_128_128_S_q_kv_32_sm89.cubin.cpp

[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )

2025-08-19 22:04:48 +08:00

fmha_v2_flash_attention_e4m3_fp32_128_128_S_q_kv_64_sm89.cubin.cpp

[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )

2025-08-19 22:04:48 +08:00

fmha_v2_flash_attention_e4m3_fp32_128_128_S_q_paged_kv_32_sm89.cubin.cpp

[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )

2025-08-19 22:04:48 +08:00

fmha_v2_flash_attention_e4m3_fp32_128_128_S_q_paged_kv_40_sm89.cubin.cpp

[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )

2025-08-19 22:04:48 +08:00

fmha_v2_flash_attention_e4m3_fp32_128_128_S_q_paged_kv_48_sm89.cubin.cpp

[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )

2025-08-19 22:04:48 +08:00

fmha_v2_flash_attention_e4m3_fp32_128_128_S_q_paged_kv_64_sm89.cubin.cpp

[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )

2025-08-19 22:04:48 +08:00

fmha_v2_flash_attention_e4m3_fp32_128_128_S_qkv_32_sm89.cubin.cpp

[None] [feat] Add model gpt-oss (#6645 )

2025-08-07 03:04:18 -04:00

fmha_v2_flash_attention_e4m3_fp32_128_128_S_qkv_40_sm89.cubin.cpp

[None] [feat] Add model gpt-oss (#6645 )

2025-08-07 03:04:18 -04:00

fmha_v2_flash_attention_e4m3_fp32_128_128_S_qkv_48_sm89.cubin.cpp

[None] [feat] Add model gpt-oss (#6645 )

2025-08-07 03:04:18 -04:00

fmha_v2_flash_attention_e4m3_fp32_128_128_S_qkv_64_sm89.cubin.cpp

[None] [feat] Add model gpt-oss (#6645 )

2025-08-07 03:04:18 -04:00

fmha_v2_flash_attention_fp16_64_32_S_qkv_128_sm90.cubin.cpp

[None] [feat] Add model gpt-oss (#6645 )

2025-08-07 03:04:18 -04:00

fmha_v2_flash_attention_fp16_64_32_S_qkv_128_softcapping_sm90.cubin.cpp

[None] [feat] Add model gpt-oss (#6645 )

2025-08-07 03:04:18 -04:00

fmha_v2_flash_attention_fp16_64_128_S_q_kv_128_softmax_tma_ws_sm90.cubin.cpp

[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )

2025-08-19 22:04:48 +08:00

fmha_v2_flash_attention_fp16_64_128_S_q_kv_128_tma_ws_sm90.cubin.cpp

[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )

2025-08-19 22:04:48 +08:00

fmha_v2_flash_attention_fp16_64_128_S_q_paged_kv_128_alibi_tma_ws_sm90.cubin.cpp

[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )

2025-08-19 22:04:48 +08:00

fmha_v2_flash_attention_fp16_64_128_S_q_paged_kv_128_sm80.cubin.cpp

[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )

2025-08-19 22:04:48 +08:00

fmha_v2_flash_attention_fp16_64_128_S_q_paged_kv_128_softcapping_tma_ws_sm90.cubin.cpp

[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )

2025-08-19 22:04:48 +08:00

fmha_v2_flash_attention_fp16_64_128_S_q_paged_kv_128_tma_ws_sm90.cubin.cpp

[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )

2025-08-19 22:04:48 +08:00

fmha_v2_flash_attention_fp16_64_128_S_qkv_128_alibi_tma_ws_sm90.cubin.cpp

[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )

2025-08-19 22:04:48 +08:00

fmha_v2_flash_attention_fp16_64_128_S_qkv_128_sm90.cubin.cpp

[None] [feat] Add model gpt-oss (#6645 )

2025-08-07 03:04:18 -04:00

fmha_v2_flash_attention_fp16_64_128_S_qkv_128_softcapping_sm90.cubin.cpp

[None] [feat] Add model gpt-oss (#6645 )

2025-08-07 03:04:18 -04:00

fmha_v2_flash_attention_fp16_64_128_S_qkv_128_softcapping_tma_ws_sm90.cubin.cpp

[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )

2025-08-19 22:04:48 +08:00

fmha_v2_flash_attention_fp16_64_128_S_qkv_128_tma_ws_sm90.cubin.cpp

[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )

2025-08-19 22:04:48 +08:00

fmha_v2_flash_attention_fp16_128_128_S_q_paged_kv_64_sm80.cubin.cpp

[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )

2025-08-19 22:04:48 +08:00

fmha_v2_flash_attention_fp16_fp32_64_32_S_qkv_128_sm90.cubin.cpp

[None] [feat] Add model gpt-oss (#6645 )

2025-08-07 03:04:18 -04:00

fmha_v2_flash_attention_fp16_fp32_64_32_S_qkv_128_softcapping_sm90.cubin.cpp

[None] [feat] Add model gpt-oss (#6645 )

2025-08-07 03:04:18 -04:00

fmha_v2_flash_attention_fp16_fp32_64_128_S_q_kv_128_softmax_tma_ws_sm90.cubin.cpp

[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )

2025-08-19 22:04:48 +08:00

fmha_v2_flash_attention_fp16_fp32_64_128_S_q_kv_128_tma_ws_sm90.cubin.cpp

[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )

2025-08-19 22:04:48 +08:00

fmha_v2_flash_attention_fp16_fp32_64_128_S_q_paged_kv_128_alibi_tma_ws_sm90.cubin.cpp

[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )

2025-08-19 22:04:48 +08:00

fmha_v2_flash_attention_fp16_fp32_64_128_S_q_paged_kv_128_softcapping_tma_ws_sm90.cubin.cpp

[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )

2025-08-19 22:04:48 +08:00

fmha_v2_flash_attention_fp16_fp32_64_128_S_q_paged_kv_128_tma_ws_sm90.cubin.cpp

[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )

2025-08-19 22:04:48 +08:00

fmha_v2_flash_attention_fp16_fp32_64_128_S_qkv_128_alibi_tma_ws_sm90.cubin.cpp

[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )

2025-08-19 22:04:48 +08:00

fmha_v2_flash_attention_fp16_fp32_64_128_S_qkv_128_sm90.cubin.cpp

[None] [feat] Add model gpt-oss (#6645 )

2025-08-07 03:04:18 -04:00

fmha_v2_flash_attention_fp16_fp32_64_128_S_qkv_128_softcapping_sm90.cubin.cpp

[None] [feat] Add model gpt-oss (#6645 )

2025-08-07 03:04:18 -04:00

fmha_v2_flash_attention_fp16_fp32_64_128_S_qkv_128_softcapping_tma_ws_sm90.cubin.cpp

[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )

2025-08-19 22:04:48 +08:00

fmha_v2_flash_attention_fp16_fp32_64_128_S_qkv_128_tma_ws_sm90.cubin.cpp

[None][feat] Use Separate QKV Input Layout for Context MLA (#6538 )

2025-08-19 22:04:48 +08:00