TensorRT-LLMs

mirror of https://github.com/NVIDIA/TensorRT-LLM.git synced 2026-01-14 06:27:45 +08:00

Author	SHA1	Message	Date
Robin Kobus	df41f220a2	[TRTLLM-8831][feat] Enable early exit with overlap scheduler (#8587 ) Signed-off-by: Robin Kobus <19427718+Funatiq@users.noreply.github.com>	2025-11-17 18:07:13 +01:00
Kaiyu Xie	04be5a704e	[None] [fix] Fix missing ActivationType issue (#9171 ) Signed-off-by: Kaiyu Xie <26294424+kaiyux@users.noreply.github.com> Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com> Signed-off-by: Neta Zmora <96238833+nzmora-nvidia@users.noreply.github.com> Co-authored-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com> Co-authored-by: Neta Zmora <96238833+nzmora-nvidia@users.noreply.github.com>	2025-11-17 10:43:25 +08:00
Anthony Chang	86cfb3ea7e	[None][feat] Update TRTLLM MoE cubins; reduce mxfp4 weight padding requirement; tighten TMA bound (#9025 ) Signed-off-by: Anthony Chang <27950904+rosenrodt@users.noreply.github.com>	2025-11-17 10:04:29 +08:00
Emma Qiao	d16b1a84c5	[None][infra] Waive a failed case in pre-merge stage 11/16 (#9192 ) Signed-off-by: qqiao <qqiao@nvidia.com>	2025-11-17 09:36:56 +08:00
sunnyqgg	7862b15a65	[TRTLLM-8778][feat] Add tree attention support for blackwell arch (#8975 ) Signed-off-by: qgai <qgai@nvidia.com>	2025-11-17 09:01:53 +08:00
Emma Qiao	2854f0cf3d	[None][infra] Waive failed tests for main branch 11/15 (#9187 ) Signed-off-by: qqiao <qqiao@nvidia.com> Signed-off-by: Emma Qiao <qqiao@nvidia.com>	2025-11-16 01:48:25 -08:00
brb-nv	63237494db	[None][chore] Waive failing tests blocking pre-merge (#9189 ) Signed-off-by: Balaram Buddharaju <169953907+brb-nv@users.noreply.github.com>	2025-11-16 01:06:03 -08:00
Erin	fe69243157	[None][chore] Add placement test for ray executor (#9122 ) Signed-off-by: Erin Ho <14718778+hchings@users.noreply.github.com>	2025-11-14 23:10:59 -08:00
Chang Liu	bed4e95e9f	[https://nvbugs/5629887 ][fix] Add missing device count guard for DSv32 multiGPU tests (#9159 )	2025-11-14 07:52:23 -08:00
xinhe-nv	49b7e6301a	[None][chore] Add failed cases into waives.txt (#9156 ) Signed-off-by: xinhe-nv <200704525+xinhe-nv@users.noreply.github.com>	2025-11-14 06:28:22 -08:00
mpikulski	80bf840e69	[TRTLLM-9295][fix] unflake test_overlap_scheduler.py::test_overlap_scheduler_consis… (#9146 ) Signed-off-by: ixlmar <206748156+ixlmar@users.noreply.github.com>	2025-11-14 11:36:22 +01:00
yuanjingx87	d72321a32e	[None][ci] Waive unittest/_torch/sampler/test_torch_sampler.py::TestBatchedSampling (#9161 ) Signed-off-by: Yuanjing Xue <197832395+yuanjingx87@users.noreply.github.com>	2025-11-14 01:49:26 -08:00
Suyog Gupta	d12cb9436d	[None][feat] Autodeploy add triton configs and optimize mamba prefill (#9083 ) Signed-off-by: Suyog Gupta <41447211+suyoggupta@users.noreply.github.com>	2025-11-13 19:15:43 -08:00
QI JUN	3c950910a0	[None][ci] waive test_disaggregated.py::test_disaggregated_mixed[TinyLlama-1.1B-Chat-v1.0] (#9162 ) Signed-off-by: junq <22017000+QiJune@users.noreply.github.com> Signed-off-by: Yanchao Lu <yanchaol@nvidia.com> Co-authored-by: Yanchao Lu <yanchaol@nvidia.com>	2025-11-13 18:56:37 -08:00
heyuhhh	f07e9977c6	[None] [feat] Use triton kernels for RocketKV prediction module (#8682 ) Signed-off-by: yuhangh <58161490+heyuhhh@users.noreply.github.com>	2025-11-13 18:51:09 -08:00
Tailing Yuan	cc4c980e03	[None][feat] Add Qwen3-Next to layer-wise benchmarks (#9065 ) Signed-off-by: Tailing Yuan <yuantailing@gmail.com>	2025-11-14 10:03:00 +08:00
JunyiXu-nv	fdb0787e85	[None][chore] Support json_schema in response_format (#8934 ) Signed-off-by: Junyi Xu <219237550+JunyiXu-nv@users.noreply.github.com>	2025-11-14 09:43:13 +08:00
Erin	44d1c75701	[TRTLLM-8988][feat] Unify MPI & Ray's req/response handling with RPC Client/Server (#8765 ) Signed-off-by: Erin Ho <14718778+hchings@users.noreply.github.com>	2025-11-13 17:21:24 -08:00
Neta Zmora	34dc6869f3	[#8732 ][feat] Update TRTLLM Cutlass MoE kernels with ReLU2 (#9011 ) Update TRTLLM Cutlass MoE kernels with ReLU2 activation. Nemotron-6 requires ReLU2 (i.e. squared ReLU) MoE activation function. The PR adds this and adds an API to set the activation function, in general. The ReLU2 changes are based on this FlashInfer PR: https://github.com/flashinfer-ai/flashinfer/pull/1954. The PR also updates the Auto Deploy MoE backend for 16-bit and FP8 from Triton (`torch.ops.auto_deploy.triton_moe_fused`, `torch.ops.auto_deploy.triton_quant_fp8_moe`) to TRTLLM/Cutlass (`torch.ops.auto_deploy.trtllm_moe_fused`, `torch.ops.auto_deploy.trtllm_quant_fp8_moe_fused`). Signed-off-by: Neta Zmora <96238833+nzmora-nvidia@users.noreply.github.com> Signed-off-by: Chenghao Zhang <211069071+nvchenghaoz@users.noreply.github.com> Co-authored-by: Chenghao Zhang <211069071+nvchenghaoz@users.noreply.github.com>	2025-11-13 16:54:45 -08:00
dongxuy04	a370643b26	[None][fix] support topk autotuner input for expert slot per group larger than 32 (#9087 ) Signed-off-by: Dongxu Yang <78518666+dongxuy04@users.noreply.github.com>	2025-11-14 08:37:20 +08:00
Frida Hou	e96a3d294d	[None][autodeploy] minor refactor to rmsnorm transforms (#8657 ) Signed-off-by: Fridah-nv <201670829+Fridah-nv@users.noreply.github.com>	2025-11-13 13:13:58 -08:00
Ziyi Xiong	a7aaf50541	[TRTLLM-8084][feat] Enhance the overlap shceduler for two-model spec decoding (#8706 ) Signed-off-by: ziyixiong-nv <219238287+ziyixiong-nv@users.noreply.github.com>	2025-11-13 10:20:16 -05:00
William Zhang	121140cfec	[None][fixes] Add tool call parsing fixes and Qwen3 coder parser (#8817 ) Signed-off-by: William Zhang <133824995+2ez4bz@users.noreply.github.com>	2025-11-13 04:34:38 -08:00
Lizhi Zhou	48a27c7bef	[https://nvbugs/5633340 ][chore] unwaive test_auto_scaling.py::test_disagg_server_restart (#9131 ) Signed-off-by: Lizhi Zhou <1432185+reasonsolo@users.noreply.github.com> Signed-off-by: Yanchao Lu <yanchaol@nvidia.com> Co-authored-by: Yanchao Lu <yanchaol@nvidia.com> Co-authored-by: Zhanrui Sun <184402041+ZhanruiSunCh@users.noreply.github.com>	2025-11-13 01:45:36 -08:00
Emma Qiao	d0ea417ec8	[None][infra] Waive failed tests for main 11/13 (#9132 ) Signed-off-by: qqiao <qqiao@nvidia.com>	2025-11-13 01:00:40 -08:00
xinhe-nv	548f5ce4bc	[None][fix] waive failed tests (#9090 ) Signed-off-by: Xin He (SW-GPU) <200704525+xinhe-nv@users.noreply.github.com>	2025-11-12 23:40:00 -08:00
xinhe-nv	8fa3c55c76	[None][chore] Remove closed bugs (#9114 ) Signed-off-by: xinhe-nv <200704525+xinhe-nv@users.noreply.github.com>	2025-11-12 22:49:37 -08:00
ruodil	c86e36fe38	[None][test] add deepseek and qwen cases for rtx series (#8839 ) Signed-off-by: Ruodi Lu <ruodil@users.noreply.github.com> Co-authored-by: Ruodi Lu <ruodil@users.noreply.github.com>	2025-11-12 22:28:02 -08:00
HuiGao-NV	cde18c12da	[https://nvbugs/5640873 ][fix] Move thop tests to pre-merge (#9094 ) Signed-off-by: Hui Gao <huig@nvidia.com>	2025-11-13 13:08:13 +08:00
Zhang Ge	49df731b96	[#6507 ][fix] Fix precision issue due to KV layout mismatch for split/concat kernels (#6917 ) Signed-off-by: ZhangGe6 <sjtu.zg123@gmail.com> Co-authored-by: Yuxian Qiu <142763828+yuxianq@users.noreply.github.com>	2025-11-13 12:14:58 +08:00
Yan Chunwei	4fd93bdc2c	[None][ci] Waive test_llm_rpc and test_llm_rpc_streaming (#9118 ) Signed-off-by: Yan Chunwei <328693+Superjomn@users.noreply.github.com>	2025-11-12 19:55:09 -08:00
Yan Chunwei	8a8883bc73	[None][chore] Waive test_llm_rpc_streaming (#9113 ) Signed-off-by: Yan Chunwei <328693+Superjomn@users.noreply.github.com>	2025-11-13 11:06:26 +08:00
Zhenhuan Chen	943b05e2d3	[TRTLLM-9179][feat] add pp_partition to customize each rank's layer number (#9003 ) Signed-off-by: Zhenhuan Chen <zhenhuanc@nvidia.com>	2025-11-13 10:34:17 +08:00
QI JUN	3416efbc29	[None][ci] waive test_disaggregated_serving.py::TestQwen3_8B::test_chunked_prefill (#9111 ) Signed-off-by: junq <22017000+QiJune@users.noreply.github.com>	2025-11-13 10:06:32 +08:00
dongxuy04	9241ccaf27	[None][feat] Enable EPLB for trtllm-gen and cutlass backend (#8886 ) Signed-off-by: Dongxu Yang <78518666+dongxuy04@users.noreply.github.com>	2025-11-12 12:30:27 -08:00
Chenghao Zhang	5f26c31954	[https://nvbugs/5636912 ][fix] AutoDeploy: Unwaive the test (#9018 ) Signed-off-by: Chenghao Zhang <211069071+nvchenghaoz@users.noreply.github.com>	2025-11-12 12:26:38 -08:00
Patrice Castonguay	8a751a0e56	[None][chore] Remove is_disaggregated param in executor request queue (#9049 ) Signed-off-by: Patrice Castonguay <55748270+pcastonguay@users.noreply.github.com>	2025-11-12 13:37:15 -05:00
Fanrong Li	780d4f9dc5	[None][feat] Add MTP>1 support for DS-v3.2 (#9045 ) Signed-off-by: Fanrong Li <23290157+lfr-0531@users.noreply.github.com>	2025-11-12 09:56:12 -08:00
Iman Tabrizian	cdde15b275	[TRTLLM-8540][feat] Add support for disagg in DSv3.2 (#8735 ) Signed-off-by: Iman Tabrizian <10105175+tabrizian@users.noreply.github.com>	2025-11-12 08:21:11 -08:00
mpikulski	264d38e6c5	[TRTLLM-9175][test] ensure sampling is async (#9076 ) Signed-off-by: ixlmar <206748156+ixlmar@users.noreply.github.com>	2025-11-12 15:27:52 +01:00
yufeiwu-nv	b7a2574c60	[https://nvbugs/5568991 ][test] Remove Phi-3 models (#9066 ) Signed-off-by: yufeiwu-nv <230315618+yufeiwu-nv@users.noreply.github.com>	2025-11-12 03:16:36 -08:00
QI JUN	4003dc7574	[None][ci] waive some test cases of disaggregated serving (#9085 ) Signed-off-by: junq <22017000+QiJune@users.noreply.github.com> Signed-off-by: Yanchao Lu <yanchaol@nvidia.com> Co-authored-by: Yanchao Lu <yanchaol@nvidia.com>	2025-11-12 15:06:21 +08:00
Emma Qiao	bb6eb9510d	[None][infra] Waive a failed case of disaggregated/test_disaggregated.py (#9074 ) Signed-off-by: qqiao <qqiao@nvidia.com>	2025-11-11 19:38:32 -08:00
QI JUN	fd703fbb7b	[None][ci] run speculative unit tests serially (#9080 ) Signed-off-by: junq <22017000+QiJune@users.noreply.github.com>	2025-11-11 19:06:44 -08:00
Lucas Liebenwein	aca56097cb	[None][fix] AutoDeploy: update nano3 accuracy test (#9061 ) Signed-off-by: Lucas Liebenwein <11156568+lucaslie@users.noreply.github.com>	2025-11-11 12:26:31 -08:00
QI JUN	524754b6fd	[TRTLLM-8521][chore] remove circular dependency between model engine and cuda graph runner (#7572 ) Signed-off-by: junq <22017000+QiJune@users.noreply.github.com>	2025-11-11 10:13:45 -08:00
Chenghao Zhang	ec9cf715a2	[None][feat] AutoDeploy: Perf improvement for mamba layers (#8991 ) Signed-off-by: Chenghao Zhang <211069071+nvchenghaoz@users.noreply.github.com> Signed-off-by: Suyog Gupta <41447211+suyoggupta@users.noreply.github.com> Co-authored-by: Suyog Gupta <41447211+suyoggupta@users.noreply.github.com>	2025-11-11 08:27:07 -08:00
Wanli Jiang	ebdd1cc8e0	[TRTLLM-8119][feat] Update doc/tests/chat_template for nano-v2-vlm (#8840 ) Signed-off-by: Wanli Jiang <35160485+Wanli-Jiang@users.noreply.github.com>	2025-11-11 07:48:23 -08:00
mpikulski	b151de4a8f	[TRTLLM-8377][test] unit tests for TorchSampler batched sampling (#9012 ) Signed-off-by: ixlmar <206748156+ixlmar@users.noreply.github.com> Co-authored-by: Robin Kobus <19427718+Funatiq@users.noreply.github.com>	2025-11-11 07:16:42 -08:00
HuiGao-NV	23c388c58b	[https://nvbugs/5616189 ][fix] Make more cases use local cached models (#8935 ) Signed-off-by: Hui Gao <huig@nvidia.com>	2025-11-11 03:14:05 -08:00

1 2 3 4 5 ...

1996 Commits