TensorRT-LLMs

mirror of https://github.com/NVIDIA/TensorRT-LLM.git synced 2026-01-14 06:27:45 +08:00

Author	SHA1	Message	Date
Emma Qiao	3e4f2388a9	[None][infra] Waive failed cases for main branch (#9615 ) Signed-off-by: qqiao <qqiao@nvidia.com>	2025-12-02 15:48:27 +08:00
shuyixiong	1a2118b8fe	[https://nvbugs/5702793 ][fix] Fix uncontiguous tensor view (#9576 ) Signed-off-by: shuyix <219646547+shuyixiong@users.noreply.github.com>	2025-12-02 15:41:32 +08:00
xinhe-nv	ad46d19027	[None][chore] Add failed cases into waives.txt (#9588 ) Signed-off-by: xinhe-nv <200704525+xinhe-nv@users.noreply.github.com>	2025-12-02 14:24:11 +08:00
ruodil	4586b5f42f	[https://nvbugs/5582091 ][test] increase warmup times in testing for multi-gpu cases (#9578 ) Signed-off-by: Ruodi Lu <ruodil@users.noreply.github.com> Co-authored-by: Ruodi Lu <ruodil@users.noreply.github.com>	2025-12-02 14:22:49 +08:00
Wanli Jiang	5657a00ec0	[FMDL-1328][feat] Add support for nano-v3 and super-v3 with pytorch backend (#9261 ) Signed-off-by: Wanli Jiang <35160485+Wanli-Jiang@users.noreply.github.com>	2025-12-02 13:40:20 +08:00
xinhe-nv	3911d0496e	[None][fix] Waive gb200 (#9580 ) Signed-off-by: Xin He (SW-GPU) <200704525+xinhe-nv@users.noreply.github.com>	2025-12-02 12:09:21 +08:00
JunyiXu-nv	9a6df980cd	[https://nvbugs/5703953 ][fix] Use random port for disagg tests (#9582 ) Signed-off-by: Junyi Xu <219237550+JunyiXu-nv@users.noreply.github.com>	2025-12-02 11:40:14 +08:00
Guoming Zhang	6fbe87c8b5	[None][chroe] Polish qwen3-next modeling code. (#8902 ) Signed-off-by: nv-guomingz <137257613+nv-guomingz@users.noreply.github.com>	2025-12-02 11:28:35 +08:00
TensorRT LLM	96a0e14522	[None][infra] Check in most recent lock file from nightly pipeline Signed-off-by: TensorRT LLM <90828364+tensorrt-cicd@users.noreply.github.com>	2025-12-02 03:17:38 +00:00
Iman Tabrizian	356a52edf5	[None][feat] Add support for KVCache reuse for DSv32 (#9383 ) Signed-off-by: Iman Tabrizian <10105175+tabrizian@users.noreply.github.com>	2025-12-02 11:14:30 +08:00
Shijie	dcf5c86720	[None][feat] Unify nvfp4 gemm backend (#8963 ) Signed-off-by: Shijie Wang <jaywan@nvidia.com> Signed-off-by: Yukun He <23156053+hyukn@users.noreply.github.com> Signed-off-by: Shijie <jaywan@nvidia.com> Co-authored-by: Yukun He <23156053+hyukn@users.noreply.github.com>	2025-12-02 11:03:51 +08:00
QI JUN	d11acee22d	[TRTLLM-9085][doc] fix math formula rendering issues in github (#9605 ) Signed-off-by: junq <22017000+QiJune@users.noreply.github.com>	2025-12-02 10:18:16 +08:00
Yuening Li	09c840184c	[None][fix] Prevent YAML partial kv_cache_config from incorrectly overriding the complete kv_cache_config (#9262 ) Signed-off-by: Yuening Li <62227368+Yuening-wa@users.noreply.github.com>	2025-12-02 10:10:08 +08:00
Eran Geva	c9771ebb99	[#9198 ][feat] Refactor dist ops in AutoDeploy (#9301 ) Signed-off-by: Eran Geva <19514940+MrGeva@users.noreply.github.com>	2025-12-02 02:36:32 +08:00
Chenghao Zhang	0a2104dce9	[None][feat] AutoDeploy: Use the router gemm op for nemotron MOE (#9500 ) Signed-off-by: Chenghao Zhang <211069071+nvchenghaoz@users.noreply.github.com>	2025-12-01 10:24:31 -08:00
Venky	639c939a4f	[TRTC-1943][feat] Env vars override support in LLM API (#9104 ) Signed-off-by: Venky Ganesh <23023424+venkywonka@users.noreply.github.com>	2025-12-01 10:04:49 -08:00
brb-nv	f61067cbb5	[None][chore] Defer exposing context parallel configs (#9552 ) Signed-off-by: Balaram Buddharaju <169953907+brb-nv@users.noreply.github.com>	2025-12-01 09:50:02 -08:00
Stefan Niebler	f155812eb0	[TRTLLM-6756][feat] Add Beam Search to TorchSampler (#8509 ) Signed-off-by: Stefan Niebler <82932102+stnie@users.noreply.github.com>	2025-12-01 18:48:04 +01:00
Emma Qiao	b024040df0	[None][infra] Update the pytest options after MI (#9579 ) Signed-off-by: qqiao <qqiao@nvidia.com>	2025-12-02 00:11:30 +08:00
Yiqing Yan	c72919980a	[TRTLLM-6768][infra] Fix params for not updating github status (#6747 ) Signed-off-by: Yiqing Yan <yiqingy@nvidia.com>	2025-12-01 23:51:21 +08:00
Yanchao Lu	078d3a576e	[None][ci] Minor change for Slurm scripts (#9561 ) Signed-off-by: Yanchao Lu <yanchaol@nvidia.com>	2025-12-01 22:52:08 +08:00
Yanchao Lu	7127c4407a	[None][test] [None][test] Waive main branch test failures 12/1 (#9566 ) Signed-off-by: Yanchao Lu <yanchaol@nvidia.com>	2025-12-01 21:54:53 +08:00
Enwei Zhu	90345ad3f3	[None][fix] Skip Allreduce init for Attention DP (#9542 ) Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com>	2025-12-01 21:24:40 +08:00
Shi Xiaowei	48b1d31895	[https://nvbugs/5651854 ][infra] Enable perf metrics during accuracy testing (#9140 )	2025-12-01 20:15:32 +08:00
Martin Marciniszyn Mehringer	974ad56515	[None][chore] reduce the layers of the `devel` docker image (#9077 ) Signed-off-by: Martin Marciniszyn Mehringer <11665257+MartinMarciniszyn@users.noreply.github.com>	2025-12-01 03:56:30 -08:00
alel	4107254c82	[TRTLLM-6222][feat] Several perf opt for cuteDSL nvf4 gemm (#9428 ) Signed-off-by: Yuhan Li <51736452+liyuhannnnn@users.noreply.github.com>	2025-12-01 18:10:45 +08:00
Zhenhuan Chen	24004535fe	[None][chore] refactor disaggregated scripts to use named arguments (#9581 ) Signed-off-by: Zhenhuan Chen <zhenhuanc@nvidia.com>	2025-12-01 17:33:47 +08:00
Yukun He	730eb3d859	[None][fix] Replace hash method with unique_id for cutedsl MoE runners. (#9569 ) Signed-off-by: Yukun He <23156053+hyukn@users.noreply.github.com>	2025-12-01 17:02:33 +08:00
Neta Zmora	bc25fff039	[#9496 ][fix] AutoDeploy: remove auto-tuner from nvfp4_gemm forward (#9497 ) Signed-off-by: Neta Zmora <96238833+nzmora-nvidia@users.noreply.github.com>	2025-12-01 10:04:39 +02:00
Fanrong Li	d69bf9f92a	[None][feat] add chat template kwargs support to longbench-v2 (#9544 ) Signed-off-by: Fanrong Li <23290157+lfr-0531@users.noreply.github.com>	2025-12-01 15:59:13 +08:00
Gaoji Liu	9d2df04a72	[None][doc] fix mtp.py typo (#9307 ) Signed-off-by: liugaoji <757394026@qq.com>	2025-11-30 21:55:13 -08:00
JadoTu	a92af27411	[None][chore] remove qwen3-next accuracy tests (#9534 ) Signed-off-by: jiant <107457950+JadoTu@users.noreply.github.com>	2025-12-01 11:49:37 +08:00
Pengbo Wang	aa3310f64f	[https://nvbugs/5503479 ][fix] Temporarily lower reference accuracy to stabilize CI (#9398 ) Signed-off-by: Pengbo Wang <221450789+pengbowang-nv@users.noreply.github.com>	2025-12-01 11:49:14 +08:00
Enwei Zhu	2e3ac3c48f	[https://nvbugs/5684703 ][fix] Unwaive disagg guided decoding test (#9466 ) Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com>	2025-12-01 11:39:40 +08:00
TensorRT LLM	0b10214f55	[None][infra] Check in most recent lock file from nightly pipeline Signed-off-by: TensorRT LLM <90828364+tensorrt-cicd@users.noreply.github.com>	2025-12-01 03:08:12 +00:00
Yuan Tong	becd44f9bc	[None][fix] Correct virtual memory allocation alignment (#9491 ) Signed-off-by: Yuan Tong <13075180+tongyuantongyu@users.noreply.github.com>	2025-12-01 10:59:19 +08:00
Li Min	1797e91dfd	[TRTLLM-6222][feat] Extend cute_dsl_nvfp4_gemm to sm103. (#9543 ) Signed-off-by: Mindy Li <11663212+limin2021@users.noreply.github.com>	2025-12-01 10:19:36 +08:00
Enwei Zhu	34e2fa5c96	[https://nvbugs/5690172 ][fix] Fix Qwen3-235B ATP accuracy issue with PDL (#9530 ) Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com>	2025-12-01 09:10:21 +08:00
heyuhhh	6e470aab72	[None] [feat] Optimize the algorithm part of RocketKV (#9333 ) Signed-off-by: yuhangh <58161490+heyuhhh@users.noreply.github.com>	2025-12-01 09:04:09 +08:00
xxi	c12e67bb66	[TRTLLM-8958][feat] and [TRTLLM-8960]: create ConfigurableMoE and support TRTLLMGenFusedMoE as backend (#9486 )	2025-12-01 08:37:07 +08:00
Yanchao Lu	694b60d92d	[None][ci] Split H100_PCIe-PyTorch-Post-Merge test stage (#9559 ) Signed-off-by: Yanchao Lu <yanchaol@nvidia.com>	2025-11-30 21:14:18 +08:00
Yanchao Lu	0398875d55	[None][ci] Split H100_PCIe-PyTorch-Post-Merge test stage (#9558 ) Signed-off-by: Yanchao Lu <yanchaol@nvidia.com>	2025-11-30 20:27:13 +08:00
JunyiXu-nv	3f588198dc	[None][fix] Fix port conflict in disagg tests (#9474 ) Signed-off-by: Junyi Xu <219237550+JunyiXu-nv@users.noreply.github.com>	2025-11-30 17:33:22 +08:00
Emma Qiao	c927ccf510	[None][infra] Wiave failed tests for main branch on 11/30 (#9555 ) Signed-off-by: qqiao <qqiao@nvidia.com>	2025-11-30 16:13:20 +08:00
Yanchao Lu	f03641808b	[None][infra] - Request idle time exemption for OCI jobs (#9528 ) Signed-off-by: Yanchao Lu <yanchaol@nvidia.com>	2025-11-30 13:34:09 +08:00
TensorRT LLM	bde69dd1df	[None][infra] Check in most recent lock file from nightly pipeline Signed-off-by: TensorRT LLM <90828364+tensorrt-cicd@users.noreply.github.com>	2025-11-30 03:07:46 +00:00
brb-nv	b77f4ffe54	[TRTLLM-5971][feat] Integrate helix parallelism (#9342 ) Signed-off-by: Balaram Buddharaju <169953907+brb-nv@users.noreply.github.com>	2025-11-29 15:17:30 -08:00
dominicshanshan	6345074686	[None][chore] Weekly mass integration of release/1.1 -- rebase (#9522 ) Signed-off-by: yunruis <205571022+yunruis@users.noreply.github.com> Signed-off-by: Mike Iovine <6158008+mikeiovine@users.noreply.github.com> Signed-off-by: Mike Iovine <miovine@nvidia.com> Signed-off-by: Wangshanshan <30051912+dominicshanshan@users.noreply.github.com> Signed-off-by: qgai <qgai@nvidia.com> Signed-off-by: Balaram Buddharaju <169953907+brb-nv@users.noreply.github.com> Signed-off-by: Yan Chunwei <328693+Superjomn@users.noreply.github.com> Signed-off-by: Junyi Xu <219237550+JunyiXu-nv@users.noreply.github.com> Signed-off-by: Simeng Liu <simengl@nvidia.com> Signed-off-by: nv-guomingz <137257613+nv-guomingz@users.noreply.github.com> Signed-off-by: Jin Li <59594262+liji-nv@users.noreply.github.com> Signed-off-by: Ivy Zhang <25222398+crazydemo@users.noreply.github.com> Signed-off-by: Vincent Zhang <vinczhang@nvidia.com> Signed-off-by: peaceh <103117813+peaceh-nv@users.noreply.github.com> Signed-off-by: Michal Guzek <mguzek@nvidia.com> Signed-off-by: Michal Guzek <moraxu@users.noreply.github.com> Signed-off-by: Chang Liu (Enterprise Products) <9713593+chang-l@users.noreply.github.com> Signed-off-by: leslie-fang25 <leslief@nvidia.com> Signed-off-by: Shunkang <182541032+Shunkangz@users.noreply.github.co> Signed-off-by: junq <22017000+QiJune@users.noreply.github.com> Co-authored-by: yunruis <205571022+yunruis@users.noreply.github.com> Co-authored-by: sunnyqgg <159101675+sunnyqgg@users.noreply.github.com> Co-authored-by: brb-nv <169953907+brb-nv@users.noreply.github.com> Co-authored-by: Yan Chunwei <328693+Superjomn@users.noreply.github.com> Co-authored-by: JunyiXu-nv <219237550+JunyiXu-nv@users.noreply.github.com> Co-authored-by: Simeng Liu <109828133+SimengLiu-nv@users.noreply.github.com> Co-authored-by: Guoming Zhang <137257613+nv-guomingz@users.noreply.github.com> Co-authored-by: Jin Li <59594262+liji-nv@users.noreply.github.com> Co-authored-by: Ivy Zhang <25222398+crazydemo@users.noreply.github.com> Co-authored-by: Vincent Zhang <vcheungyi@163.com> Co-authored-by: peaceh-nv <103117813+peaceh-nv@users.noreply.github.com> Co-authored-by: Michal Guzek <moraxu@users.noreply.github.com> Co-authored-by: Chang Liu <9713593+chang-l@users.noreply.github.com> Co-authored-by: Leslie Fang <leslief@nvidia.com> Co-authored-by: Shunkangz <182541032+Shunkangz@users.noreply.github.com> Co-authored-by: Shunkang <182541032+Shunkangz@users.noreply.github.co> Co-authored-by: QI JUN <22017000+QiJune@users.noreply.github.com>	2025-11-29 21:48:48 +08:00
TensorRT LLM	ae0124ef84	[None][infra] Check in most recent lock file from nightly pipeline Signed-off-by: TensorRT LLM <90828364+tensorrt-cicd@users.noreply.github.com>	2025-11-29 03:07:19 +00:00
Grzegorz Kwasniewski	cff54fcae3	[#8948 ][feat] Support custom sharding config (#9143 ) Signed-off-by: greg-kwasniewski1 <213329731+greg-kwasniewski1@users.noreply.github.com>	2025-11-29 05:28:05 +08:00

1 2 3 4 5 ...

3926 Commits