TensorRT-LLMs

mirror of https://github.com/NVIDIA/TensorRT-LLM.git synced 2026-01-14 06:27:45 +08:00

Author	SHA1	Message	Date
Wangjue Yao	9f283f330b	[None][feat] Support Mooncake transfer engine as a cache transceiver backend (#8309 ) Signed-off-by: wjueyao <wyao123@terpmail.umd.edu> Signed-off-by: Shunkang <182541032+Shunkangz@users.noreply.github.co> Co-authored-by: Shunkang <182541032+Shunkangz@users.noreply.github.co>	2025-12-19 10:09:51 +08:00
Chuang Zhu	e0b2a94309	[None][fix] Fix ready signal in NIXL backend (#10000 ) Signed-off-by: Chuang Zhu <111838961+chuangz0@users.noreply.github.com>	2025-12-19 09:43:40 +08:00
Enwei Zhu	6fe89ea00f	[TRTLLM-9819][perf] Reuse alltoall workspace for CuteDSL MoE output (#9840 ) Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com>	2025-12-18 10:36:38 -08:00
CarstyYou	0b279f4ad4	[https://nvbugs/5456493 ][feat] Add fp8 bmm on sm120 (#9687 ) Signed-off-by: CarstyYou <186021327+CarstyYou@users.noreply.github.com>	2025-12-18 22:57:20 +08:00
Nikita Korobov	3b4f26e4d1	[None][feat] update TRT-LLM Gen MoE for NvFp4 + bias with tileN=256 (#9734 ) Signed-off-by: Nikita Korobov <14355239+nekorobov@users.noreply.github.com>	2025-12-18 11:58:23 +01:00
Perkz Zheng	064b67e40c	[https://nvbugs/5727952 ][fix] a pdl bug in trtllm-gen fmha kernels (#9913 ) Signed-off-by: Perkz Zheng <67892460+PerkzZheng@users.noreply.github.com>	2025-12-16 00:34:37 -08:00
Yihan Wang	6b5ebaae3e	[None][chore] Update internal_cutlass_kernels artifacts (#9992 ) Signed-off-by: Yihan Wang <yihwang@nvidia.com>	2025-12-15 21:15:25 -08:00
ChristinaZ	dff77efa2a	[None][feat] Add routing support for the new model for both cutlass and trtllm moe backend (#9792 ) Signed-off-by: Christina Zhang <83400082+ChristinaZ@users.noreply.github.com>	2025-12-15 19:59:08 -08:00
Anthony Chang	ad12b795c9	[https://nvbugs/5661741 ][fix] Fix accuracy issue in TRTLLM MoE introduced in #9377 (#9999 ) Signed-off-by: Anthony Chang <27950904+rosenrodt@users.noreply.github.com>	2025-12-15 03:31:56 -08:00
Void	dda7658306	[https://nvbugs/5655885 ][fix] fix invalid instruction error in 2shot ar kernel on Ampere (#9394 ) Signed-off-by: Yilin Zhang <18275976+yilin-void@users.noreply.github.com>	2025-12-15 14:22:56 +08:00
Yuxian Qiu	7588029763	[None][feat] Async pp send for PPCommTorch. (#9976 ) Signed-off-by: Yuxian Qiu <142763828+yuxianq@users.noreply.github.com>	2025-12-15 14:03:46 +08:00
Anthony Chang	3be5f3abcf	[None][fix] Fix regex pattern for cubin filtering (#9914 ) Signed-off-by: Anthony Chang <27950904+rosenrodt@users.noreply.github.com>	2025-12-15 10:02:48 +08:00
Simeng Liu	f21e2b3329	[TRTLLM-9601][feat] Expose mmKeys for multimodal to integrate with dynamo. (#9604 ) Signed-off-by: SimengLiu-nv <simengl@nvidia.com>	2025-12-15 08:42:30 +08:00
Balaram Buddharaju	9a1750c8f9	[TRTLLM-9493][noop] Refactor fusedMoeCommKernels to enable code sharing (#9922 ) Signed-off-by: Balaram Buddharaju <169953907+brb-nv@users.noreply.github.com>	2025-12-14 11:29:30 -08:00
nvxuanyuc	a5a37227d6	[None][feat] Fused kernels (qknormrope + moe routing) and two-model MTP support for glm4moe (#9852 ) Signed-off-by: Xuanyu Chen <xuanyuc@nvidia.com>	2025-12-14 10:47:24 +08:00
Faraz	64d7796234	[None][chore] Add namespace to header to fix tot failure (#9973 )	2025-12-13 12:18:10 -05:00
Faraz	98d72c7648	[None][feat] spark cublas LUT table for llama-8b-bf16 perf (#9811 ) Signed-off-by: Faraz Khoubsirat <58580514+farazkh80@users.noreply.github.com>	2025-12-12 22:37:56 -05:00
Balaram Buddharaju	461446045e	[TRTLLM-9493][feat] Add helixPostProcessNative kernel for cp_dim=2 (#9924 ) Signed-off-by: Balaram Buddharaju <169953907+brb-nv@users.noreply.github.com>	2025-12-12 16:49:25 -08:00
tburt-nv	6147452158	[https://nvbugs/4141427 ][chore] Add more details to LICENSE file (#9881 ) Signed-off-by: Tyler Burt <195370667+tburt-nv@users.noreply.github.com>	2025-12-13 08:35:31 +08:00
Chuang Zhu	4cc4cbe926	[https://nvbugs/5716787 ][fix] terminate nixl running when exiting (#9785 ) Signed-off-by: Chuang Zhu <111838961+chuangz0@users.noreply.github.com> Co-authored-by: Patrice Castonguay <55748270+pcastonguay@users.noreply.github.com>	2025-12-12 11:15:02 -05:00
Chuang Zhu	9c59c9f920	[https://nvbugs/5643787 ][fix] remove the war path for notify to itself (#9834 ) Signed-off-by: Chuang Zhu <111838961+chuangz0@users.noreply.github.com>	2025-12-12 11:10:05 -05:00
Yihan Wang	9df4dad3b6	[None][fix] Introduce inline namespace to avoid symbol collision (#9541 ) Signed-off-by: Yihan Wang <yihwang@nvidia.com>	2025-12-12 23:32:15 +08:00
Yukun He	a6263a127f	[None][chore] Degrade log level in cublas fp4 runner when using default configs (#9951 ) Signed-off-by: Yukun He <23156053+hyukn@users.noreply.github.com>	2025-12-12 18:53:54 +08:00
ChristinaZ	b8a5159fad	[None][feat] Enable PDL for indexer topK (#9843 ) Signed-off-by: Christina Zhang <83400082+ChristinaZ@users.noreply.github.com>	2025-12-11 14:31:23 +08:00
Brian K. Ryu	8cec2da375	[None][feat] Port fp4 quantization kernel optimization from FlashInfer (#9854 ) Signed-off-by: Brian Ryu <bryu@nvidia.com> Co-authored-by: Nikita Korobov <14355239+nekorobov@users.noreply.github.com>	2025-12-10 13:13:48 +01:00
Perkz Zheng	e34302986d	[https://nvbugs/5727952 ][fix] PDL bugs with trtllm-gen fmha kernels (#9863 ) Signed-off-by: Perkz Zheng <67892460+PerkzZheng@users.noreply.github.com>	2025-12-10 01:47:03 -08:00
Bo Li	9d3c675a0b	[None][chore] Support larger topK for NVLinkOneSided AlltoAll. (#9816 ) Signed-off-by: Bo Li <22713281+bobboli@users.noreply.github.com>	2025-12-10 11:10:55 +08:00
Jiagan Cheng	4a3a66b124	[https://nvbugs/5677746 ][fix] Use first PP rank's schedule result in other PP ranks to fix PP hang (#9659 ) Signed-off-by: Jiagan Cheng <jiaganc@nvidia.com>	2025-12-08 18:43:52 -08:00
Tri Dao	1c4dacb19a	[None][fix] Fix PDL in TRTLLM MOE for dsv3 (#9799 ) Signed-off-by: Tri Dao <daominhtri0503@gmail.com>	2025-12-09 10:16:29 +08:00
Jhao-Ting Chen	0a09465089	[https://nvbugs/5567586 ][feat] Ampere xqa swa specdec for GPT-OSS Eagle3-one-model (#8383 ) Signed-off-by: Jhao-Ting Chen <jhaotingc@nvidia.com>	2025-12-08 11:16:05 -08:00
Ludwig Schneider	41ce14ab04	[None][feat] Enable NCCL_SYMMETRIC as default fallback for AllReduce (#9314 ) Signed-off-by: Ludwig Schneider <lschneider@nvidia.com>	2025-12-07 09:43:26 -08:00
Enwei Zhu	7cd5a67e25	[TRTLLM-9372][feat] Enable CuteDSL MoE with Large EP (#9592 ) Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com>	2025-12-05 22:08:52 -08:00
QI JUN	0915c4e3a1	[TRTLLM-9086][doc] Clean up TODOs in documentation (#9292 ) Signed-off-by: junq <22017000+QiJune@users.noreply.github.com> Signed-off-by: Mike Iovine <6158008+mikeiovine@users.noreply.github.com> Signed-off-by: Mike Iovine <miovine@nvidia.com>	2025-12-05 17:50:12 -05:00
Iman Tabrizian	9425f7fe3a	[https://nvbugs/5601682 ][fix] Fix cacheTransceiver hang (#9311 ) Signed-off-by: Iman Tabrizian <10105175+tabrizian@users.noreply.github.com> Signed-off-by: Mike Iovine <6158008+mikeiovine@users.noreply.github.com> Signed-off-by: Mike Iovine <miovine@nvidia.com>	2025-12-05 17:50:12 -05:00
zackyoray	398d24232d	[None][feat] Add NIXL-LIBFABRIC support (#9225 ) Signed-off-by: Yoray Zack <62789610+zackyoray@users.noreply.github.com> Signed-off-by: zackyoray <yorayz@nvidia.com>	2025-12-04 15:38:06 +08:00
Perkz Zheng	992781dc7b	[None][feat] update trtllm-gen nvfp4 kernels with better performance (#9510 ) Signed-off-by: Perkz Zheng <67892460+PerkzZheng@users.noreply.github.com>	2025-12-03 21:35:49 +08:00
brb-nv	43f6ad7813	[https://nvbugs/5708475 ][fix] Fix e2e eval accuracy for helix parallelism (#9647 ) Signed-off-by: Balaram Buddharaju <169953907+brb-nv@users.noreply.github.com>	2025-12-03 15:13:59 +08:00
Bo Li	8b5ededc83	[TRTLLM-9391][chore] Automatically estimate required workspace. (#9535 ) Signed-off-by: Bo Li <22713281+bobboli@users.noreply.github.com>	2025-12-03 12:49:38 +08:00
Thor Johnsen	95049eea86	[https://nvbugs/5627710 ][fix] Fix synchronization bugs in KvCacheTransferManager that can cause corrupted blocks (#9056 ) Signed-off-by: thorjohnsen <41591019+thorjohnsen@users.noreply.github.com> Signed-off-by: Thor Johnsen <41591019+thorjohnsen@users.noreply.github.com> Co-authored-by: Iman Tabrizian <10105175+tabrizian@users.noreply.github.com> Co-authored-by: Robin Kobus <19427718+Funatiq@users.noreply.github.com>	2025-12-02 09:10:21 -06:00
Wanli Jiang	5657a00ec0	[FMDL-1328][feat] Add support for nano-v3 and super-v3 with pytorch backend (#9261 ) Signed-off-by: Wanli Jiang <35160485+Wanli-Jiang@users.noreply.github.com>	2025-12-02 13:40:20 +08:00
Iman Tabrizian	356a52edf5	[None][feat] Add support for KVCache reuse for DSv32 (#9383 ) Signed-off-by: Iman Tabrizian <10105175+tabrizian@users.noreply.github.com>	2025-12-02 11:14:30 +08:00
Yuan Tong	becd44f9bc	[None][fix] Correct virtual memory allocation alignment (#9491 ) Signed-off-by: Yuan Tong <13075180+tongyuantongyu@users.noreply.github.com>	2025-12-01 10:59:19 +08:00
Enwei Zhu	34e2fa5c96	[https://nvbugs/5690172 ][fix] Fix Qwen3-235B ATP accuracy issue with PDL (#9530 ) Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com>	2025-12-01 09:10:21 +08:00
heyuhhh	6e470aab72	[None] [feat] Optimize the algorithm part of RocketKV (#9333 ) Signed-off-by: yuhangh <58161490+heyuhhh@users.noreply.github.com>	2025-12-01 09:04:09 +08:00
brb-nv	b77f4ffe54	[TRTLLM-5971][feat] Integrate helix parallelism (#9342 ) Signed-off-by: Balaram Buddharaju <169953907+brb-nv@users.noreply.github.com>	2025-11-29 15:17:30 -08:00
dominicshanshan	6345074686	[None][chore] Weekly mass integration of release/1.1 -- rebase (#9522 ) Signed-off-by: yunruis <205571022+yunruis@users.noreply.github.com> Signed-off-by: Mike Iovine <6158008+mikeiovine@users.noreply.github.com> Signed-off-by: Mike Iovine <miovine@nvidia.com> Signed-off-by: Wangshanshan <30051912+dominicshanshan@users.noreply.github.com> Signed-off-by: qgai <qgai@nvidia.com> Signed-off-by: Balaram Buddharaju <169953907+brb-nv@users.noreply.github.com> Signed-off-by: Yan Chunwei <328693+Superjomn@users.noreply.github.com> Signed-off-by: Junyi Xu <219237550+JunyiXu-nv@users.noreply.github.com> Signed-off-by: Simeng Liu <simengl@nvidia.com> Signed-off-by: nv-guomingz <137257613+nv-guomingz@users.noreply.github.com> Signed-off-by: Jin Li <59594262+liji-nv@users.noreply.github.com> Signed-off-by: Ivy Zhang <25222398+crazydemo@users.noreply.github.com> Signed-off-by: Vincent Zhang <vinczhang@nvidia.com> Signed-off-by: peaceh <103117813+peaceh-nv@users.noreply.github.com> Signed-off-by: Michal Guzek <mguzek@nvidia.com> Signed-off-by: Michal Guzek <moraxu@users.noreply.github.com> Signed-off-by: Chang Liu (Enterprise Products) <9713593+chang-l@users.noreply.github.com> Signed-off-by: leslie-fang25 <leslief@nvidia.com> Signed-off-by: Shunkang <182541032+Shunkangz@users.noreply.github.co> Signed-off-by: junq <22017000+QiJune@users.noreply.github.com> Co-authored-by: yunruis <205571022+yunruis@users.noreply.github.com> Co-authored-by: sunnyqgg <159101675+sunnyqgg@users.noreply.github.com> Co-authored-by: brb-nv <169953907+brb-nv@users.noreply.github.com> Co-authored-by: Yan Chunwei <328693+Superjomn@users.noreply.github.com> Co-authored-by: JunyiXu-nv <219237550+JunyiXu-nv@users.noreply.github.com> Co-authored-by: Simeng Liu <109828133+SimengLiu-nv@users.noreply.github.com> Co-authored-by: Guoming Zhang <137257613+nv-guomingz@users.noreply.github.com> Co-authored-by: Jin Li <59594262+liji-nv@users.noreply.github.com> Co-authored-by: Ivy Zhang <25222398+crazydemo@users.noreply.github.com> Co-authored-by: Vincent Zhang <vcheungyi@163.com> Co-authored-by: peaceh-nv <103117813+peaceh-nv@users.noreply.github.com> Co-authored-by: Michal Guzek <moraxu@users.noreply.github.com> Co-authored-by: Chang Liu <9713593+chang-l@users.noreply.github.com> Co-authored-by: Leslie Fang <leslief@nvidia.com> Co-authored-by: Shunkangz <182541032+Shunkangz@users.noreply.github.com> Co-authored-by: Shunkang <182541032+Shunkangz@users.noreply.github.co> Co-authored-by: QI JUN <22017000+QiJune@users.noreply.github.com>	2025-11-29 21:48:48 +08:00
Matthias Jouanneaux	f8dd494536	[None][perf] Helix: improve all-to-all perf for large CP size (#9494 ) Signed-off-by: Matthias Jouanneaux <mjoux@nvidia.com> Signed-off-by: Zheyu Fu <zheyuf@NVIDIA.com> Co-authored-by: Zheyu Fu <zheyuf@nvidia.com>	2025-11-28 07:24:55 -08:00
Chang Liu	389b73c349	[None][fix] Remove FP8 K/V buffer from TRTLLM sparse MLA attention kernel (#9529 ) Signed-off-by: Chang Liu (Enterprise Products) <9713593+chang-l@users.noreply.github.com>	2025-11-28 15:26:52 +08:00
Kaiyu Xie	85b4c92d60	[None] [chore] Update to cutlass 4.3 (#8637 ) Signed-off-by: Kaiyu Xie <26294424+kaiyux@users.noreply.github.com>	2025-11-28 08:54:34 +08:00
Patrice Castonguay	1b2da426cd	[https://nvbugs/5680310 ][fix] Fix ctx only timed out test (#9410 ) Signed-off-by: Patrice Castonguay <55748270+pcastonguay@users.noreply.github.com>	2025-11-27 11:21:21 +08:00

1 2 3 4 5 ...

852 Commits