TensorRT-LLMs

mirror of https://github.com/NVIDIA/TensorRT-LLM.git synced 2026-01-14 06:27:45 +08:00

Author	SHA1	Message	Date
Cao Dong	62cea877b1	[None][feat] Move StreamGeneration to scaffolding main directory (#8347 ) Signed-off-by: Dong Cao <docao@nvidia.com>	2025-10-14 17:16:04 +08:00
Yuxian Qiu	3450fe9944	[None][fix] Fix dummy load format for key models. (#7993 ) Signed-off-by: Yuxian Qiu <142763828+yuxianq@users.noreply.github.com>	2025-10-14 11:18:39 +08:00
Aurelien Chartier	9bc055faf1	[None][fix] Disable DeepGEMM for Qwen3 MoE Attention layers (#8087 ) Signed-off-by: Aurelien Chartier <2567591+achartier@users.noreply.github.com>	2025-10-13 18:38:47 -07:00
Lucas Liebenwein	22aa4ac08c	[None][feat] AutoDeploy: VLMs with subgraphs + cudagraph/compile (#8203 ) Signed-off-by: Lucas Liebenwein <11156568+lucaslie@users.noreply.github.com>	2025-10-13 17:34:09 -07:00
Zheyu Fu	bac665e650	[TRTLLM-7412][feat] Turn off spec decode when the rolling average acceptance length drops below threshold. (#7283 ) Signed-off-by: Zheyu Fu <zheyuf@NVIDIA.com>	2025-10-13 15:51:14 -07:00
Grzegorz Kwasniewski	ea4658197f	[TRTLLM-6342][feat] Factory TP sharding of quantized models (#8123 ) Signed-off-by: greg-kwasniewski1 <213329731+greg-kwasniewski1@users.noreply.github.com> Co-authored-by: Suyog Gupta <41447211+suyoggupta@users.noreply.github.com>	2025-10-13 14:04:46 -07:00
Yuxian Qiu	bd740c9ba6	[None][fix] Avoid unnecessary concat in attn_output_gate case. (#8094 ) Signed-off-by: Yuxian Qiu <142763828+yuxianq@users.noreply.github.com>	2025-10-13 12:59:40 -07:00
Robin Kobus	db8c63b9b1	[TRTLLM-4517] [feat] Additional model outputs (#7206 ) Signed-off-by: Robin Kobus <19427718+Funatiq@users.noreply.github.com>	2025-10-13 15:33:18 +02:00
Cao Dong	d882c92a84	[None][fix] Fix EventLoopShutdownError (#8260 ) Signed-off-by: Dong Cao <docao@nvidia.com>	2025-10-13 17:31:33 +08:00
Po-Han Huang (NVIDIA)	6fc6f70a68	[https://nvbugs/5441729 ][test] Fix test_modeling_llama_min_latency.py failures (#7478 ) Signed-off-by: Po-Han Huang <pohanh@nvidia.com>	2025-10-13 15:35:02 +08:00
Leslie Fang	8d1b068b1a	[TRTLLM-8477][chore] Replace KvCacheConfigCpp with KvCacheConfig inside PyExecutor (#8259 ) Signed-off-by: leslie-fang25 <leslief@nvidia.com>	2025-10-13 14:55:36 +08:00
DylanChen-NV	d6e315e9ff	[None][feat] Add torch compile support for cuda core GEMM OP (#8261 ) Signed-off-by: Dylan Chen <191843203+DylanChen-NV@users.noreply.github.com>	2025-10-12 20:57:17 -07:00
amitz-nv	fac47e2826	[https://nvbugs/5510879 ][fix] Fix pytorch & TRT-python flows fused LoRA adapter modules weight split with TP>1 (#8063 ) Signed-off-by: Amit Zuker <203509407+amitz-nv@users.noreply.github.com>	2025-10-12 12:29:52 -07:00
kris1025	a7ea544dbe	[TRTLLM-7384][feat] enable rejection sampling for CDL (#7731 ) Signed-off-by: linquanh <linquanh@nvidia.com>	2025-10-12 20:38:48 +08:00
Ziyi Xiong	efd4ffa03b	[https://nvbugs/5534705 ][fix] Skip unnecessary CUDA graph capture (#8050 ) Signed-off-by: ziyixiong-nv <219238287+ziyixiong-nv@users.noreply.github.com>	2025-10-11 13:26:55 +08:00
Yilin Fan	2695d70d42	[None][feat] Add request timing breakdown option in benchmark_serving (#8128 ) Signed-off-by: nv-yilinf <206948969+nv-yilinf@users.noreply.github.com>	2025-10-10 09:24:54 -07:00
QI JUN	48c15d805c	[https://nvbugs/5558167 ][fix] update canceled_req_ids correctly for canceled requests (#8207 ) Signed-off-by: junq <22017000+QiJune@users.noreply.github.com>	2025-10-10 18:58:26 +08:00
HuiGao-NV	795a051765	[None][chore] Print log with time for starting to load safetensor weights (#8218 ) Signed-off-by: Hui Gao <huig@nvidia.com>	2025-10-10 13:54:54 +08:00
mpikulski	7b6803b6e9	[TRTLLM-7769][chore] document the role of 'd2t' (#8174 ) Signed-off-by: ixlmar <206748156+ixlmar@users.noreply.github.com>	2025-10-09 13:13:50 -04:00
Lizhi Zhou	fdf29ab8fa	[TRTLLM-7846][feat] Http disagg-cluster management implemention (#7869 ) Signed-off-by: Lizhi Zhou <1432185+reasonsolo@users.noreply.github.com>	2025-10-09 09:44:01 +08:00
dongfengy	9f2a3ae88c	[None][fix] Restrict tinygemm use to certain SMs (#8182 ) Signed-off-by: Dongfeng Yu <dongfengy@nvidia.com> Signed-off-by: dongfengy <99041270+dongfengy@users.noreply.github.com>	2025-10-08 17:55:57 -07:00
mpikulski	8298e93bd8	[TRTLLM-8414][chore] BREAKING CHANGE: refine sampling strategy selection (#8132 ) Signed-off-by: ixlmar <206748156+ixlmar@users.noreply.github.com>	2025-10-08 15:46:50 +02:00
Sergey Klevtsov	017583a949	[https://nvbugs/5488576 ][fix] Propagate disable_finalize_fusion config flag in WIDEEP MoE backend (#8141 ) Signed-off-by: Sergey Klevtsov <sklevtsov@nvidia.com>	2025-10-07 14:44:54 -07:00
Mike Iovine	7facac077b	[None][fix] Fix MTP illegal memory access (#8161 ) Signed-off-by: Mike Iovine <6158008+mikeiovine@users.noreply.github.com>	2025-10-07 14:02:55 -04:00
Faraz	27a5091fcb	[None][feat] GPT-OSS Sm120/Sm121 Support (#7937 ) Signed-off-by: Perkz Zheng <67892460+PerkzZheng@users.noreply.github.com> Signed-off-by: list <58580514+farazkh80@users.noreply.github.com> Signed-off-by: Vincent Huang <vincenth@nvidia.com> Co-authored-by: Perkz Zheng <67892460+PerkzZheng@users.noreply.github.com> Co-authored-by: Vincent Huang <vincenth@nvidia.com>	2025-10-06 16:59:06 -04:00
Izzy Putterman	f2657c1ae9	[None][fix] Eagle: Attention DP (#7939 ) Signed-off-by: Izzy Putterman <iputterman@nvidia.com>	2025-10-06 16:52:35 -04:00
mpikulski	98b3af4d4e	[TRTLLM-8413][chore] resolve sampling defaults in OpenAI API backend (#8121 ) Signed-off-by: ixlmar <206748156+ixlmar@users.noreply.github.com>	2025-10-06 06:09:43 -07:00
Yan Chunwei	54ab9767b5	[None][chore] fix llmargs conflict (#8152 ) Signed-off-by: Yan Chunwei <328693+Superjomn@users.noreply.github.com>	2025-10-06 02:34:27 -07:00
Yan Chunwei	fb51de6c2e	[TRTLLM-8189][chore] enhance GenerationExecutor with RPC (part1) (#5543 ) Signed-off-by: Yan Chunwei <328693+Superjomn@users.noreply.github.com> Signed-off-by: chunweiy <chunweiy@nvidia.com> Signed-off-by: Superjomn <328693+Superjomn@users.noreply.github.com> Signed-off-by: chunweiy <328693+Superjomn@users.noreply.github.com>	2025-10-05 17:28:20 +08:00
Frida Hou	f6654f26a4	[#5255 ][autodeploy] Update FuseAllreduceResidualRMSNorm to use pattern matcher utility; remove fuse_collective (#7545 ) Signed-off-by: Frida Hou <201670829+Fridah-nv@users.noreply.github.com> Signed-off-by: Fridah-nv <201670829+Fridah-nv@users.noreply.github.com>	2025-10-05 01:15:46 -07:00
Frida Hou	744246d316	[None][autodeploy] small refactors on attention matching (#8079 ) Signed-off-by: Frida Hou <201670829+Fridah-nv@users.noreply.github.com> Signed-off-by: Fridah-nv <201670829+Fridah-nv@users.noreply.github.com>	2025-10-03 22:00:27 -07:00
Jonas Yang CN	88ea2c4ee9	[TRTLLM-7349][feat] Adding new orchestrator type -- ray (#7520 ) Signed-off-by: Erin Ho <14718778+hchings@users.noreply.github.com> Co-authored-by: Yuan Tong <13075180+tongyuantongyu@users.noreply.github.com> Co-authored-by: Erin Ho <14718778+hchings@users.noreply.github.com>	2025-10-04 08:12:24 +08:00
Lucas Liebenwein	9d098e3142	[None][feat] AutoDeploy: graph/module inputs with kwargs instead of args (#8137 ) Signed-off-by: Lucas Liebenwein <11156568+lucaslie@users.noreply.github.com>	2025-10-03 16:53:42 -07:00
Michal Guzek	38da871db3	[TRTLLM-6496][feat] Add LoRa Torch tests for the latest NIM model list (#6806 ) Signed-off-by: Michal Guzek <mguzek@nvidia.com>	2025-10-03 12:10:48 -07:00
Mike Iovine	ca8291133a	[None][fix] Fix MTP 2-model (#8115 ) Signed-off-by: Mike Iovine <6158008+mikeiovine@users.noreply.github.com> Signed-off-by: Mike Iovine <miovine@nvidia.com>	2025-10-03 10:13:50 -07:00
Lucas Liebenwein	aaf2c3c2e5	[None][feat] AutoDeploy: compiler backends based on nn.Module (#8126 ) Signed-off-by: Lucas Liebenwein <11156568+lucaslie@users.noreply.github.com>	2025-10-03 12:14:21 -04:00
Ziyi Xiong	7bc2d9e993	[https://nvbugs/5537878 ][fix] Reserve an extra slot for padded batch (#7998 ) Signed-off-by: ziyixiong-nv <219238287+ziyixiong-nv@users.noreply.github.com>	2025-10-03 08:42:52 -07:00
Suyog Gupta	d8215241d8	[None][feat] AutoDeploy add autotuning when capturing cudagraphs (#8120 ) Signed-off-by: Suyog Gupta <41447211+suyoggupta@users.noreply.github.com>	2025-10-03 08:33:21 -07:00
Aurelien Chartier	9db4366903	[None][fix] Fix Qwen3 FP8 per-tensor when requesting TRTLLM-GEN MoE backend (#8075 ) Signed-off-by: Aurelien Chartier <2567591+achartier@users.noreply.github.com>	2025-10-03 07:52:52 -07:00
Lucas Liebenwein	5faa5e9dd8	[None][feat] AutoDeploy: dive deeper into token generation bugs + enable_block_reuse (#8108 ) Signed-off-by: Lucas Liebenwein <11156568+lucaslie@users.noreply.github.com>	2025-10-03 04:57:26 -07:00
Nikita Korobov	9b3d7cc3e6	[None][feat] Update TRT-LLM Gen MoE kernels (#7970 ) Signed-off-by: Nikita Korobov <14355239+nekorobov@users.noreply.github.com>	2025-10-03 09:22:45 +08:00
Yilin Fan	01423ac183	[None][feat] perf_metrics endpoint functionality improvement (#8005 ) Signed-off-by: Yilin Fan <206948969+nv-yilinf@users.noreply.github.com> Signed-off-by: nv-yilinf <206948969+nv-yilinf@users.noreply.github.com>	2025-10-02 17:43:25 -07:00
Grzegorz Kwasniewski	a5b59fd31d	[TRTLLM-6342][bug] Patched incorrect starcoder tp config (#8118 ) Signed-off-by: greg-kwasniewski1 <213329731+greg-kwasniewski1@users.noreply.github.com>	2025-10-02 18:41:59 -04:00
Daniel Cámpora	ab433b7228	[None][fix] Fix access to new tokens in sampler. (#7958 ) Signed-off-by: Daniel Campora <961215+dcampora@users.noreply.github.com>	2025-10-02 15:41:21 -04:00
Patrice Castonguay	fefa7d8fa3	[None][feat] Support for cancelling requests with disaggregation (#8114 ) Signed-off-by: Shunkang <182541032+Shunkangz@users.noreply.github.co> Signed-off-by: Patrice Castonguay <55748270+pcastonguay@users.noreply.github.com> Co-authored-by: Shunkang <182541032+Shunkangz@users.noreply.github.co>	2025-10-02 11:04:26 -07:00
dongfengy	6568e565db	[TRTLLM-7775][feat] Integrate tinygemm2 for gpt-oss (#7916 ) Signed-off-by: Dongfeng Yu <dongfengy@nvidia.com> Signed-off-by: dongfengy <99041270+dongfengy@users.noreply.github.com> Co-authored-by: Jin Li <59594262+liji-nv@users.noreply.github.com>	2025-10-02 10:47:04 -07:00
yifeizhang-c	34d158b6da	[TRTLLM-6589][feat] Support CUDA graph for DeepEP (#7514 ) Signed-off-by: Yifei Zhang <219273404+yifeizhang-c@users.noreply.github.com>	2025-10-02 10:13:24 -07:00
mpikulski	fc7f78c400	[TRTLLM-8269][test] do not explicitly pass temperature=0 to select greedy sampling (#8110 ) Signed-off-by: ixlmar <206748156+ixlmar@users.noreply.github.com>	2025-10-02 10:20:32 +02:00
Chang Liu	726ac07cc0	[https://nvbugs/5549081 ][fix] Fix device id assignment for some vision models (#8070 ) Signed-off-by: Chang Liu (Enterprise Products) <9713593+chang-l@users.noreply.github.com> Signed-off-by: Chang Liu <9713593+chang-l@users.noreply.github.com>	2025-10-01 23:28:05 -04:00
brb-nv	bd3d0ad233	[TRTLLM-7733][feat] Executor changes to support helix parallelism (#7972 ) Signed-off-by: Balaram Buddharaju <169953907+brb-nv@users.noreply.github.com>	2025-10-01 22:13:03 -04:00

1 2 3 4 5 ...

1386 Commits