TensorRT-LLMs

mirror of https://github.com/NVIDIA/TensorRT-LLM.git synced 2026-02-06 11:11:36 +08:00

Author	SHA1	Message	Date
Yiqing Yan	59b05dc0a8	[None][chore] Bump version to 1.2.0rc7 (#10216 ) Signed-off-by: Yiqing Yan <yiqingy@nvidia.com>	2025-12-23 15:07:47 +08:00
Harshini Komali	d691371eaf	[TRTLLM-9091] [feat] Replace GenAI-Perf with AIPerf (#9310 ) Signed-off-by: lkomali <lkomali@nvidia.com> Signed-off-by: Harshini Komali <157742537+lkomali@users.noreply.github.com> Co-authored-by: Kaiyu Xie <26294424+kaiyux@users.noreply.github.com>	2025-12-23 13:25:55 +08:00
fredricz-20070104	621156ad44	[None][chore] Fix GB300 support issues (#10196 ) Signed-off-by: FredricZ-2007 <226039983+fredricz-20070104@users.noreply.github.com> Signed-off-by: fredricz-20070104 <226039983+fredricz-20070104@users.noreply.github.com>	2025-12-23 10:42:41 +08:00
bhsueh_NV	cd4b4f43fa	[None][feat] Support Eagle3 on Mistral Large3 (#9971 ) Signed-off-by: bhsueh <11360707+byshiue@users.noreply.github.com>	2025-12-21 10:25:45 -05:00
Kaiyu Xie	5a611cb8f5	[None] [feat] Enhancements to slurm scripts (#10112 ) Signed-off-by: Kaiyu Xie <26294424+kaiyux@users.noreply.github.com>	2025-12-21 10:24:56 -05:00
Bo Li	a66eeab537	[TRTLLM-9805][feat] Skip Softmax Attention. (#9821 ) Signed-off-by: Bo Li <22713281+bobboli@users.noreply.github.com> Signed-off-by: Tian Zheng <29906817+Tom-Zheng@users.noreply.github.com> Co-authored-by: Tian Zheng <29906817+Tom-Zheng@users.noreply.github.com>	2025-12-21 02:52:42 -05:00
Yuxian Qiu	3b3069b390	[https://nvbugs/5747930 ][fix] Use offline tokenizer for whisper models. (#10121 ) Signed-off-by: Yuxian Qiu <142763828+yuxianq@users.noreply.github.com>	2025-12-20 09:42:07 +08:00
Anish Shanbhag	7c82605327	[None][fix] enable KV cache reuse for config database (#10094 )	2025-12-19 15:16:56 -08:00
Venky	dfa11d810e	[TRTC-102][docs] `--extra_llm_api_options`->`--config` in docs/examples/tests (#10005 )	2025-12-19 13:48:43 -05:00
tcherckez-nvidia	9f6abaf59f	[#9640 ][feat] Migrate model registry to v2.0 format with composable configs (#9836 ) Signed-off-by: Tal Cherckez <127761168+tcherckez-nvidia@users.noreply.github.com>	2025-12-19 05:30:02 -08:00
Pengyun Lin	ac03915dc3	[TRTLLM-9604][feat] DS R1 & V3.1 tool parser (#10010 ) Signed-off-by: Pengyun Lin <81065165+LinPoly@users.noreply.github.com>	2025-12-19 17:20:03 +08:00
Anish Shanbhag	91a9ae42d2	[TRTC-71][feat] Add regression testing for config database (#9832 ) Signed-off-by: Anish Shanbhag <ashanbhag@nvidia.com>	2025-12-18 16:15:38 -08:00
Lucas Liebenwein	76ec820465	[#7532 ][feat] AutoDeploy: gather logits before lm head (#9962 ) Signed-off-by: Lucas Liebenwein <11156568+lucaslie@users.noreply.github.com> Co-authored-by: Chenghao Zhang <211069071+nvchenghaoz@users.noreply.github.com>	2025-12-17 19:50:13 -08:00
Kaiyu Xie	02fd13448b	[None] [feat] Enhancements to slurm scripts (#10031 ) Signed-off-by: Kaiyu Xie <26294424+kaiyux@users.noreply.github.com>	2025-12-16 19:31:27 -08:00
William Zhang	28b02b4f5a	[None][docs] Add README for Nemotron Nano v3 (#10017 ) Signed-off-by: William Zhang <133824995+2ez4bz@users.noreply.github.com> Signed-off-by: Wanli Jiang <35160485+Wanli-Jiang@users.noreply.github.com> Co-authored-by: Wanli Jiang <35160485+Wanli-Jiang@users.noreply.github.com>	2025-12-15 22:17:24 -08:00
Yukun He	9e7182b603	[TRTLLM-9615][feat] Implement a distributed tuning system (#9621 ) Four distinct strategies are implemented to accommodate different distributed tuning scenarios, including BROADCAST, INDEPENDENT, MERGE, PARALLEL. * Distributed tuning is disabled by default, with the INDEPENDENT strategy as the fallback. This conservative approach prevents unexpected behavior in standard use cases. * Only operations with significant tuning time overhead have been assigned the PARALLEL strategy, which allows the same tensor parallelism (TP) rank to tune tactics concurrently across different ranks. This targeted approach balances performance gains with stability. * Operations with nested tuning structures, such as NVFP4GemmUnifiedRunner, currently support only the INDEPENDENT strategy. This restriction exists because the synchronization mechanism is optimized only for leaf operations and doesn't yet handle nested hierarchies. Signed-off-by: Yukun He <23156053+hyukn@users.noreply.github.com>	2025-12-15 21:08:53 +08:00
Kaiyu Xie	ef4ea955b2	[None] [fix] Fix slrum scripts (#10007 ) Signed-off-by: Kaiyu Xie <26294424+kaiyux@users.noreply.github.com>	2025-12-15 04:20:53 -08:00
Kaiyu Xie	504ede707e	[None] [fix] Fix nsys_on argument for slurm scripts (#9995 ) Signed-off-by: Kaiyu Xie <26294424+kaiyux@users.noreply.github.com>	2025-12-14 22:41:30 -08:00
JunyiXu-nv	af899d2fe7	[TRTLLM-9860][doc] Add docs and examples for Responses API (#9946 ) Signed-off-by: Junyi Xu <219237550+JunyiXu-nv@users.noreply.github.com>	2025-12-14 21:46:13 -08:00
Kaiyu Xie	0788635d6c	[TRTLLM-9762] [doc] Update documents for GB300 NVL72 (#9987 ) Signed-off-by: Kaiyu Xie <26294424+kaiyux@users.noreply.github.com>	2025-12-14 19:30:28 -08:00
Simeng Liu	f21e2b3329	[TRTLLM-9601][feat] Expose mmKeys for multimodal to integrate with dynamo. (#9604 ) Signed-off-by: SimengLiu-nv <simengl@nvidia.com>	2025-12-15 08:42:30 +08:00
Mike Iovine	383b13e0e5	[None][feat] Implement sampling on 1-model EAGLE3 (#9885 ) Signed-off-by: Mike Iovine <6158008+mikeiovine@users.noreply.github.com> Signed-off-by: Mike Iovine <miovine@nvidia.com>	2025-12-13 07:38:22 -08:00
Balaram Buddharaju	6a6e41f802	[TRTLLM-9468][chore] Update disagg benchmarking scripts to support context parallelism (#9720 ) Signed-off-by: Balaram Buddharaju <169953907+brb-nv@users.noreply.github.com>	2025-12-12 22:29:41 -08:00
bhsueh_NV	e49c70f6df	[None][feat] Support Mistral Large3 LLM part (#9820 ) Signed-off-by: bhsueh <11360707+byshiue@users.noreply.github.com>	2025-12-13 11:44:27 +08:00
tburt-nv	6147452158	[https://nvbugs/4141427 ][chore] Add more details to LICENSE file (#9881 ) Signed-off-by: Tyler Burt <195370667+tburt-nv@users.noreply.github.com>	2025-12-13 08:35:31 +08:00
Lucas Liebenwein	e767fc649a	[None][feat] AutoDeploy: prepare_metadata revisited (#9764 ) Signed-off-by: Lucas Liebenwein <11156568+lucaslie@users.noreply.github.com>	2025-12-12 20:14:14 +08:00
Kaiyu Xie	110820bb15	[TRTLLM-9792] [feat] Support multiple instances on single node for slurm scripts (#9900 ) Signed-off-by: Kaiyu Xie <26294424+kaiyux@users.noreply.github.com>	2025-12-12 12:12:08 +08:00
Venky	fd1270b9ab	[TRTC-43] [feat] Add config db and docs (#9420 ) Signed-off-by: Frank Di Natale <3429989+FrankD412@users.noreply.github.com> Signed-off-by: Venky Ganesh <23023424+venkywonka@users.noreply.github.com> Co-authored-by: Frank Di Natale <3429989+FrankD412@users.noreply.github.com>	2025-12-12 04:00:03 +08:00
fredricz-20070104	341cb1a12c	[None][chore] Add GB300 support since it does not support segment (#9731 ) Signed-off-by: FredricZ-2007 <226039983+fredricz-20070104@users.noreply.github.com>	2025-12-10 18:36:55 -08:00
Yiqing Yan	1c11cae54d	[None][chore] bump version to 1.2.0rc6 (#9874 ) Signed-off-by: Yiqing Yan <yiqingy@nvidia.com>	2025-12-10 04:53:26 -08:00
Eran Geva	4da3121363	[#8921 ][chore] AutoDeploy NanoV3 to use SYMM_MEM allreduce strategy (#9797 ) Signed-off-by: Eran Geva <19514940+MrGeva@users.noreply.github.com>	2025-12-09 13:05:38 -08:00
Frank	f6df9eb2a6	[TRTLLM-9089][chore] Port prepare_dataset into trtllm-bench (#9250 )	2025-12-08 10:37:40 -08:00
Eran Geva	98db262a67	[None][fix] Switch AutoDeploy's default allreduce strategy to NCCL (#9666 ) Signed-off-by: Eran Geva <19514940+MrGeva@users.noreply.github.com>	2025-12-08 03:26:21 -08:00
Kaiyu Xie	069b05cf3d	[TRTLLM-9706] [doc] Update wide EP documents (#9724 ) Signed-off-by: Kaiyu Xie <26294424+kaiyux@users.noreply.github.com>	2025-12-08 11:21:11 +08:00
Chenjie Luo	d252101a76	[OMNIML-3036][doc] Re-branding TensorRT-Model-Optimizer as Nvidia Model-Optimizer (#9679 ) Signed-off-by: Chenjie Luo <chenjiel@nvidia.com>	2025-12-07 07:14:05 -08:00
Yan Chunwei	b7a255d67e	[TRTLLM-9075][doc] refine the slurm examples (#9548 ) Signed-off-by: Yan Chunwei <328693+Superjomn@users.noreply.github.com> Signed-off-by: Mike Iovine <6158008+mikeiovine@users.noreply.github.com> Signed-off-by: Mike Iovine <miovine@nvidia.com>	2025-12-05 17:50:12 -05:00
QI JUN	0915c4e3a1	[TRTLLM-9086][doc] Clean up TODOs in documentation (#9292 ) Signed-off-by: junq <22017000+QiJune@users.noreply.github.com> Signed-off-by: Mike Iovine <6158008+mikeiovine@users.noreply.github.com> Signed-off-by: Mike Iovine <miovine@nvidia.com>	2025-12-05 17:50:12 -05:00
Pengyun Lin	c6dc68a28e	[None][doc] VDR 1.0 trtllm-serve doc enhancement (#9443 ) Signed-off-by: Pengyun Lin <81065165+LinPoly@users.noreply.github.com> Signed-off-by: Mike Iovine <6158008+mikeiovine@users.noreply.github.com> Signed-off-by: Mike Iovine <miovine@nvidia.com>	2025-12-05 17:50:12 -05:00
Yan Chunwei	3e442922a3	[TRTLLM-9160][doc] add doc to llm_runtime.py (#9482 ) Signed-off-by: Yan Chunwei <328693+Superjomn@users.noreply.github.com> Signed-off-by: Mike Iovine <6158008+mikeiovine@users.noreply.github.com> Signed-off-by: Mike Iovine <miovine@nvidia.com>	2025-12-05 17:50:12 -05:00
Tailing Yuan	4eed648e22	[None][feat] Add weights initialization and context phase parser to layer-wise benchmarks (#9667 ) Signed-off-by: Tailing Yuan <yuantailing@gmail.com>	2025-12-04 13:41:15 +08:00
Lucas Liebenwein	a1964bcbbc	[#9643 ][fix] AutoDeploy: fix nano sharding config (#9668 ) Signed-off-by: Lucas Liebenwein <11156568+lucaslie@users.noreply.github.com>	2025-12-04 03:10:25 +08:00
JunyiXu-nv	beffbd6002	[TRTLLM-9242][doc] Add examples showcasing openai compatible APIs (#9520 ) Signed-off-by: Junyi Xu <219237550+JunyiXu-nv@users.noreply.github.com>	2025-12-03 11:47:02 +08:00
heyuhhh	a08eb81cce	[None][feat] Add RocketKV usage doc and e2e accuracy test on LongBenchV2 (#9572 ) Signed-off-by: yuhangh <58161490+heyuhhh@users.noreply.github.com>	2025-12-03 11:33:46 +08:00
Iman Tabrizian	356a52edf5	[None][feat] Add support for KVCache reuse for DSv32 (#9383 ) Signed-off-by: Iman Tabrizian <10105175+tabrizian@users.noreply.github.com>	2025-12-02 11:14:30 +08:00
Zhenhuan Chen	24004535fe	[None][chore] refactor disaggregated scripts to use named arguments (#9581 ) Signed-off-by: Zhenhuan Chen <zhenhuanc@nvidia.com>	2025-12-01 17:33:47 +08:00
Enwei Zhu	34e2fa5c96	[https://nvbugs/5690172 ][fix] Fix Qwen3-235B ATP accuracy issue with PDL (#9530 ) Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com>	2025-12-01 09:10:21 +08:00
heyuhhh	6e470aab72	[None] [feat] Optimize the algorithm part of RocketKV (#9333 ) Signed-off-by: yuhangh <58161490+heyuhhh@users.noreply.github.com>	2025-12-01 09:04:09 +08:00
dominicshanshan	6345074686	[None][chore] Weekly mass integration of release/1.1 -- rebase (#9522 ) Signed-off-by: yunruis <205571022+yunruis@users.noreply.github.com> Signed-off-by: Mike Iovine <6158008+mikeiovine@users.noreply.github.com> Signed-off-by: Mike Iovine <miovine@nvidia.com> Signed-off-by: Wangshanshan <30051912+dominicshanshan@users.noreply.github.com> Signed-off-by: qgai <qgai@nvidia.com> Signed-off-by: Balaram Buddharaju <169953907+brb-nv@users.noreply.github.com> Signed-off-by: Yan Chunwei <328693+Superjomn@users.noreply.github.com> Signed-off-by: Junyi Xu <219237550+JunyiXu-nv@users.noreply.github.com> Signed-off-by: Simeng Liu <simengl@nvidia.com> Signed-off-by: nv-guomingz <137257613+nv-guomingz@users.noreply.github.com> Signed-off-by: Jin Li <59594262+liji-nv@users.noreply.github.com> Signed-off-by: Ivy Zhang <25222398+crazydemo@users.noreply.github.com> Signed-off-by: Vincent Zhang <vinczhang@nvidia.com> Signed-off-by: peaceh <103117813+peaceh-nv@users.noreply.github.com> Signed-off-by: Michal Guzek <mguzek@nvidia.com> Signed-off-by: Michal Guzek <moraxu@users.noreply.github.com> Signed-off-by: Chang Liu (Enterprise Products) <9713593+chang-l@users.noreply.github.com> Signed-off-by: leslie-fang25 <leslief@nvidia.com> Signed-off-by: Shunkang <182541032+Shunkangz@users.noreply.github.co> Signed-off-by: junq <22017000+QiJune@users.noreply.github.com> Co-authored-by: yunruis <205571022+yunruis@users.noreply.github.com> Co-authored-by: sunnyqgg <159101675+sunnyqgg@users.noreply.github.com> Co-authored-by: brb-nv <169953907+brb-nv@users.noreply.github.com> Co-authored-by: Yan Chunwei <328693+Superjomn@users.noreply.github.com> Co-authored-by: JunyiXu-nv <219237550+JunyiXu-nv@users.noreply.github.com> Co-authored-by: Simeng Liu <109828133+SimengLiu-nv@users.noreply.github.com> Co-authored-by: Guoming Zhang <137257613+nv-guomingz@users.noreply.github.com> Co-authored-by: Jin Li <59594262+liji-nv@users.noreply.github.com> Co-authored-by: Ivy Zhang <25222398+crazydemo@users.noreply.github.com> Co-authored-by: Vincent Zhang <vcheungyi@163.com> Co-authored-by: peaceh-nv <103117813+peaceh-nv@users.noreply.github.com> Co-authored-by: Michal Guzek <moraxu@users.noreply.github.com> Co-authored-by: Chang Liu <9713593+chang-l@users.noreply.github.com> Co-authored-by: Leslie Fang <leslief@nvidia.com> Co-authored-by: Shunkangz <182541032+Shunkangz@users.noreply.github.com> Co-authored-by: Shunkang <182541032+Shunkangz@users.noreply.github.co> Co-authored-by: QI JUN <22017000+QiJune@users.noreply.github.com>	2025-11-29 21:48:48 +08:00
Kaiyu Xie	0d3c0c2156	[None] [chore] Enhancements and clean up to slurm scripts (#9493 ) Signed-off-by: Kaiyu Xie <26294424+kaiyux@users.noreply.github.com>	2025-11-28 16:41:41 +08:00
Lucas Liebenwein	2f8bd6fb36	[#9150 ][feat] AutoDeploy Nemotron-Flash support (#9504 ) Signed-off-by: Lucas Liebenwein <11156568+lucaslie@users.noreply.github.com>	2025-11-27 18:03:57 +01:00
Enwei Zhu	c2562fc800	[https://nvbugs/5687820 ][fix] Remove self.abort() in DetokenizedGenerationResult (#9449 ) Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com>	2025-11-27 22:54:40 +08:00
Chenghao Zhang	18fbda5cdb	[None][feat] AutoDeploy: Add A_log fusion for Mamba layers (#9422 ) Signed-off-by: Chenghao Zhang <211069071+nvchenghaoz@users.noreply.github.com>	2025-11-26 14:39:20 -08:00
Chang Liu	b10137fdd5	[None][feat] Support MLA chunked prefill for DeepSeek V3.2 model (#9376 ) Signed-off-by: Chang Liu (Enterprise Products) <9713593+chang-l@users.noreply.github.com>	2025-11-26 16:38:25 +08:00
Wanli Jiang	d100599ea7	[TRTLLM-9264][fix] Add accuracy/unit tests/doc for phi4mm (#9246 ) Signed-off-by: Wanli Jiang <35160485+Wanli-Jiang@users.noreply.github.com>	2025-11-26 11:12:35 +08:00
Yiqing Yan	1b9edf62c9	[None][chore] Bump version to 1.2.0rc5 (#9455 ) Signed-off-by: Yiqing Yan <yiqingy@nvidia.com>	2025-11-26 08:37:53 +08:00
Tailing Yuan	51ef0379d2	[None][feat] Add a parser to layer-wise benchmarks (#9440 ) Signed-off-by: Tailing Yuan <yuantailing@gmail.com>	2025-11-25 05:45:16 -08:00
Suyog Gupta	efd503751f	[#9271 ][perf] Enable multi-stream MOE optimization in AutoDeploy (#9322 ) Signed-off-by: Suyog Gupta <41447211+suyoggupta@users.noreply.github.com>	2025-11-24 19:50:10 -08:00
mpikulski	cddc7549d1	[TRTLLM-9191][feat] support out-of-tree models in trtllm-serve (#9269 ) Signed-off-by: ixlmar <206748156+ixlmar@users.noreply.github.com>	2025-11-21 04:23:47 -08:00
Yiqing Yan	8cd3b496e9	[None][chore] Bump version to 1.2.0rc4 (#9363 ) Signed-off-by: Yiqing Yan <yiqingy@nvidia.com>	2025-11-21 18:28:12 +08:00
cheshirekow	1379cfac3a	[TRTLLM-9197][infra] Move thirdparty stuff to it's own listfile (#8986 ) Signed-off-by: Josh Bialkowski <1309820+cheshirekow@users.noreply.github.com> Co-authored-by: Josh Bialkowski <1309820+cheshirekow@users.noreply.github.com>	2025-11-20 16:44:23 -08:00
jiahanc	255e4ea9f0	[None][doc] Update DS-R1 example doc (#9231 ) Signed-off-by: jiahanc <173873397+jiahanc@users.noreply.github.com>	2025-11-18 21:10:02 -08:00
Patrice Castonguay	9b0f45298f	[None][feat] Have ability to cancel disagg request if KV cache resource are exhausted (#9155 ) Signed-off-by: Patrice Castonguay <55748270+pcastonguay@users.noreply.github.com>	2025-11-18 20:59:17 -05:00
Ajinkya Rasane	8d7cda2318	[None][chore] Update the Flux autodeploy example (#8434 ) Signed-off-by: ajrasane <131806219+ajrasane@users.noreply.github.com> Co-authored-by: Frida Hou <201670829+Fridah-nv@users.noreply.github.com>	2025-11-18 14:16:04 -08:00
Zero Zeng	43896af1b1	[None][chore] benchmark refactor (#9207 ) Signed-off-by: Zero Zeng <38289304+zerollzeng@users.noreply.github.com>	2025-11-17 23:29:28 -08:00
Stanley Sun	96cfdd8a72	[None][chore] Change trt-server to trtlllm-server in opentelemetry readme (#9173 ) Signed-off-by: Stanley Sun <stsun@nvidia.com> Co-authored-by: Larry Xu <197874197+LarryXFly@users.noreply.github.com>	2025-11-17 22:02:24 -08:00
Zero Zeng	c6cce398f5	[TRTLLM-9053][feat] Support accuracy test and install from wheel (#9038 ) Signed-off-by: Zero Zeng <38289304+zerollzeng@users.noreply.github.com>	2025-11-13 23:34:47 -08:00
dongxuy04	84483a238a	[None][doc] update docs for EPLB (#9166 ) Signed-off-by: Dongxu Yang <78518666+dongxuy04@users.noreply.github.com>	2025-11-13 22:24:29 -08:00
Fanrong Li	25bd2e6917	[None][doc] Add DeepSeek-V3.2-Exp document (#9141 ) Signed-off-by: Fanrong Li <23290157+lfr-0531@users.noreply.github.com>	2025-11-13 22:01:58 -08:00
heyuhhh	f07e9977c6	[None] [feat] Use triton kernels for RocketKV prediction module (#8682 ) Signed-off-by: yuhangh <58161490+heyuhhh@users.noreply.github.com>	2025-11-13 18:51:09 -08:00
Tailing Yuan	cc4c980e03	[None][feat] Add Qwen3-Next to layer-wise benchmarks (#9065 ) Signed-off-by: Tailing Yuan <yuantailing@gmail.com>	2025-11-14 10:03:00 +08:00
Timothy Gao	96132b4274	[None] [doc] Add Mixed Precision Context and Generation section to Disagg (#8769 ) Signed-off-by: Timothy Gao <35588167+timothygao8710@users.noreply.github.com> Co-authored-by: coderabbitai[bot] <136622811+coderabbitai[bot]@users.noreply.github.com>	2025-11-11 23:46:12 -08:00
Wanli Jiang	ebdd1cc8e0	[TRTLLM-8119][feat] Update doc/tests/chat_template for nano-v2-vlm (#8840 ) Signed-off-by: Wanli Jiang <35160485+Wanli-Jiang@users.noreply.github.com>	2025-11-11 07:48:23 -08:00
Lucas Liebenwein	6bf4e59267	[#8763 ][feature] AutoDeploy: configurable dtype for caching (#8812 ) Signed-off-by: Lucas Liebenwein <11156568+lucaslie@users.noreply.github.com>	2025-11-10 22:17:14 -08:00
jiahanc	de6088e363	[None][doc] update llama and llama4 example doc (#9048 ) Signed-off-by: jiahanc <173873397+jiahanc@users.noreply.github.com>	2025-11-10 22:04:26 -08:00
shuyixiong	1ccb799c9a	[None][chore] Relocate rlhf_utils.py (#8938 ) Signed-off-by: shuyix <219646547+shuyixiong@users.noreply.github.com>	2025-11-10 19:03:23 -08:00
Fanrong Li	a7033a9193	[TRTLLM-9001][feat] add TP support for DeepSeek-V3.2 (#8943 ) Signed-off-by: Fanrong Li <23290157+lfr-0531@users.noreply.github.com>	2025-11-10 12:16:01 +08:00
Yiqing Yan	c836ae5aaa	[None][chore] Bump version to 1.2.0rc3 (#9004 ) Signed-off-by: Yiqing Yan <yiqingy@nvidia.com>	2025-11-07 01:24:32 -08:00
QI JUN	1c6e490894	[TRTLLM-9065][chore] remove PyTorchConfig completely (#8856 ) Signed-off-by: junq <22017000+QiJune@users.noreply.github.com>	2025-11-06 22:37:03 -08:00
shuyixiong	c73efe12e7	[None][chore] Use cached model in all ray tests (#8962 ) Signed-off-by: shuyix <219646547+shuyixiong@users.noreply.github.com>	2025-11-06 15:14:15 +01:00
Yi Sun	cc12d33393	[None][feat] Deep Research Implemented with Scaffolding (#8452 ) Signed-off-by: Yi Sun <yisun0618@gmail.com>	2025-11-06 10:33:28 +08:00
JadoTu	6bbb43f2b9	[None][feat] Add qwen3-next nvfp4 support (#8526 ) Signed-off-by: jiant <107457950+JadoTu@users.noreply.github.com>	2025-11-06 09:45:44 +08:00
fredricz-20070104	fdd9e4fe00	[TRTLLM-7251][test] Get submit eplb slots empty key work (#8945 ) Signed-off-by: FredricZ-2007 <226039983+fredricz-20070104@users.noreply.github.com>	2025-11-05 05:21:02 -08:00
shuyixiong	70e4d72ffa	[TRTLLM-8511][feat] Add update_weights and sleep_wakeup support for rl integration (#8302 ) Signed-off-by: shuyix <219646547+shuyixiong@users.noreply.github.com> Co-authored-by: Liwei Ma <liweim@nvidia.com> Co-authored-by: Jonas Yang CN <joyang@nvidia.com>	2025-11-04 10:19:24 -08:00
Anish Shanbhag	6a6317727b	[TRTLLM-8680][doc] Add table with one-line deployment commands to docs (#8173 ) Signed-off-by: Anish Shanbhag <ashanbhag@nvidia.com>	2025-11-03 17:42:41 -08:00
Kaiyu Xie	db2a42f641	[None][chore] Add sample yaml for wide-ep example and minor fixes (#8825 ) Signed-off-by: Zero Zeng <38289304+zerollzeng@users.noreply.github.com> Signed-off-by: Kaiyu Xie <26294424+kaiyux@users.noreply.github.com> Co-authored-by: Zero Zeng <38289304+zerollzeng@users.noreply.github.com>	2025-11-03 07:48:34 -08:00
Cao Dong	2ff772ef71	[None][feat] Add benchmark to DeepConf (#8776 ) Signed-off-by: Dong Cao <docao@nvidia.com>	2025-11-03 16:05:50 +08:00
Robin Kobus	1b3ad7259d	[None][feat] Use ruff for formatting and linting new files by default (#8629 ) Signed-off-by: Robin Kobus <19427718+Funatiq@users.noreply.github.com>	2025-11-01 16:11:40 +01:00
Tailing Yuan	ec31363a86	[None][fix] Layer wise benchmarks: use local models, lint (#8799 ) Signed-off-by: Tailing Yuan <yuantailing@gmail.com>	2025-10-30 09:47:46 -07:00
Tailing Yuan	f9c7786dc8	[None][feat] Add layer wise benchmarks (#8777 ) Signed-off-by: Tailing Yuan <yuantailing@gmail.com>	2025-10-30 20:29:34 +08:00
WeiHaocheng	cc286687c4	[None][feat] Refactor scaffolding streaming feature and fix openai wo… (#8622 ) Signed-off-by: Fred Wei <20514172+WeiHaocheng@users.noreply.github.com>	2025-10-30 16:02:40 +08:00
Lizhi Zhou	24167d00eb	[TRTLLM-8431][doc] update public doc and example, add etcd auto-scaling tests (#8602 ) Signed-off-by: Lizhi Zhou <1432185+reasonsolo@users.noreply.github.com>	2025-10-28 17:04:53 -07:00
Anish Shanbhag	a09b38a862	[TRTLLM-8684][chore] Migrate BuildConfig to Pydantic, add a Python wrapper for KVCacheType enum (#8330 ) Signed-off-by: Anish Shanbhag <ashanbhag@nvidia.com>	2025-10-28 09:17:26 -07:00
Aurelien Chartier	0a02f5f25d	[None][chore] Use a cached model path for Ray integration test (#8660 ) Signed-off-by: Aurelien Chartier <2567591+achartier@users.noreply.github.com>	2025-10-27 19:16:06 -07:00
gramnarayan	88b0fbc8ff	[#8245 ][feat] Autodeploy: Guided Decoding Support (#8551 ) Signed-off-by: William Zhang <133824995+2ez4bz@users.noreply.github.com> Signed-off-by: Govind Ramnarayan <105831528+govind-ramnarayan@users.noreply.github.com> Signed-off-by: Lucas Liebenwein <11156568+lucaslie@users.noreply.github.com> Co-authored-by: William Zhang <133824995+2ez4bz@users.noreply.github.com> Co-authored-by: Lucas Liebenwein <11156568+lucaslie@users.noreply.github.com>	2025-10-28 09:29:57 +08:00
nvxuanyuc	d1398c05e6	[None][feat] Support ignored prompt length for penalties via new sampling config parameter (#8127 ) Signed-off-by: Xuanyu Chen <xuanyuc@nvidia.com>	2025-10-27 13:12:31 -04:00
zhanghaotong	1026069a2b	[None][feat] Add opentelemetry tracing (#5897 ) Signed-off-by: Zhang Haotong <zhanghaotong.zht@antgroup.com> Signed-off-by: zhanghaotong <zhanghaotong.zht@antgroup.com> Signed-off-by: Shunkang <182541032+Shunkangz@users.noreply.github.co> Co-authored-by: Zhang Haotong <zhanghaotong.zht@alibaba-inc.com> Co-authored-by: Shunkang <182541032+Shunkangz@users.noreply.github.co>	2025-10-27 18:51:07 +08:00
Robin Kobus	990b0c0c47	[TRTLLM-7159][docs] Add documentation for additional outputs (#8325 ) Signed-off-by: Robin Kobus <19427718+Funatiq@users.noreply.github.com>	2025-10-27 09:52:04 +01:00
Chang Liu	e47c787dd7	[TRTLLM-8535][feat] Support DeepSeek V3.2 with FP8 + BF16 KV cache/NVFP4 + BF16 KV cache (#8405 ) Signed-off-by: Fanrong Li <23290157+lfr-0531@users.noreply.github.com> Signed-off-by: Chang Liu <9713593+chang-l@users.noreply.github.com> Signed-off-by: Tracin <10434017+Tracin@users.noreply.github.com>	2025-10-24 13:40:41 -04:00
Yechan Kim	2d86d6be40	[TRTLLM-8737][feat] Support media_io_kwargs on trtllm-serve (#8528 ) Signed-off-by: yechank <161688079+yechank-nvidia@users.noreply.github.com>	2025-10-24 12:53:40 -04:00
QI JUN	6ee1c87595	[TRTLLM-8817][chore] Set default value of KvCacheConfig.free_gpu_memory_fraction explicitly (#8561 ) Signed-off-by: junq <22017000+QiJune@users.noreply.github.com>	2025-10-24 08:55:49 +08:00

1 2 3 4 5 ...

614 Commits