TensorRT-LLMs

mirror of https://github.com/NVIDIA/TensorRT-LLM.git synced 2026-01-14 06:27:45 +08:00

Author	SHA1	Message	Date
Yuxian Qiu	cd4e639536	[None][feat] Async pp send. (#9952 ) Signed-off-by: Yuxian Qiu <142763828+yuxianq@users.noreply.github.com>	2025-12-13 00:52:30 +08:00
JunyiXu-nv	2fec53dfa5	[TRTLLM-9637][feat] Support tool parser for Kimi K2 (#9830 ) Signed-off-by: Junyi Xu <219237550+JunyiXu-nv@users.noreply.github.com>	2025-12-12 23:32:39 +08:00
Yihan Wang	9df4dad3b6	[None][fix] Introduce inline namespace to avoid symbol collision (#9541 ) Signed-off-by: Yihan Wang <yihwang@nvidia.com>	2025-12-12 23:32:15 +08:00
Balaram Buddharaju	af315d8ef1	[TRTLLM-5972][chore] Load balance decode token KV cache with helix parallelism (#9757 ) Signed-off-by: Balaram Buddharaju <169953907+brb-nv@users.noreply.github.com>	2025-12-12 22:29:05 +08:00
Lucas Liebenwein	e767fc649a	[None][feat] AutoDeploy: prepare_metadata revisited (#9764 ) Signed-off-by: Lucas Liebenwein <11156568+lucaslie@users.noreply.github.com>	2025-12-12 20:14:14 +08:00
yufeiwu-nv	fd3d3a553d	[None][chore] Modify python ipc_util to align with C++ path (#9894 ) Signed-off-by: yufeiwu <230315618+yufeiwu-nv@users.noreply.github.com> Co-authored-by: ruodil <200874449+ruodil@users.noreply.github.com>	2025-12-12 15:55:22 +08:00
Yifei Wang	9d1f2a9925	[#6425 ][fix] address CUDA stream sync issue in ModelRunnerCPP (#6426 ) Signed-off-by: yifei.w <yifei.w@bytedance.com>	2025-12-12 13:33:22 +08:00
JunyiXu-nv	710c592d7c	[https://nvbugs/5727517 ][fix] Preserve ip:port for disagg (#9859 ) Signed-off-by: Junyi Xu <219237550+JunyiXu-nv@users.noreply.github.com>	2025-12-12 09:45:34 +08:00
jthomson04	4f6d4da035	[None][perf] Fix TPOT when `min_tokens` set (#9862 ) Signed-off-by: jthomson04 <jwillthomson19@gmail.com>	2025-12-11 13:55:31 -08:00
Venky	fd1270b9ab	[TRTC-43] [feat] Add config db and docs (#9420 ) Signed-off-by: Frank Di Natale <3429989+FrankD412@users.noreply.github.com> Signed-off-by: Venky Ganesh <23023424+venkywonka@users.noreply.github.com> Co-authored-by: Frank Di Natale <3429989+FrankD412@users.noreply.github.com>	2025-12-12 04:00:03 +08:00
Erin	89dabf5aa1	[TRTLLM-9736][feat] AsyncLLM and verl integ (#9353 ) Signed-off-by: Liwei Ma <liweim@nvidia.com> Signed-off-by: Yuan Tong <13075180+tongyuantongyu@users.noreply.github.com> Signed-off-by: Superjomn <328693+Superjomn@users.noreply.github.com> Signed-off-by: Erin Ho <14718778+hchings@users.noreply.github.com> Co-authored-by: Liwei Ma <liweim@nvidia.com> Co-authored-by: Yuan Tong <13075180+tongyuantongyu@users.noreply.github.com> Co-authored-by: Superjomn <328693+Superjomn@users.noreply.github.com>	2025-12-11 09:33:25 -08:00
JadoTu	02edb19f43	[None] [feat] add eos_token_id in generation_config to sampling params (#9514 ) Signed-off-by: jiant <107457950+JadoTu@users.noreply.github.com>	2025-12-12 00:52:03 +08:00
xxi	488d38f88d	[TRTLLM-8959][feat] ConfigurableMoE support CUTLASS (#9772 )	2025-12-12 00:22:13 +08:00
Zongfei Jing	c76b428e2e	[TRTLLM-9685] [feat] Add gather fc1 kernel by cuteDSL (#9618 ) Signed-off-by: Zongfei Jing <20381269+zongfeijing@users.noreply.github.com>	2025-12-11 16:21:32 +08:00
Kanghwan	d147ad053e	[#2730 ][fix] Fix circular import bug in medusa/weight.py (#9866 ) Signed-off-by: Kanghwan Jang <861393+karljang@users.noreply.github.com>	2025-12-11 13:51:08 +08:00
Ziyi Xiong	81222c3670	[None] Fix warning when capturing CUDA graph (#9746 ) Signed-off-by: ziyixiong-nv <219238287+ziyixiong-nv@users.noreply.github.com>	2025-12-10 19:22:38 -08:00
Yiqing Yan	1c11cae54d	[None][chore] bump version to 1.2.0rc6 (#9874 ) Signed-off-by: Yiqing Yan <yiqingy@nvidia.com>	2025-12-10 04:53:26 -08:00
Yukun He	072f236002	[None][fix] Fully resolve the tactic recovery issues in AutoTuner serialized cache (#9835 ) Restrict tactic types to those compatible with AutoTuner cache serialization and deserialization. Signed-off-by: Yukun He <23156053+hyukn@users.noreply.github.com>	2025-12-10 20:41:04 +08:00
Yukun He	979f37e443	[None][fix] Fix nvfp4 gemm allowed backends arg passing (#9837 ) Signed-off-by: Yukun He <23156053+hyukn@users.noreply.github.com>	2025-12-09 20:09:53 -08:00
dhansen-nvidia	2d33ae94d5	[https://nvbugs/5508301 ][feat] Move D->H copies to a worker thread whe… (#8463 ) Signed-off-by: Dan Hansen <1+dhansen-nvidia@users.noreply.github.com> Signed-off-by: dhansen-nvidia <218031328+dhansen-nvidia@users.noreply.github.com> Co-authored-by: Dan Hansen <1+dhansen-nvidia@users.noreply.github.com>	2025-12-09 18:51:31 -05:00
Mike Iovine	07c76a5fac	[None][feat] Make 2-model spec dec use the 1-model kernels (Hopper) (#8810 ) Signed-off-by: Mike Iovine <6158008+mikeiovine@users.noreply.github.com>	2025-12-09 11:06:31 -05:00
Stefan Niebler	d600b9f851	[TRTLLM-6756][feat] Update BeamSearch for TorchSampler (#9660 ) Signed-off-by: Stefan Niebler <82932102+stnie@users.noreply.github.com>	2025-12-09 10:44:01 +01:00
Robin Kobus	76f49c903b	[None][fix] Additional model outputs for pipeline parallelism (#9794 ) Signed-off-by: Robin Kobus <19427718+Funatiq@users.noreply.github.com>	2025-12-09 10:41:22 +01:00
Jiagan Cheng	4a3a66b124	[https://nvbugs/5677746 ][fix] Use first PP rank's schedule result in other PP ranks to fix PP hang (#9659 ) Signed-off-by: Jiagan Cheng <jiaganc@nvidia.com>	2025-12-08 18:43:52 -08:00
bhsueh_NV	d6f961d3fe	[None][feat] Add llama4 scaling (#9771 ) Signed-off-by: bhsueh <11360707+byshiue@users.noreply.github.com>	2025-12-09 10:27:39 +08:00
Chenghao Zhang	75f5446d67	[#9753 ][feat] AutoDeploy: Implement add rms_norm fusion (#9754 ) Signed-off-by: Chenghao Zhang <211069071+nvchenghaoz@users.noreply.github.com>	2025-12-08 14:24:27 -08:00
Jhao-Ting Chen	da074be037	[None][fix] Fix #8383 introduced TRTLLM backend python error (#9804 ) Signed-off-by: Jhao-Ting Chen <jhaotingc@nvidia.com>	2025-12-08 13:31:37 -08:00
Eran Geva	23cf72b0f8	[#8921 ][feat] Added symetric memory AllReduce strategy (#8919 ) Signed-off-by: Eran Geva <19514940+MrGeva@users.noreply.github.com>	2025-12-08 13:12:56 -08:00
Thor Johnsen	f9380581c5	[https://nvbugs/5508267 ][fix] Proper handling of inactive canceled requests (#9280 ) Signed-off-by: thorjohnsen <41591019+thorjohnsen@users.noreply.github.com>	2025-12-08 13:11:44 -08:00
Jhao-Ting Chen	0a09465089	[https://nvbugs/5567586 ][feat] Ampere xqa swa specdec for GPT-OSS Eagle3-one-model (#8383 ) Signed-off-by: Jhao-Ting Chen <jhaotingc@nvidia.com>	2025-12-08 11:16:05 -08:00
Frank	f6df9eb2a6	[TRTLLM-9089][chore] Port prepare_dataset into trtllm-bench (#9250 )	2025-12-08 10:37:40 -08:00
sunnyqgg	1c7b7cdd47	[TRTLLM-9506][fix] Fix AR for DeepSeek-R1 2 model path (#9661 ) Signed-off-by: qgai <qgai@nvidia.com>	2025-12-08 10:12:32 -05:00
Eran Geva	98db262a67	[None][fix] Switch AutoDeploy's default allreduce strategy to NCCL (#9666 ) Signed-off-by: Eran Geva <19514940+MrGeva@users.noreply.github.com>	2025-12-08 03:26:21 -08:00
Guoming Zhang	448bb1a44f	[TRTLLM-9431][perf] Enable multistream for Linear Attention in Qwen3-… (#9696 ) Signed-off-by: nv-guomingz <137257613+nv-guomingz@users.noreply.github.com>	2025-12-08 13:39:12 +08:00
Li Min	a422d70be6	[None][chore] Enable tvm_ffi for cute dsl nvfp4_gemm to reduce host overhead. (#9690 ) Signed-off-by: Mindy Li <11663212+limin2021@users.noreply.github.com>	2025-12-08 13:28:11 +08:00
Yukun He	8b9ab9a701	[None][fix] Fix two tuning cache miss issues. (#9743 ) Signed-off-by: Yukun He <23156053+hyukn@users.noreply.github.com>	2025-12-08 10:47:21 +08:00
xxi	8e27ce7084	[TRTLLM-9603][feat] Enable ConfigurableMoE test in the CI (#9645 )	2025-12-08 10:19:40 +08:00
Ludwig Schneider	41ce14ab04	[None][feat] Enable NCCL_SYMMETRIC as default fallback for AllReduce (#9314 ) Signed-off-by: Ludwig Schneider <lschneider@nvidia.com>	2025-12-07 09:43:26 -08:00
JunyiXu-nv	b210f22c7e	[https://nvbugs/5703953 ][fix] Preserving ip:port for trtllm-serve before initializing llm (#9646 ) Signed-off-by: Junyi Xu <219237550+JunyiXu-nv@users.noreply.github.com>	2025-12-06 20:13:48 -08:00
Yan Chunwei	e4c707845f	[None][fix] enable hmac in RPC (#9745 ) Signed-off-by: Superjomn <328693+Superjomn@users.noreply.github.com>	2025-12-07 08:24:46 +08:00
Jonas Li	2645a78f34	[TRTLLM-9660][feat] Convert cuteDSL GEMM to opt-in feature (#9682 ) Signed-off-by: Jonas Li <6110159+longlee0622@users.noreply.github.com> Co-authored-by: Kaiyu Xie <26294424+kaiyux@users.noreply.github.com>	2025-12-06 02:24:51 -08:00
mpikulski	8d2178d321	[TRTLLM-9522][chore] implement default `attach_multimodal_embeddings` (#9664 ) Signed-off-by: ixlmar <206748156+ixlmar@users.noreply.github.com>	2025-12-05 22:12:16 -08:00
Enwei Zhu	7cd5a67e25	[TRTLLM-9372][feat] Enable CuteDSL MoE with Large EP (#9592 ) Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com>	2025-12-05 22:08:52 -08:00
xxi	c2f2add6df	[None][fix] fix a bug: deepseek_fp8_block_scales in TRTLLMGEN-MoE use 2D x_sf instead of 1D (#9658 ) Signed-off-by: xxi <xxi@nvidia.com>	2025-12-05 21:01:39 -08:00
shuyixiong	df5b32966d	[None][fix] Fix triton moe load_weight (#9649 ) Signed-off-by: shuyix <219646547+shuyixiong@users.noreply.github.com>	2025-12-06 11:17:04 +08:00
QI JUN	0915c4e3a1	[TRTLLM-9086][doc] Clean up TODOs in documentation (#9292 ) Signed-off-by: junq <22017000+QiJune@users.noreply.github.com> Signed-off-by: Mike Iovine <6158008+mikeiovine@users.noreply.github.com> Signed-off-by: Mike Iovine <miovine@nvidia.com>	2025-12-05 17:50:12 -05:00
Chenghao Zhang	d6f95a4363	[None][feat] AutoDeploy: Perf optimization for Attention and rmsnorm (#9719 ) Signed-off-by: Chenghao Zhang <211069071+nvchenghaoz@users.noreply.github.com>	2025-12-05 12:59:04 -08:00
Robin Kobus	eb0b426e5d	[None][refactor] Improve request processing function in sampler (#9671 ) Signed-off-by: Robin Kobus <19427718+Funatiq@users.noreply.github.com>	2025-12-05 16:41:49 +01:00
Robin Kobus	faf682b8bc	[TRTLLM-7136][feat] Update load_weights method to include mapping parameter in checkpoint loaders (#9583 ) Signed-off-by: Robin Kobus <19427718+Funatiq@users.noreply.github.com>	2025-12-05 16:07:20 +01:00
gramnarayan	74df9b180b	[#9602 ][feat] AutoDeploy: Support TRTLLM Sampler (#9641 ) Signed-off-by: Govind Ramnarayan <105831528+govind-ramnarayan@users.noreply.github.com>	2025-12-04 19:24:11 -08:00

1 2 3 4 5 ...

1813 Commits