TensorRT-LLMs

mirror of https://github.com/NVIDIA/TensorRT-LLM.git synced 2026-01-14 06:27:45 +08:00

Author	SHA1	Message	Date
nv-guomingz	31d3eff24b	doc: fix invalid links related with llm api example (#6317 ) Signed-off-by: nv-guomingz <137257613+nv-guomingz@users.noreply.github.com>	2025-07-24 00:46:51 -04:00
Kaiyu Xie	f08286c679	doc: Refactor documents and examples of disaggregated serving and wide ep (#6054 ) Signed-off-by: Kaiyu Xie <26294424+kaiyux@users.noreply.github.com>	2025-07-23 09:20:57 +08:00
Raayan Dhar	5234502717	[nvbug/5361223] doc: Update Llama4 deployment guide: update config & note concurrency (#6222 ) Signed-off-by: raayandhar <rdhar@nvidia.com>	2025-07-22 11:28:23 -07:00
Yechan Kim	b85ab139f9	doc: add supported data modality and types on multimodal serve (#5988 ) Signed-off-by: yechank <161688079+yechank-nvidia@users.noreply.github.com>	2025-07-22 14:32:41 +08:00
bhsueh_NV	24ce6b9517	[Doc][Qwen3] update qwen3 into support-matrix (#6161 ) Signed-off-by: bhsueh <11360707+byshiue@users.noreply.github.com>	2025-07-22 12:48:00 +08:00
QI JUN	a03c680581	add release notes for 0.21 release (#6049 ) Signed-off-by: junq <22017000+QiJune@users.noreply.github.com> Signed-off-by: Sharan Chetlur <116769508+schetlur-nv@users.noreply.github.com> Signed-off-by: QI JUN <22017000+QiJune@users.noreply.github.com> Co-authored-by: Sharan Chetlur <116769508+schetlur-nv@users.noreply.github.com> Co-authored-by: Yanchao Lu <yanchaol@nvidia.com>	2025-07-22 12:48:00 +08:00
nv-guomingz	34dd071bd6	[TRTLLM-6495] doc: add disclaimer for 3rd party software installation. (#6039 ) Signed-off-by: nv-guomingz <137257613+nv-guomingz@users.noreply.github.com>	2025-07-22 12:48:00 +08:00
amirkl94	f4f2176cd5	chore: Port leftover 0.20 (#5907 ) Signed-off-by: nv-guomingz <137257613+nv-guomingz@users.noreply.github.com> Signed-off-by: Yingge He <yinggeh@nvidia.com> Signed-off-by: Martin Marciniszyn Mehringer <11665257+MartinMarciniszyn@users.noreply.github.com> Signed-off-by: Kaiyu Xie <26294424+kaiyux@users.noreply.github.com> Co-authored-by: nv-guomingz <137257613+nv-guomingz@users.noreply.github.com> Co-authored-by: Yingge He <157551214+yinggeh@users.noreply.github.com> Co-authored-by: Martin Marciniszyn Mehringer <11665257+MartinMarciniszyn@users.noreply.github.com> Co-authored-by: Kaiyu Xie <26294424+kaiyux@users.noreply.github.com> Co-authored-by: zpatel <22306219+zbpatel@users.noreply.github.com>	2025-07-22 12:48:00 +08:00
nv-guomingz	b4c7e8c9a5	doc: remove cuda_graph_config: {} from doc since cuda_graph enabled b… (#6150 ) Signed-off-by: nv-guomingz <137257613+nv-guomingz@users.noreply.github.com>	2025-07-21 10:49:29 +08:00
wili	82d3587bb8	[refactor] Unify name of NGram speculative decoding (#5937 ) Signed-off-by: wili-65535 <wili-65535@users.noreply.github.com> Co-authored-by: wili-65535 <wili-65535@users.noreply.github.com>	2025-07-19 12:59:57 +08:00
Venky	22d4a8c48a	enh: Add script to map tests <-> jenkins stages & vice-versa (#5177 ) Signed-off-by: Venky Ganesh <23023424+venkywonka@users.noreply.github.com> Signed-off-by: Yanchao Lu <yanchaol@nvidia.com> Co-authored-by: Yanchao Lu <yanchaol@nvidia.com>	2025-07-19 00:50:40 +08:00
Leslie Fang	44040edbf0	update broken link of PyTorchModelEngine in arch_overview (#6171 ) Signed-off-by: leslie-fang25 <leslief@nvidia.com>	2025-07-18 19:53:38 +08:00
Enwei Zhu	21efb50068	[TRTLLM-6406] feat: Enable guided decoding with overlap scheduler (#6000 ) Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com>	2025-07-17 17:46:10 +08:00
Chuang Zhu	44c70c88f9	chore:[BREAKING CHANGE] use cacheTransceiverConfig as knobs for disagg service (#5234 ) Signed-off-by: Chuang Zhu <111838961+chuangz0@users.noreply.github.com>	2025-07-17 17:42:07 +08:00
Frank	28385f6571	[TRTLLM-6070] docs: Add initial documentation for trtllm-bench CLI. (#5734 ) Signed-off-by: Frank Di Natale <3429989+FrankD412@users.noreply.github.com> Signed-off-by: Frank <3429989+FrankD412@users.noreply.github.com> Co-authored-by: Kaiyu Xie <26294424+kaiyux@users.noreply.github.com>	2025-07-17 09:15:06 +08:00
Iman Tabrizian	301b78bb77	Add documentation for eagle3+disagg+dynamo (#6072 ) Signed-off-by: Iman Tabrizian <10105175+tabrizian@users.noreply.github.com>	2025-07-16 08:39:29 -07:00
nv-guomingz	4e4d18826f	chore: [Breaking Change] Rename cuda_graph_config padding_enabled fie… (#6003 ) Signed-off-by: nv-guomingz <137257613+nv-guomingz@users.noreply.github.com>	2025-07-15 15:50:03 +09:00
Yi Zhang	966e41a900	doc: Update gb200 doc (#5840 ) Signed-off-by: yizhan <187001205+yizhang-nv@users.noreply.github.com>	2025-07-14 17:17:30 +08:00
Shi Xiaowei	f4e0425a7b	doc: update the link of the diagram (#5953 ) Signed-off-by: Shixiaowei02 <39303645+Shixiaowei02@users.noreply.github.com>	2025-07-11 18:02:22 +09:00
Shi Xiaowei	49359574c1	[TRTLLM-5673] Doc: ensure the disagg doc is up to date (#5938 )	2025-07-11 17:39:05 +09:00
Shi Xiaowei	37293e4dfd	blog: add qwen3 disagg perf metrics (#5822 )	2025-07-11 16:41:45 +09:00
wili	2e3cf42e03	[refactor] Simplification of Speculative decoding configs (#5639 ) Signed-off-by: wili-65535 <wili-65535@users.noreply.github.com> Co-authored-by: wili-65535 <wili-65535@users.noreply.github.com>	2025-07-10 11:37:30 -04:00
Yan Chunwei	07f6da763d	[TRTLLM-5530] chore: rename LLM.autotuner_enabled to enable_autotuner (#5876 ) Signed-off-by: Superjomn <328693+Superjomn@users.noreply.github.com>	2025-07-10 11:31:35 +08:00
Erin	e277766f0d	chores: merge examples for v1.0 doc (#5736 ) Signed-off-by: Erin Ho <14718778+hchings@users.noreply.github.com>	2025-07-08 21:00:42 -07:00
jiahanc	607bf4c395	Doc: Add llama4 Maverick eagle3 and max-throughput and low_latency benchmark guide (#5810 ) Signed-off-by: jiahanc <173873397+jiahanc@users.noreply.github.com>	2025-07-09 10:10:02 +09:00
nv-guomingz	c8fa08da5c	doc: update cuda_graph_config usage part in DS R1 docs (#5796 ) Signed-off-by: nv-guomingz <137257613+nv-guomingz@users.noreply.github.com> Co-authored-by: Kaiyu Xie <26294424+kaiyux@users.noreply.github.com>	2025-07-08 16:54:46 +09:00
nv-guomingz	0be41b6524	Revert "chore: [Breaking Change] Rename cuda_graph_config padding_enabled fie…" (#5818 )	2025-07-08 13:15:30 +09:00
nv-guomingz	5a8173c121	chore: [Breaking Change] Rename cuda_graph_config padding_enabled fie… (#5795 ) Signed-off-by: nv-guomingz <137257613+nv-guomingz@users.noreply.github.com>	2025-07-08 08:52:36 +08:00
nv-guomingz	c434147366	chore: update doc by replacing use_cuda_graph with cuda_graph_config (#5680 ) Signed-off-by: nv-guomingz <137257613+nv-guomingz@users.noreply.github.com>	2025-07-04 15:39:15 +09:00
Kaiyu Xie	ab488a5a5d	doc: Fix outdated config in DeepSeek best perf practice doc (#5638 ) Signed-off-by: Kaiyu Xie <26294424+kaiyux@users.noreply.github.com>	2025-07-04 13:14:13 +08:00
ixlmar	04fa6c0cfc	[TRTLLM-6143] feat: Improve dev container tagging (#5551 ) Signed-off-by: ixlmar <206748156+ixlmar@users.noreply.github.com>	2025-07-02 14:56:34 +02:00
Martin Marciniszyn Mehringer	be5ddb0533	Fix permission for local user issues in NGC docker container. (#5373 ) Signed-off-by: Martin Marciniszyn Mehringer <11665257+MartinMarciniszyn@users.noreply.github.com>	2025-07-01 20:12:55 +08:00
Martin Marciniszyn Mehringer	872610a048	doc: cherry pick #5334 (#5368 ) Signed-off-by: Martin Marciniszyn Mehringer <11665257+MartinMarciniszyn@users.noreply.github.com>	2025-07-01 20:12:55 +08:00
Yan Chunwei	a5eff139f1	[TRTLLM-5277] chore: refine llmapi examples for 1.0 (part1) (#5431 ) Signed-off-by: Superjomn <328693+Superjomn@users.noreply.github.com> Signed-off-by: Erin Ho <14718778+hchings@users.noreply.github.com> Co-authored-by: Erin Ho <14718778+hchings@users.noreply.github.com>	2025-07-01 19:06:41 +08:00
QI JUN	82547f733d	add feature support matrix for PyTorch backend (#5037 ) Signed-off-by: QI JUN <22017000+QiJune@users.noreply.github.com> Signed-off-by: junq <22017000+QiJune@users.noreply.github.com>	2025-07-01 10:09:54 +08:00
Erin	8caaf6871d	chores: [TRTLLM-6072] 1.0 LLMAPI doc updates (#5629 ) Signed-off-by: Erin Ho <14718778+hchings@users.noreply.github.com>	2025-06-30 21:58:45 -04:00
nv-guomingz	6e48ac25a6	chore: remove cuda_graph_ prefix from cuda_graph_config filed members. (#5585 ) Signed-off-by: nv-guomingz <137257613+nv-guomingz@users.noreply.github.com>	2025-06-30 12:23:14 -04:00
ixlmar	38a39772ce	[TRTLLM-5989, TRTLLM-5991, TRTLLM-5993] doc: Update container instructions (#5490 ) (#5605 ) Signed-off-by: ixlmar <206748156+ixlmar@users.noreply.github.com>	2025-06-30 13:27:49 +02:00
Kaiyu Xie	2ce200fbbb	doc: Minor update to DeepSeek R1 best practice (#5600 ) Signed-off-by: Kaiyu Xie <26294424+kaiyux@users.noreply.github.com>	2025-06-30 15:49:06 +08:00
Kaiyu Xie	749393ec9f	doc: Fix benchmark cmd in disagg scripts (#5515 ) Signed-off-by: Kaiyu Xie <26294424+kaiyux@users.noreply.github.com>	2025-06-26 17:04:55 +08:00
Fanrong Li	ebadc13086	[doc] update mtp documents (#5387 ) Signed-off-by: Fanrong Li <23290157+lfr-0531@users.noreply.github.com>	2025-06-21 16:05:52 +08:00
Adamz-nvidia	b1878eabeb	Add Wechat_Group_QR_Code.png to docs/source/media and main page of TR… (#5142 ) Signed-off-by: AdamZ	2025-06-20 03:28:00 +08:00
Yan Chunwei	9bd42ecf9b	[TRTLLM-5208][BREAKING CHANGE] chore: make pytorch LLM the default (#5312 ) Signed-off-by: Superjomn <328693+Superjomn@users.noreply.github.com>	2025-06-20 03:01:10 +08:00
Shi Xiaowei	1e35be5840	doc: subsequent modifications of blog 5 (#5366 ) Signed-off-by: Shixiaowei02 <39303645+Shixiaowei02@users.noreply.github.com>	2025-06-19 18:23:13 +08:00
Shi Xiaowei	9a53e58a58	blog: Disaggregated Serving in TensorRT-LLM (#5353 ) Signed-off-by: Shixiaowei02 <39303645+Shixiaowei02@users.noreply.github.com>	2025-06-19 18:02:15 +08:00
Xianjie Qiao	857108aeca	Add disagg slurm scripts (#5243 ) Signed-off-by: Xianjie <5410381+qiaoxj07@users.noreply.github.com>	2025-06-18 23:17:55 +08:00
Yan Chunwei	724e495254	chore: partition LLM class into TorchLLM and TrtLLM (#4900 ) Signed-off-by: Superjomn <328693+Superjomn@users.noreply.github.com>	2025-06-18 14:01:25 +08:00
Emma Qiao	ff32caf4d7	[Infra] - Update dependencies with NGC PyTorch 25.05 and TRT 10.11 (#4885 ) Signed-off-by: qqiao <qqiao@nvidia.com> Signed-off-by: Iman Tabrizian <10105175+tabrizian@users.noreply.github.com> Signed-off-by: Erin Ho <14718778+hchings@users.noreply.github.com> Signed-off-by: Emma Qiao <qqiao@nvidia.com> Co-authored-by: Iman Tabrizian <10105175+tabrizian@users.noreply.github.com> Co-authored-by: Erin Ho <14718778+hchings@users.noreply.github.com> Co-authored-by: Yanchao Lu <yanchaol@nvidia.com>	2025-06-17 23:48:34 +08:00
Yanchao Lu	f4cdbfcdf0	None - Some clean-ups for the automation pipeline (#5245 ) Signed-off-by: Yanchao Lu <yanchaol@nvidia.com>	2025-06-17 21:08:24 +08:00
Tao Li @ NVIDIA	03f1a6a3d8	Update DeepSeek R1 perf numbers to latest release/0.20 results (#5235 )	2025-06-16 17:42:13 +08:00

1 2 3 4

199 Commits