TensorRT-LLMs

mirror of https://github.com/NVIDIA/TensorRT-LLM.git synced 2026-01-14 06:27:45 +08:00

Author	SHA1	Message	Date
Guoming Zhang	ab915fb333	[None][doc] Use hash id for external link (#7641 ) Signed-off-by: nv-guomingz <137257613+nv-guomingz@users.noreply.github.com> Signed-off-by: Wangshanshan <30051912+dominicshanshan@users.noreply.github.com>	2025-09-22 14:28:38 +08:00
Guoming Zhang	5c54173054	[None][doc] Fix a invalid link and a typo. (#7634 ) Signed-off-by: nv-guomingz <137257613+nv-guomingz@users.noreply.github.com> Signed-off-by: Wangshanshan <30051912+dominicshanshan@users.noreply.github.com>	2025-09-22 14:28:38 +08:00
Guoming Zhang	8fed8ee066	[None][doc] add blackwell information into support matrix (#6740 ) Signed-off-by: nv-guomingz <137257613+nv-guomingz@users.noreply.github.com> Signed-off-by: Wangshanshan <30051912+dominicshanshan@users.noreply.github.com>	2025-09-22 14:28:38 +08:00
Yan Chunwei	2ffc33921f	[https://nvbugs/5416501 ][doc] add known issues to llmapi doc (#7560 ) Signed-off-by: Yan Chunwei <328693+Superjomn@users.noreply.github.com> Co-authored-by: Ryan McCormick <mccormick.codes@gmail.com> Signed-off-by: Wangshanshan <30051912+dominicshanshan@users.noreply.github.com>	2025-09-22 14:28:38 +08:00
Enwei Zhu	e943a39cbd	[None][doc] Update tech blog12 (#7884 ) Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com>	2025-09-20 18:15:39 +08:00
Kanghwan	8fcd11515d	[#7704 ][chore] Enable MathJax to fix formulas in documentation (#7744 ) Signed-off-by: Kanghwan Jang <861393+karljang@users.noreply.github.com>	2025-09-19 08:42:26 -07:00
Enwei Zhu	c8cc16d38d	[None][doc] Tech blog: Combining Guided Decoding and Speculative Decoding: Making CPU and GPU Cooperate Seamlessly (#7864 ) Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com>	2025-09-19 18:38:12 +08:00
dongfengy	026f22eb50	[None][doc] Cherry-pick deployment guide update from 1.1.0rc2 branch to main branch (#7774 ) Signed-off-by: Dongfeng Yu <dongfengy@nvidia.com>	2025-09-18 22:50:26 +08:00
Wanli Jiang	fe104dc20d	[TRTLLM-7918][feat] Support kvcache reuse and chunk prefill for phi4mm (#7723 ) Signed-off-by: Wanli Jiang <35160485+Wanli-Jiang@users.noreply.github.com>	2025-09-18 17:37:16 +08:00
Wanli Jiang	a7ca0fff54	[TRTLLM-6577][feat] Support nano_v2_vlm in pytorch backend (#7207 ) Signed-off-by: Wanli Jiang <35160485+Wanli-Jiang@users.noreply.github.com>	2025-09-18 16:26:20 +08:00
William Zhang	2614d71994	[TRTLLM-7410][feat] Enable KV cache reuse and chunked prefill for mistral3.1 (#7628 ) Signed-off-by: William Zhang <133824995+2ez4bz@users.noreply.github.com>	2025-09-17 08:11:16 -07:00
QI JUN	39248320d4	[None][feat] add an example of KV cache host offloading (#7767 ) Signed-off-by: junq <22017000+QiJune@users.noreply.github.com>	2025-09-17 13:51:15 +08:00
Chang Liu	98f533453a	[TRTLLM-7398][doc] Add doc for KV cache salting support (#7772 ) Signed-off-by: Chang Liu (Enterprise Products) <9713593+chang-l@users.noreply.github.com>	2025-09-16 14:49:14 -07:00
Guoming Zhang	085271eceb	[None][doc] Clean the doc folder and move the outdated docs into lega… (#7729 ) Signed-off-by: nv-guomingz <137257613+nv-guomingz@users.noreply.github.com>	2025-09-16 11:43:19 +08:00
Shi Xiaowei	809c4d20c0	[None][doc] Fix the link in the doc (#7713 ) Signed-off-by: Shi Xiaowei <39303645+Shixiaowei02@users.noreply.github.com>	2025-09-16 09:50:25 +08:00
Wanli Jiang	e080294725	[TRTLLM-7918][feat] Revert "Support kvcache reuse for phi4mm (#7563 )" (#7722 ) Signed-off-by: Wanli Jiang <35160485+Wanli-Jiang@users.noreply.github.com>	2025-09-15 17:19:44 +08:00
Wanli Jiang	fc9f4c9295	[TRTLLM-7918][feat] Support kvcache reuse for phi4mm (#7563 ) Signed-off-by: Wanli Jiang <35160485+Wanli-Jiang@users.noreply.github.com>	2025-09-15 15:47:00 +08:00
Chang Liu	47e37755a3	[TRTLLM-6903][feat] Support chunked prefill for multimodal models (#6843 ) Signed-off-by: Chang Liu (Enterprise Products) <9713593+chang-l@users.noreply.github.com>	2025-09-14 20:10:10 -07:00
v-shobhit	0652514c6d	[None][feat] Use a shell context to install dependancies (#7383 ) Signed-off-by: Shobhit Verma <shobhitv@nvidia.com> Signed-off-by: v-shobhit <161510941+v-shobhit@users.noreply.github.com> Co-authored-by: Zhihan Jiang <68881590+nvzhihanj@users.noreply.github.com>	2025-09-10 09:57:37 -07:00
Chang Liu	faa2f46554	[TRTLLM-5059][feat] Enable KV-cache reuse and add E2E tests for llava-next (#7349 ) Signed-off-by: Chang Liu (Enterprise Products) <9713593+chang-l@users.noreply.github.com>	2025-09-09 14:51:36 -04:00
Guoming Zhang	7f3f658d5f	[None][doc] Rename TensorRT-LLM to TensorRT LLM. (#7554 ) Signed-off-by: nv-guomingz <137257613+nv-guomingz@users.noreply.github.com> Signed-off-by: Wangshanshan <30051912+dominicshanshan@users.noreply.github.com>	2025-09-09 12:16:03 +08:00
Guoming Zhang	35dac55716	[None][doc] Update kvcache part (#7549 ) Signed-off-by: nv-guomingz <137257613+nv-guomingz@users.noreply.github.com> Signed-off-by: Wangshanshan <30051912+dominicshanshan@users.noreply.github.com>	2025-09-09 12:16:03 +08:00
Guoming Zhang	f53fb4c803	[TRTLLM-5930][doc] 1.0 Documentation. (#6696 ) Signed-off-by: nv-guomingz <137257613+nv-guomingz@users.noreply.github.com> Signed-off-by: Wangshanshan <30051912+dominicshanshan@users.noreply.github.com>	2025-09-09 12:16:03 +08:00
dominicshanshan	c9dca69e1b	[None][chore] Mass integration of release/1.0 - 3rd (#7519 ) Signed-off-by: Nave Assaf <nassaf@nvidia.com> Signed-off-by: Wangshanshan <30051912+dominicshanshan@users.noreply.github.com> Signed-off-by: yechank <161688079+yechank-nvidia@users.noreply.github.com> Signed-off-by: Balaram Buddharaju <169953907+brb-nv@users.noreply.github.com> Signed-off-by: Iman Tabrizian <10105175+tabrizian@users.noreply.github.com> Signed-off-by: qqiao <qqiao@nvidia.com> Signed-off-by: Superjomn <328693+Superjomn@users.noreply.github.com> Signed-off-by: Bo Deng <deemod@nvidia.com> Signed-off-by: Jin Li <59594262+liji-nv@users.noreply.github.com> Signed-off-by: Yifei Zhang <219273404+yifeizhang-c@users.noreply.github.com> Signed-off-by: Amit Zuker <203509407+amitz-nv@users.noreply.github.com> Signed-off-by: Erin Ho <14718778+hchings@users.noreply.github.com> Signed-off-by: Chenfei Zhang <chenfeiz@nvidia.com> Signed-off-by: Christina Zhang <83400082+ChristinaZ@users.noreply.github.com> Signed-off-by: Venky Ganesh <23023424+venkywonka@users.noreply.github.com> Signed-off-by: Pamela <179191831+pamelap-nvidia@users.noreply.github.com> Signed-off-by: Hui Gao <huig@nvidia.com> Signed-off-by: Alexandre Milesi <30204471+milesial@users.noreply.github.com> Signed-off-by: Shixiaowei02 <39303645+Shixiaowei02@users.noreply.github.com> Signed-off-by: Michal Guzek <mguzek@nvidia.com> Signed-off-by: peaceh <103117813+peaceh-nv@users.noreply.github.com> Signed-off-by: nv-guomingz <137257613+nv-guomingz@users.noreply.github.com> Signed-off-by: Wanli Jiang <35160485+Wanli-Jiang@users.noreply.github.com> Signed-off-by: Patrice Castonguay <55748270+pcastonguay@users.noreply.github.com> Signed-off-by: ruodil <200874449+ruodil@users.noreply.github.com> Signed-off-by: Linda-Stadter <57756729+Linda-Stadter@users.noreply.github.com> Signed-off-by: Yuxian Qiu <142763828+yuxianq@users.noreply.github.com> Signed-off-by: Jiagan Cheng <jiaganc@nvidia.com> Signed-off-by: William Zhang <133824995+2ez4bz@users.noreply.github.com> Signed-off-by: Dom Brown <3886319+DomBrown@users.noreply.github.com> Co-authored-by: Nave Assaf <55059536+Naveassaf@users.noreply.github.com> Co-authored-by: Yechan Kim <161688079+yechank-nvidia@users.noreply.github.com> Co-authored-by: brb-nv <169953907+brb-nv@users.noreply.github.com> Co-authored-by: Iman Tabrizian <10105175+Tabrizian@users.noreply.github.com> Co-authored-by: Emma Qiao <qqiao@nvidia.com> Co-authored-by: Yan Chunwei <328693+Superjomn@users.noreply.github.com> Co-authored-by: Bo Deng <deemod@nvidia.com> Co-authored-by: Jin Li <59594262+liji-nv@users.noreply.github.com> Co-authored-by: yifeizhang-c <219273404+yifeizhang-c@users.noreply.github.com> Co-authored-by: amitz-nv <203509407+amitz-nv@users.noreply.github.com> Co-authored-by: Erin <14718778+hchings@users.noreply.github.com> Co-authored-by: chenfeiz0326 <chenfeiz@nvidia.com> Co-authored-by: ChristinaZ <83400082+ChristinaZ@users.noreply.github.com> Co-authored-by: Venky <23023424+venkywonka@users.noreply.github.com> Co-authored-by: Pamela Peng <179191831+pamelap-nvidia@users.noreply.github.com> Co-authored-by: HuiGao-NV <huig@nvidia.com> Co-authored-by: milesial <milesial@users.noreply.github.com> Co-authored-by: Shi Xiaowei <39303645+Shixiaowei02@users.noreply.github.com> Co-authored-by: Michal Guzek <moraxu@users.noreply.github.com> Co-authored-by: peaceh-nv <103117813+peaceh-nv@users.noreply.github.com> Co-authored-by: Guoming Zhang <137257613+nv-guomingz@users.noreply.github.com> Co-authored-by: Wanli Jiang <35160485+Wanli-Jiang@users.noreply.github.com> Co-authored-by: pcastonguay <55748270+pcastonguay@users.noreply.github.com> Co-authored-by: ruodil <200874449+ruodil@users.noreply.github.com> Co-authored-by: Linda <57756729+Linda-Stadter@users.noreply.github.com> Co-authored-by: Zhanrui Sun <184402041+ZhanruiSunCh@users.noreply.github.com> Co-authored-by: Yuxian Qiu <142763828+yuxianq@users.noreply.github.com> Co-authored-by: Jiagan Cheng <jiaganc@nvidia.com> Co-authored-by: William Zhang <133824995+2ez4bz@users.noreply.github.com> Co-authored-by: Larry <197874197+LarryXFly@users.noreply.github.com> Co-authored-by: Sharan Chetlur <116769508+schetlur-nv@users.noreply.github.com> Co-authored-by: Dom Brown <3886319+DomBrown@users.noreply.github.com>	2025-09-08 14:03:04 +08:00
binghanc	14ee43e254	[None][docs] refine docs for accuracy evaluation of gpt-oss models (#7252 ) Signed-off-by: 176802681+binghanc@users.noreply.github.com	2025-09-08 09:56:23 +08:00
Enwei Zhu	5ff3a65b23	[TRTLLM-7028][feat] Enable guided decoding with speculative decoding (part 2: one-model engine) (#6948 ) Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com>	2025-09-03 15:16:11 -07:00
Izzy Putterman	f156221c27	[None][doc] add GPT OSS Eagle3 blog (#7140 ) Signed-off-by: Izzy Putterman <iputterman@nvidia.com>	2025-09-03 12:28:01 -04:00
Wanli Jiang	4223a9aada	[TRTLLM-7261][feat] Support phi-4 model in pytorch backend (#7371 ) Signed-off-by: Wanli Jiang <35160485+Wanli-Jiang@users.noreply.github.com>	2025-09-03 10:27:42 +08:00
Yan Chunwei	612c26be22	[None][doc] add legacy section for tensorrt engine (#6724 ) Signed-off-by: Superjomn <328693+Superjomn@users.noreply.github.com> Signed-off-by: Wangshanshan <30051912+dominicshanshan@users.noreply.github.com>	2025-09-01 11:02:31 +08:00
Robin Kobus	e09c025ffb	[None] [fix] store blog 10 media via lfs (#7375 ) Signed-off-by: Robin Kobus <19427718+Funatiq@users.noreply.github.com>	2025-08-30 10:17:53 +08:00
yunruis	f617b03bfc	[None][fix] fix doc formula (#7367 ) Signed-off-by: yunruis <205571022+yunruis@users.noreply.github.com>	2025-08-29 04:48:10 -04:00
dongfengy	367ff88a5e	[None][feat] Refactor llama4 for multimodal encoder IFB (#6844 ) Signed-off-by: Dongfeng Yu <dongfengy@nvidia.com>	2025-08-28 13:22:19 -07:00
yunruis	c4f823319b	[None][doc] add adp balance blog (#7213 ) Signed-off-by: yunruis <205571022+yunruis@users.noreply.github.com> Co-authored-by: Kefeng-Duan <176893526+Kefeng-Duan@users.noreply.github.com>	2025-08-28 11:19:34 -04:00
Maurits de Groot	2d0c9b383f	[None][fix] Updated blog9_Deploying_GPT_OSS_on_TRTLLM (#7260 ) Signed-off-by: Maurits de Groot <63357890+Maurits-de-Groot@users.noreply.github.com>	2025-08-26 11:26:19 -04:00
Guoming Zhang	bf377d0b8e	[None][doc] Display tech blog for nvidia.github.io domain. (#7241 ) Signed-off-by: nv-guomingz <137257613+nv-guomingz@users.noreply.github.com>	2025-08-26 15:36:28 +08:00
Zheng Duan	4f84a45899	[https://nvbugs/5452463 ][doc] update disagg doc about UCX_MAX_RNDV_RAILS (#7205 ) Signed-off-by: zhengd-nv <200704041+zhengd-nv@users.noreply.github.com>	2025-08-25 22:42:42 -04:00
Leslie Fang	9df15b2104	[None][doc] update feature_combination_matrix doc (#6691 ) Signed-off-by: leslie-fang25 <leslief@nvidia.com>	2025-08-26 08:25:31 +08:00
dongfengy	48155f52bf	[TRTLLM-7321][doc] Refine GPT-OSS doc (#7180 ) Signed-off-by: Dongfeng Yu	2025-08-24 08:53:53 -04:00
Suyog Gupta	e3de5758a3	[#7136 ][feat] trtllm-serve + autodeploy integration (#7141 ) Signed-off-by: Suyog Gupta <41447211+suyoggupta@users.noreply.github.com>	2025-08-22 08:30:53 -07:00
dongfengy	d94cc3fa3c	[TRTLLM-7321][doc] Add GPT-OSS Deployment Guide into official doc site (#7143 ) Signed-off-by: Dongfeng Yu	2025-08-22 16:17:01 +08:00
Farshad Ghodsian	2d40e8750b	[None][doc] Update gpt-oss deployment guide to latest release image (#7101 ) Signed-off-by: Farshad Ghodsian <47931571+farshadghodsian@users.noreply.github.com> Co-authored-by: coderabbitai[bot] <136622811+coderabbitai[bot]@users.noreply.github.com>	2025-08-21 02:33:07 -04:00
Leslie Fang	3f6a9267f1	[None][infra] update feature_combination_matrix of disaggregated and chunked prefill (#6661 ) Signed-off-by: leslie-fang25 <leslief@nvidia.com>	2025-08-20 13:14:34 +08:00
Kaiyu Xie	9a74ee9dae	[None] [doc] Add more documents for large scale EP (#7029 ) Signed-off-by: Kaiyu Xie <26294424+kaiyux@users.noreply.github.com>	2025-08-19 19:04:39 +08:00
Fridah-nv	97ba0eb879	[None][autodeploy] Doc: fix link path in trtllm bench doc (#7007 ) Signed-off-by: Frida Hou <201670829+Fridah-nv@users.noreply.github.com>	2025-08-19 08:43:28 +08:00
Leslie Fang	e76e5c640f	[None][infra] Enable accuracy test for mtp and chunked prefill (#6314 ) Signed-off-by: leslie-fang25 <leslief@nvidia.com>	2025-08-19 07:42:52 +08:00
Bo Li	8b05b5d801	[None][doc] Update gpt oss doc (#6954 ) Signed-off-by: Bo Li <22713281+bobboli@users.noreply.github.com> Co-authored-by: coderabbitai[bot] <136622811+coderabbitai[bot]@users.noreply.github.com>	2025-08-18 01:27:30 -04:00
Leslie Fang	ce0b13ea02	[None][infra] update feature_combination_matrix of disaggregated and Eagle3 (#6945 ) Signed-off-by: leslie-fang25 <leslief@nvidia.com>	2025-08-18 09:18:17 +08:00
Daniel Cámpora	53312eeebd	[TRTLLM-7157][feat] BREAKING CHANGE Introduce sampler_type, detect sampler according to options (#6831 ) Signed-off-by: Daniel Campora <961215+dcampora@users.noreply.github.com>	2025-08-16 00:27:24 -04:00
jmydurant	8e252256f5	[None][doc] Modify the description for mla chunked context (#6929 ) Signed-off-by: Mingyang Jiang <13463932+jmydurant@users.noreply.github.com>	2025-08-15 12:52:26 +08:00
JunyiXu-nv	70e352a6f7	[https://nvbugs/5437106 ][fix] Add L4 Scout benchmarking WAR option in deploy guide (#6829 ) Signed-off-by: Junyi Xu <junyix@nvidia.com>	2025-08-15 08:53:13 +08:00
Tao Li @ NVIDIA	345d3d3524	[None][doc] update moe support matrix for DS R1 (#6883 ) Signed-off-by: taoli <litaotju@users.noreply.github.com> Co-authored-by: taoli <litaotju@users.noreply.github.com>	2025-08-14 13:55:11 +08:00
Zhenhua Wang	868c5d166e	[None][chore] fix markdown format for the deployment guide (#6879 ) Signed-off-by: Zhenhua Wang <zhenhuaw@nvidia.com>	2025-08-13 22:19:11 -04:00
Zhenhua Wang	8416d7fea8	[https://nvbugs/5412885 ][doc] Add the workaround doc for H200 OOM (#6853 ) Signed-off-by: Zhenhua Wang <4936589+zhenhuaw-me@users.noreply.github.com>	2025-08-13 19:51:38 +08:00
Shi Xiaowei	fe7dda834d	[TRTLLM-7030][fix] Refactor the example doc of dist-serving (#6766 ) Signed-off-by: Shixiaowei02 <39303645+Shixiaowei02@users.noreply.github.com>	2025-08-13 17:39:27 +08:00
Yechan Kim	12102e2d48	[TRTLLM-6772][feat] Multimodal benchmark_serving support (#6622 ) Signed-off-by: yechank <161688079+yechank-nvidia@users.noreply.github.com>	2025-08-12 19:34:02 -07:00
rakib-hasan	7ab8112450	[None][fix] Refactoring to avoid circular import when importing torch models (#6720 ) Signed-off-by: Rakib Hasan <rhasan@nvidia.com>	2025-08-11 18:00:42 -04:00
shaharmor98	b6baa9ed9b	[TRTLLM-6823][doc] Add checkpoint refactor docs (#6592 ) Signed-off-by: Shahar Mor <17088876+shaharmor98@users.noreply.github.com>	2025-08-10 19:47:39 -04:00
Fridah-nv	cc0f4c87d4	[None][doc] Move AutoDeploy README.md to torch docs (#6528 ) Signed-off-by: Frida Hou <201670829+Fridah-nv@users.noreply.github.com> Signed-off-by: Suyog Gupta <41447211+suyoggupta@users.noreply.github.com> Co-authored-by: Suyog Gupta <41447211+suyoggupta@users.noreply.github.com>	2025-08-08 19:11:45 -04:00
Chang Liu	9687bb42b5	[None][doc] Add doc for multimodal feature support matrix (#6619 ) Signed-off-by: Chang Liu <9713593+chang-l@users.noreply.github.com>	2025-08-08 02:20:29 -04:00
Enwei Zhu	aee828d98a	[TRTLLM-6854][feat] Enable guided decoding with disagg serving (#6704 ) Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com>	2025-08-08 12:10:36 +08:00
Daniel Cámpora	efca359b66	[TRTLLM-6785][feat] BREAKING CHANGE Enable TRTLLM sampler by default (#6216 ) Signed-off-by: Daniel Campora <961215+dcampora@users.noreply.github.com>	2025-08-07 22:19:37 -04:00
Andrew Chen	4ecda91ecc	[https://nvbugs/5423962 ][fix] Address broken links (#6531 )	2025-08-07 16:00:05 -04:00
Guoming Zhang	0223de0727	[None][doc] Add deployment guide section for VDR task (#6669 ) Signed-off-by: nv-guomingz <137257613+nv-guomingz@users.noreply.github.com>	2025-08-07 10:30:47 -04:00
Enwei Zhu	1b9781e8e7	[TRTLLM-6409][feat] Enable guided decoding with speculative decoding (part 1: two-model engine) (#6300 ) Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com>	2025-08-07 05:53:48 -04:00
shaharmor98	c23e8e7b05	[TRTLLM-6092][doc] Add LoRA feature usage doc (#6603 ) Signed-off-by: Shahar Mor <17088876+shaharmor98@users.noreply.github.com>	2025-08-07 05:24:12 -04:00
Guoming Zhang	f7f46a5017	doc: remove the outdated features which marked as Experimental (#5995 ) Signed-off-by: nv-guomingz <137257613+nv-guomingz@users.noreply.github.com>	2025-08-06 22:01:42 -04:00
Yanchao Lu	b7347ce7d1	[https://nvbugs/5433581 ][fix] Revert deep_gemm installation workaround for SBSA (#6666 ) Signed-off-by: Yanchao Lu <yanchaol@nvidia.com>	2025-08-06 18:50:53 +08:00
Guoming Zhang	3036d49071	[None][doc] Unify the tech blogs naming. (#6649 ) Signed-off-by: nv-guomingz <137257613+nv-guomingz@users.noreply.github.com>	2025-08-06 01:45:40 -04:00
Farshad Ghodsian	6af1514dc3	[None][doc] Adding GPT-OSS Deployment Guide documentation (#6637 ) Signed-off-by: Farshad Ghodsian <47931571+farshadghodsian@users.noreply.github.com> Co-authored-by: Sharan Chetlur <116769508+schetlur-nv@users.noreply.github.com>	2025-08-05 19:19:48 +02:00
Guoming Zhang	db51ab11a9	[TRTLLM-5990][doc] trtllm-serve doc improvement. (#5220 ) Signed-off-by: nv-guomingz <137257613+nv-guomingz@users.noreply.github.com>	2025-08-05 13:04:01 +08:00
Yanchao Lu	d53cc2374b	[https://nvbugs/5433581 ][infra] Update install docs and CI script for SBSA deep_gemm workaround (#6607 ) Signed-off-by: Yanchao Lu <yanchaol@nvidia.com>	2025-08-04 23:36:38 -04:00
Enwei Zhu	899b74c357	[None][doc] Fix blog4 typo (#6612 ) Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com>	2025-08-05 10:20:37 +08:00
Leslie Fang	b9fe0fa7ec	[None][infra] Enable test of chunked prefill with logit post processor (#6483 ) Signed-off-by: leslie-fang25 <leslief@nvidia.com>	2025-08-04 01:46:07 -04:00
Leslie Fang	a60190836c	[None][infra] Enable accuracy test for eagle3 and chunked prefill (#6386 ) Signed-off-by: leslie-fang25 <leslief@nvidia.com>	2025-08-04 01:45:24 -04:00
Zhenhua Wang	59d91b8b94	[None][chore] add online help to build_wheel.py and fix a doc link (#6391 ) Signed-off-by: Zhenhua Wang <zhenhuaw@nvidia.com>	2025-08-04 13:14:55 +08:00
Zac Patel	18d1941083	[doc] Update perf_overview.md for release 0.21 (#6270 ) Signed-off-by: zpatel <22306219+zbpatel@users.noreply.github.com>	2025-08-04 11:19:58 +08:00
QI JUN	5913282e17	doc: update release notes (#6438 ) Signed-off-by: junq <22017000+QiJune@users.noreply.github.com>	2025-08-04 11:19:58 +08:00
QI JUN	e1eca33dfc	doc: update release notes (#6324 ) Signed-off-by: junq <22017000+QiJune@users.noreply.github.com>	2025-08-04 11:19:58 +08:00
QI JUN	3f47117870	doc: update known issues (#6247 ) Signed-off-by: junq <22017000+QiJune@users.noreply.github.com>	2025-08-04 11:19:58 +08:00
Yiqing Yan	3f7abf87bc	[TRTLLM-6224][infra] Upgrade dependencies to DLFW 25.06 and CUDA 12.9.1 (#5678 ) Signed-off-by: Yiqing Yan <yiqingy@nvidia.com>	2025-08-03 11:18:59 +08:00
Kaiyu Xie	147ad69368	[None][doc] blog: Scaling Expert Parallelism in TensorRT-LLM (Part 2: Performance Status and Optimization) (#6547 ) Signed-off-by: Kaiyu XIe <26294424+kaiyux@users.noreply.github.com>	2025-08-01 16:46:15 +08:00
Wanli Jiang	fcd5706615	doc: add bielik model to support-matrix (#6480 ) Signed-off-by: Wanli Jiang <35160485+Wanli-Jiang@users.noreply.github.com>	2025-07-31 00:48:53 -04:00
Yechan Kim	83621e4b80	doc: update multimodal models on support-matrix.md (#6431 ) Signed-off-by: yechank <161688079+yechank-nvidia@users.noreply.github.com>	2025-07-31 08:50:18 +08:00
nv-guomingz	03e38c9087	chore: update trtllm-serve usage doc by removing backend parameter when it use torch as backend. (#6419 ) Signed-off-by: nv-guomingz <137257613+nv-guomingz@users.noreply.github.com>	2025-07-30 11:11:06 -04:00
Leslie Fang	d980928c96	[doc] update the doc of feature combination matrix (#6441 ) Signed-off-by: leslie-fang25 <leslief@nvidia.com>	2025-07-30 18:48:49 +08:00
nv-guomingz	7231134996	doc: remove backend parameter for trtllm-bench when backend is set to… (#6428 ) Signed-off-by: nv-guomingz <137257613+nv-guomingz@users.noreply.github.com>	2025-07-29 11:01:21 -04:00
Kaiyu Xie	e58afa510e	doc: Add README for wide EP (#6356 ) Signed-off-by: Kaiyu Xie <26294424+kaiyux@users.noreply.github.com>	2025-07-29 00:36:12 -04:00
nv-guomingz	49044733e1	chore: delete useless gitkeep files. (#6400 ) Signed-off-by: nv-guomingz <137257613+nv-guomingz@users.noreply.github.com>	2025-07-28 11:38:30 -04:00
Yan Chunwei	45d441e60c	[TRTLLM-5061] chore: add status tags to LLM API reference (#5707 ) Signed-off-by: Superjomn <328693+Superjomn@users.noreply.github.com>	2025-07-28 15:57:07 +08:00
Simeng Liu	7bff341553	[doc] Add NGram tech blog (#6311 ) Signed-off-by: Simeng Liu <simengl@nvidia.com>	2025-07-25 10:26:33 -07:00
Lizhi Zhou	a63a1ac7f9	[TRTLLM-6444] Add some UCX trouble shooting docs and print UCX related logs (#6085 ) Signed-off-by: Lizhi Zhou <1432185+reasonsolo@users.noreply.github.com>	2025-07-24 16:21:01 +08:00
nv-guomingz	31d3eff24b	doc: fix invalid links related with llm api example (#6317 ) Signed-off-by: nv-guomingz <137257613+nv-guomingz@users.noreply.github.com>	2025-07-24 00:46:51 -04:00
Kaiyu Xie	f08286c679	doc: Refactor documents and examples of disaggregated serving and wide ep (#6054 ) Signed-off-by: Kaiyu Xie <26294424+kaiyux@users.noreply.github.com>	2025-07-23 09:20:57 +08:00
Raayan Dhar	5234502717	[nvbug/5361223] doc: Update Llama4 deployment guide: update config & note concurrency (#6222 ) Signed-off-by: raayandhar <rdhar@nvidia.com>	2025-07-22 11:28:23 -07:00
Yechan Kim	b85ab139f9	doc: add supported data modality and types on multimodal serve (#5988 ) Signed-off-by: yechank <161688079+yechank-nvidia@users.noreply.github.com>	2025-07-22 14:32:41 +08:00
bhsueh_NV	24ce6b9517	[Doc][Qwen3] update qwen3 into support-matrix (#6161 ) Signed-off-by: bhsueh <11360707+byshiue@users.noreply.github.com>	2025-07-22 12:48:00 +08:00
QI JUN	a03c680581	add release notes for 0.21 release (#6049 ) Signed-off-by: junq <22017000+QiJune@users.noreply.github.com> Signed-off-by: Sharan Chetlur <116769508+schetlur-nv@users.noreply.github.com> Signed-off-by: QI JUN <22017000+QiJune@users.noreply.github.com> Co-authored-by: Sharan Chetlur <116769508+schetlur-nv@users.noreply.github.com> Co-authored-by: Yanchao Lu <yanchaol@nvidia.com>	2025-07-22 12:48:00 +08:00
nv-guomingz	34dd071bd6	[TRTLLM-6495] doc: add disclaimer for 3rd party software installation. (#6039 ) Signed-off-by: nv-guomingz <137257613+nv-guomingz@users.noreply.github.com>	2025-07-22 12:48:00 +08:00
amirkl94	f4f2176cd5	chore: Port leftover 0.20 (#5907 ) Signed-off-by: nv-guomingz <137257613+nv-guomingz@users.noreply.github.com> Signed-off-by: Yingge He <yinggeh@nvidia.com> Signed-off-by: Martin Marciniszyn Mehringer <11665257+MartinMarciniszyn@users.noreply.github.com> Signed-off-by: Kaiyu Xie <26294424+kaiyux@users.noreply.github.com> Co-authored-by: nv-guomingz <137257613+nv-guomingz@users.noreply.github.com> Co-authored-by: Yingge He <157551214+yinggeh@users.noreply.github.com> Co-authored-by: Martin Marciniszyn Mehringer <11665257+MartinMarciniszyn@users.noreply.github.com> Co-authored-by: Kaiyu Xie <26294424+kaiyux@users.noreply.github.com> Co-authored-by: zpatel <22306219+zbpatel@users.noreply.github.com>	2025-07-22 12:48:00 +08:00
nv-guomingz	b4c7e8c9a5	doc: remove cuda_graph_config: {} from doc since cuda_graph enabled b… (#6150 ) Signed-off-by: nv-guomingz <137257613+nv-guomingz@users.noreply.github.com>	2025-07-21 10:49:29 +08:00
wili	82d3587bb8	[refactor] Unify name of NGram speculative decoding (#5937 ) Signed-off-by: wili-65535 <wili-65535@users.noreply.github.com> Co-authored-by: wili-65535 <wili-65535@users.noreply.github.com>	2025-07-19 12:59:57 +08:00
Venky	22d4a8c48a	enh: Add script to map tests <-> jenkins stages & vice-versa (#5177 ) Signed-off-by: Venky Ganesh <23023424+venkywonka@users.noreply.github.com> Signed-off-by: Yanchao Lu <yanchaol@nvidia.com> Co-authored-by: Yanchao Lu <yanchaol@nvidia.com>	2025-07-19 00:50:40 +08:00
Leslie Fang	44040edbf0	update broken link of PyTorchModelEngine in arch_overview (#6171 ) Signed-off-by: leslie-fang25 <leslief@nvidia.com>	2025-07-18 19:53:38 +08:00
Enwei Zhu	21efb50068	[TRTLLM-6406] feat: Enable guided decoding with overlap scheduler (#6000 ) Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com>	2025-07-17 17:46:10 +08:00
Chuang Zhu	44c70c88f9	chore:[BREAKING CHANGE] use cacheTransceiverConfig as knobs for disagg service (#5234 ) Signed-off-by: Chuang Zhu <111838961+chuangz0@users.noreply.github.com>	2025-07-17 17:42:07 +08:00
Frank	28385f6571	[TRTLLM-6070] docs: Add initial documentation for trtllm-bench CLI. (#5734 ) Signed-off-by: Frank Di Natale <3429989+FrankD412@users.noreply.github.com> Signed-off-by: Frank <3429989+FrankD412@users.noreply.github.com> Co-authored-by: Kaiyu Xie <26294424+kaiyux@users.noreply.github.com>	2025-07-17 09:15:06 +08:00
Iman Tabrizian	301b78bb77	Add documentation for eagle3+disagg+dynamo (#6072 ) Signed-off-by: Iman Tabrizian <10105175+tabrizian@users.noreply.github.com>	2025-07-16 08:39:29 -07:00
nv-guomingz	4e4d18826f	chore: [Breaking Change] Rename cuda_graph_config padding_enabled fie… (#6003 ) Signed-off-by: nv-guomingz <137257613+nv-guomingz@users.noreply.github.com>	2025-07-15 15:50:03 +09:00
Yi Zhang	966e41a900	doc: Update gb200 doc (#5840 ) Signed-off-by: yizhan <187001205+yizhang-nv@users.noreply.github.com>	2025-07-14 17:17:30 +08:00
Shi Xiaowei	f4e0425a7b	doc: update the link of the diagram (#5953 ) Signed-off-by: Shixiaowei02 <39303645+Shixiaowei02@users.noreply.github.com>	2025-07-11 18:02:22 +09:00
Shi Xiaowei	49359574c1	[TRTLLM-5673] Doc: ensure the disagg doc is up to date (#5938 )	2025-07-11 17:39:05 +09:00
Shi Xiaowei	37293e4dfd	blog: add qwen3 disagg perf metrics (#5822 )	2025-07-11 16:41:45 +09:00
wili	2e3cf42e03	[refactor] Simplification of Speculative decoding configs (#5639 ) Signed-off-by: wili-65535 <wili-65535@users.noreply.github.com> Co-authored-by: wili-65535 <wili-65535@users.noreply.github.com>	2025-07-10 11:37:30 -04:00
Yan Chunwei	07f6da763d	[TRTLLM-5530] chore: rename LLM.autotuner_enabled to enable_autotuner (#5876 ) Signed-off-by: Superjomn <328693+Superjomn@users.noreply.github.com>	2025-07-10 11:31:35 +08:00
Erin	e277766f0d	chores: merge examples for v1.0 doc (#5736 ) Signed-off-by: Erin Ho <14718778+hchings@users.noreply.github.com>	2025-07-08 21:00:42 -07:00
jiahanc	607bf4c395	Doc: Add llama4 Maverick eagle3 and max-throughput and low_latency benchmark guide (#5810 ) Signed-off-by: jiahanc <173873397+jiahanc@users.noreply.github.com>	2025-07-09 10:10:02 +09:00
nv-guomingz	c8fa08da5c	doc: update cuda_graph_config usage part in DS R1 docs (#5796 ) Signed-off-by: nv-guomingz <137257613+nv-guomingz@users.noreply.github.com> Co-authored-by: Kaiyu Xie <26294424+kaiyux@users.noreply.github.com>	2025-07-08 16:54:46 +09:00
nv-guomingz	0be41b6524	Revert "chore: [Breaking Change] Rename cuda_graph_config padding_enabled fie…" (#5818 )	2025-07-08 13:15:30 +09:00
nv-guomingz	5a8173c121	chore: [Breaking Change] Rename cuda_graph_config padding_enabled fie… (#5795 ) Signed-off-by: nv-guomingz <137257613+nv-guomingz@users.noreply.github.com>	2025-07-08 08:52:36 +08:00
nv-guomingz	c434147366	chore: update doc by replacing use_cuda_graph with cuda_graph_config (#5680 ) Signed-off-by: nv-guomingz <137257613+nv-guomingz@users.noreply.github.com>	2025-07-04 15:39:15 +09:00
Kaiyu Xie	ab488a5a5d	doc: Fix outdated config in DeepSeek best perf practice doc (#5638 ) Signed-off-by: Kaiyu Xie <26294424+kaiyux@users.noreply.github.com>	2025-07-04 13:14:13 +08:00
ixlmar	04fa6c0cfc	[TRTLLM-6143] feat: Improve dev container tagging (#5551 ) Signed-off-by: ixlmar <206748156+ixlmar@users.noreply.github.com>	2025-07-02 14:56:34 +02:00
Martin Marciniszyn Mehringer	be5ddb0533	Fix permission for local user issues in NGC docker container. (#5373 ) Signed-off-by: Martin Marciniszyn Mehringer <11665257+MartinMarciniszyn@users.noreply.github.com>	2025-07-01 20:12:55 +08:00
Martin Marciniszyn Mehringer	872610a048	doc: cherry pick #5334 (#5368 ) Signed-off-by: Martin Marciniszyn Mehringer <11665257+MartinMarciniszyn@users.noreply.github.com>	2025-07-01 20:12:55 +08:00
Yan Chunwei	a5eff139f1	[TRTLLM-5277] chore: refine llmapi examples for 1.0 (part1) (#5431 ) Signed-off-by: Superjomn <328693+Superjomn@users.noreply.github.com> Signed-off-by: Erin Ho <14718778+hchings@users.noreply.github.com> Co-authored-by: Erin Ho <14718778+hchings@users.noreply.github.com>	2025-07-01 19:06:41 +08:00
QI JUN	82547f733d	add feature support matrix for PyTorch backend (#5037 ) Signed-off-by: QI JUN <22017000+QiJune@users.noreply.github.com> Signed-off-by: junq <22017000+QiJune@users.noreply.github.com>	2025-07-01 10:09:54 +08:00
Erin	8caaf6871d	chores: [TRTLLM-6072] 1.0 LLMAPI doc updates (#5629 ) Signed-off-by: Erin Ho <14718778+hchings@users.noreply.github.com>	2025-06-30 21:58:45 -04:00
nv-guomingz	6e48ac25a6	chore: remove cuda_graph_ prefix from cuda_graph_config filed members. (#5585 ) Signed-off-by: nv-guomingz <137257613+nv-guomingz@users.noreply.github.com>	2025-06-30 12:23:14 -04:00
ixlmar	38a39772ce	[TRTLLM-5989, TRTLLM-5991, TRTLLM-5993] doc: Update container instructions (#5490 ) (#5605 ) Signed-off-by: ixlmar <206748156+ixlmar@users.noreply.github.com>	2025-06-30 13:27:49 +02:00
Kaiyu Xie	2ce200fbbb	doc: Minor update to DeepSeek R1 best practice (#5600 ) Signed-off-by: Kaiyu Xie <26294424+kaiyux@users.noreply.github.com>	2025-06-30 15:49:06 +08:00
Kaiyu Xie	749393ec9f	doc: Fix benchmark cmd in disagg scripts (#5515 ) Signed-off-by: Kaiyu Xie <26294424+kaiyux@users.noreply.github.com>	2025-06-26 17:04:55 +08:00
Fanrong Li	ebadc13086	[doc] update mtp documents (#5387 ) Signed-off-by: Fanrong Li <23290157+lfr-0531@users.noreply.github.com>	2025-06-21 16:05:52 +08:00
Adamz-nvidia	b1878eabeb	Add Wechat_Group_QR_Code.png to docs/source/media and main page of TR… (#5142 ) Signed-off-by: AdamZ	2025-06-20 03:28:00 +08:00
Yan Chunwei	9bd42ecf9b	[TRTLLM-5208][BREAKING CHANGE] chore: make pytorch LLM the default (#5312 ) Signed-off-by: Superjomn <328693+Superjomn@users.noreply.github.com>	2025-06-20 03:01:10 +08:00
Shi Xiaowei	1e35be5840	doc: subsequent modifications of blog 5 (#5366 ) Signed-off-by: Shixiaowei02 <39303645+Shixiaowei02@users.noreply.github.com>	2025-06-19 18:23:13 +08:00
Shi Xiaowei	9a53e58a58	blog: Disaggregated Serving in TensorRT-LLM (#5353 ) Signed-off-by: Shixiaowei02 <39303645+Shixiaowei02@users.noreply.github.com>	2025-06-19 18:02:15 +08:00
Xianjie Qiao	857108aeca	Add disagg slurm scripts (#5243 ) Signed-off-by: Xianjie <5410381+qiaoxj07@users.noreply.github.com>	2025-06-18 23:17:55 +08:00
Yan Chunwei	724e495254	chore: partition LLM class into TorchLLM and TrtLLM (#4900 ) Signed-off-by: Superjomn <328693+Superjomn@users.noreply.github.com>	2025-06-18 14:01:25 +08:00
Emma Qiao	ff32caf4d7	[Infra] - Update dependencies with NGC PyTorch 25.05 and TRT 10.11 (#4885 ) Signed-off-by: qqiao <qqiao@nvidia.com> Signed-off-by: Iman Tabrizian <10105175+tabrizian@users.noreply.github.com> Signed-off-by: Erin Ho <14718778+hchings@users.noreply.github.com> Signed-off-by: Emma Qiao <qqiao@nvidia.com> Co-authored-by: Iman Tabrizian <10105175+tabrizian@users.noreply.github.com> Co-authored-by: Erin Ho <14718778+hchings@users.noreply.github.com> Co-authored-by: Yanchao Lu <yanchaol@nvidia.com>	2025-06-17 23:48:34 +08:00
Yanchao Lu	f4cdbfcdf0	None - Some clean-ups for the automation pipeline (#5245 ) Signed-off-by: Yanchao Lu <yanchaol@nvidia.com>	2025-06-17 21:08:24 +08:00
Tao Li @ NVIDIA	03f1a6a3d8	Update DeepSeek R1 perf numbers to latest release/0.20 results (#5235 )	2025-06-16 17:42:13 +08:00
amitz-nv	109c426077	Enable trtllm-bench to run LoRA and add basic e2e perf testing capability for LoRA in PyT flow (#5130 )	2025-06-15 18:54:04 +03:00
yunruis	e96d6863d8	add doc for open-sourced cutlass kernels (#5194 ) Signed-off-by: yunruis	2025-06-13 18:51:27 +08:00
Daniel Cámpora	22281cfc55	doc: Added documentation for enable_trtllm_sampler. (#4990 ) Signed-off-by: Daniel Campora <961215+dcampora@users.noreply.github.com> Signed-off-by: Daniel Cámpora <961215+dcampora@users.noreply.github.com> Co-authored-by: Abigail McCarthy <20771501+a-mccarthy@users.noreply.github.com>	2025-06-12 18:34:15 +08:00
Venky	59c9588e9a	enh(doc): Add `ci-overview` in `docs/source/reference/` (#5137 ) Signed-off-by: Venky Ganesh <23023424+venkywonka@users.noreply.github.com>	2025-06-12 17:48:13 +08:00
nv-guomingz	b563696dee	doc:fix invalid links for trtllm-serve doc (#5145 ) Signed-off-by: nv-guomingz <137257613+nv-guomingz@users.noreply.github.com>	2025-06-12 16:17:32 +08:00
HuiGao-NV	43192379af	Use backend to replace macro to control enablement of MNNVL all reduce (#4635 ) Signed-off-by: Hui Gao <huig@nvidia.com>	2025-06-12 11:22:49 +08:00
Linda	50f576172b	doc: add info about stop words appearing in output (#4956 ) Signed-off-by: Linda-Stadter <57756729+Linda-Stadter@users.noreply.github.com>	2025-06-10 22:38:33 +02:00
Julien Demouth	bb79ba7c35	Edits for tech blog 4 (#5006 ) Signed-off-by: Jun Yang <143764042+juney-nvidia@users.noreply.github.com> Co-authored-by: Jun Yang <143764042+juney-nvidia@users.noreply.github.com>	2025-06-09 09:38:41 +08:00
Omer Ullman Argov	8731f5f14f	chore: Mass integration of release/0.20 (#4898 ) Signed-off-by: Ivy Zhang <25222398+crazydemo@users.noreply.github.com> Signed-off-by: Yiqing Yan <yiqingy@nvidia.com> Signed-off-by: Yuxian Qiu <142763828+yuxianq@users.noreply.github.com> Signed-off-by: Hui Gao <huig@nvidia.com> Signed-off-by: Balaram Buddharaju <169953907+brb-nv@users.noreply.github.com> Signed-off-by: nv-guomingz <137257613+nv-guomingz@users.noreply.github.com> Signed-off-by: Bo Li <22713281+bobboli@users.noreply.github.com> Signed-off-by: Iman Tabrizian <10105175+tabrizian@users.noreply.github.com> Signed-off-by: Ruodi <200874449+ruodil@users.noreply.github.com> Signed-off-by: ruodil <200874449+ruodil@users.noreply.github.com> Signed-off-by: Stanley Sun <190317771+StanleySun639@users.noreply.github.com> Signed-off-by: Pamela Peng <179191831+pamelap-nvidia@users.noreply.github.com> Signed-off-by: Anurag Mukkara <134339030+amukkara@users.noreply.github.com> Signed-off-by: xinhe-nv <200704525+xinhe-nv@users.noreply.github.com> Signed-off-by: Faraz Khoubsirat <58580514+farazkh80@users.noreply.github.com> Signed-off-by: moraxu <mguzek@nvidia.com> Signed-off-by: Fanrong Li <23290157+lfr-0531@users.noreply.github.com> Signed-off-by: yechank <161688079+yechank-nvidia@users.noreply.github.com> Co-authored-by: Ivy Zhang <25222398+crazydemo@users.noreply.github.com> Co-authored-by: Yiqing Yan <yiqingy@nvidia.com> Co-authored-by: Yuxian Qiu <142763828+yuxianq@users.noreply.github.com> Co-authored-by: HuiGao-NV <huig@nvidia.com> Co-authored-by: brb-nv <169953907+brb-nv@users.noreply.github.com> Co-authored-by: nv-guomingz <137257613+nv-guomingz@users.noreply.github.com> Co-authored-by: Bo Li <22713281+bobboli@users.noreply.github.com> Co-authored-by: Iman Tabrizian <10105175+Tabrizian@users.noreply.github.com> Co-authored-by: ruodil <200874449+ruodil@users.noreply.github.com> Co-authored-by: Stanley Sun <190317771+StanleySun639@users.noreply.github.com> Co-authored-by: Pamela Peng <179191831+pamelap-nvidia@users.noreply.github.com> Co-authored-by: Anurag Mukkara <134339030+amukkara@users.noreply.github.com> Co-authored-by: xinhe-nv <200704525+xinhe-nv@users.noreply.github.com> Co-authored-by: Faraz <58580514+farazkh80@users.noreply.github.com> Co-authored-by: Michal Guzek <moraxu@users.noreply.github.com> Co-authored-by: Larry <197874197+LarryXFly@users.noreply.github.com> Co-authored-by: Fanrong Li <23290157+lfr-0531@users.noreply.github.com> Co-authored-by: Yechan Kim <161688079+yechank-nvidia@users.noreply.github.com>	2025-06-08 23:26:26 +08:00

1 2 3 4 5 ...

390 Commits