TensorRT-LLMs

mirror of https://github.com/NVIDIA/TensorRT-LLM.git synced 2026-01-13 22:18:36 +08:00

Author	SHA1	Message	Date
Linda	82dfef2e56	[https://nvbugs/5628848 ][fix] Fix nanobind stub generation (#10516 ) Signed-off-by: Linda-Stadter <57756729+Linda-Stadter@users.noreply.github.com>	2026-01-09 11:32:21 -08:00
Lucas Liebenwein	00355b24b7	[None][feat] precompiled installation from local src dir with fnmatch only (#10430 ) Signed-off-by: Lucas Liebenwein <11156568+lucaslie@users.noreply.github.com>	2026-01-06 15:31:59 -05:00
Chuang Zhu	536a8f6a9c	[TRTLLM-9527][feat] Add transferAgent binding (step 1) (#10113 ) Signed-off-by: Chuang Zhu <111838961+chuangz0@users.noreply.github.com>	2026-01-06 08:40:38 +08:00
Lucas Liebenwein	846e54aa09	[None][feat] precompiled installation from local src dir (#10419 ) Signed-off-by: Lucas Liebenwein <11156568+lucaslie@users.noreply.github.com>	2026-01-05 19:16:38 -05:00
Wangjue Yao	9f283f330b	[None][feat] Support Mooncake transfer engine as a cache transceiver backend (#8309 ) Signed-off-by: wjueyao <wyao123@terpmail.umd.edu> Signed-off-by: Shunkang <182541032+Shunkangz@users.noreply.github.co> Co-authored-by: Shunkang <182541032+Shunkangz@users.noreply.github.co>	2025-12-19 10:09:51 +08:00
Suyog Gupta	d12cb9436d	[None][feat] Autodeploy add triton configs and optimize mamba prefill (#9083 ) Signed-off-by: Suyog Gupta <41447211+suyoggupta@users.noreply.github.com>	2025-11-13 19:15:43 -08:00
Chang Liu	3a79d03874	[https://nvbugs/5617275 ][fix] Extract py files from prebuilt wheel for editable installs (#8738 ) Signed-off-by: Chang Liu (Enterprise Products) <9713593+chang-l@users.noreply.github.com>	2025-10-30 21:40:22 -07:00
Yanchao Lu	1614624beb	[None][docs] Update Python wheel's short-/long-descriptions (#8676 ) Signed-off-by: Yanchao Lu <yanchaol@nvidia.com>	2025-10-27 14:58:49 +08:00
Chang Liu	e47c787dd7	[TRTLLM-8535][feat] Support DeepSeek V3.2 with FP8 + BF16 KV cache/NVFP4 + BF16 KV cache (#8405 ) Signed-off-by: Fanrong Li <23290157+lfr-0531@users.noreply.github.com> Signed-off-by: Chang Liu <9713593+chang-l@users.noreply.github.com> Signed-off-by: Tracin <10434017+Tracin@users.noreply.github.com>	2025-10-24 13:40:41 -04:00
mpikulski	40a9c61a89	[None][fix] generate nanobind stubs for submodules (#8539 ) Signed-off-by: ixlmar <206748156+ixlmar@users.noreply.github.com>	2025-10-22 06:23:08 -04:00
Chenghao Zhang	bac9e8c2ad	[None][feat] AutoDeploy: Add Nemotron MOE support for AutoDeploy (#8469 )	2025-10-21 15:32:01 -07:00
Venky	3e681e2a80	[None] [chore] Add architecture-specific ATTRIBUTIONS files (#8468 ) Signed-off-by: Venky Ganesh <23023424+venkywonka@users.noreply.github.com>	2025-10-20 16:29:15 -04:00
Venky	8d07580c95	[None] [chore] Add ATTRIBUTIONS-{CPP,Python}.md + Update in wheels setup (#8438 ) Signed-off-by: Venky Ganesh <23023424+venkywonka@users.noreply.github.com>	2025-10-17 06:33:05 -07:00
Jonas Yang CN	88ea2c4ee9	[TRTLLM-7349][feat] Adding new orchestrator type -- ray (#7520 ) Signed-off-by: Erin Ho <14718778+hchings@users.noreply.github.com> Co-authored-by: Yuan Tong <13075180+tongyuantongyu@users.noreply.github.com> Co-authored-by: Erin Ho <14718778+hchings@users.noreply.github.com>	2025-10-04 08:12:24 +08:00
Patrice Castonguay	08a47918cf	[None][chore] Adding install_tensorrt.sh script to pip wheel (#8116 ) Signed-off-by: Patrice Castonguay <55748270+pcastonguay@users.noreply.github.com>	2025-10-02 15:47:12 -04:00
mpikulski	9970345919	[TRTLLM-7728][feat] batched sampling by strategy (supersedes enable_mixed_sampler, cf. TRTLLM-7156) (#7294 ) Signed-off-by: ixlmar <206748156+ixlmar@users.noreply.github.com>	2025-09-23 16:05:05 -07:00
Bo Deng	8cf95681e6	[TRTLLM-7989][infra] Bundle UCX and NIXL libs in the TRTLLM python package (#7766 ) Signed-off-by: Bo Deng <deemod@nvidia.com>	2025-09-22 16:43:35 +08:00
Jiagan Cheng	60df6b2826	[https://nvbugs/5485430 ][fix] Copy the nanobind file when using precompiled package (#7334 ) Signed-off-by: Jiagan Cheng <jiaganc@nvidia.com>	2025-09-02 01:49:31 -04:00
Jiagan Cheng	afb116f703	[None][fix] Fix python-only build that uses TRTLLM_USE_PRECOMPILED (#6825 ) Signed-off-by: Jiagan Cheng <jiaganc@nvidia.com>	2025-08-14 23:26:35 +08:00
Zongfei Jing	0ff8df95b7	[https://nvbugs/5433581 ][fix] DeepGEMM installation on SBSA (#6588 ) Signed-off-by: Zongfei Jing <20381269+zongfeijing@users.noreply.github.com>	2025-08-06 16:44:21 +08:00
Lucas Liebenwein	41fb8aa8b1	[AutoDeploy] merge feat/ad-2025-07-07 (#6196 ) Signed-off-by: Gal Hubara Agam <96368689+galagam@users.noreply.github.com> Signed-off-by: Neta Zmora <96238833+nzmora-nvidia@users.noreply.github.com> Signed-off-by: Lucas Liebenwein <11156568+lucaslie@users.noreply.github.com> Signed-off-by: nvchenghaoz <211069071+nvchenghaoz@users.noreply.github.com> Signed-off-by: Frida Hou <201670829+Fridah-nv@users.noreply.github.com> Signed-off-by: greg-kwasniewski1 <213329731+greg-kwasniewski1@users.noreply.github.com> Signed-off-by: Suyog Gupta <41447211+suyoggupta@users.noreply.github.com> Co-authored-by: Gal Hubara-Agam <96368689+galagam@users.noreply.github.com> Co-authored-by: Neta Zmora <nzmora@nvidia.com> Co-authored-by: nvchenghaoz <211069071+nvchenghaoz@users.noreply.github.com> Co-authored-by: Frida Hou <201670829+Fridah-nv@users.noreply.github.com> Co-authored-by: Suyog Gupta <41447211+suyoggupta@users.noreply.github.com> Co-authored-by: Grzegorz Kwasniewski <213329731+greg-kwasniewski1@users.noreply.github.com>	2025-07-23 05:11:04 +08:00
Linda	4d071eb2d1	feat: binding type build argument (pybind, nanobind) (#5802 ) Signed-off-by: Linda-Stadter <57756729+Linda-Stadter@users.noreply.github.com>	2025-07-11 00:48:50 +09:00
Tailing Yuan	85b4a6808d	Refactor: move DeepEP from Docker images to wheel building (#5534 ) Signed-off-by: Tailing Yuan <yuantailing@gmail.com>	2025-07-07 22:57:03 +09:00
Martin Marciniszyn Mehringer	3485347584	doc: [TRTLLM-325]Integrate the NGC image in Makefile automation and document (#4400 ) * doc: [TRTLLM-325]Integrate the NGC image in Makefile automation and documentation Signed-off-by: Martin Marciniszyn Mehringer <11665257+MartinMarciniszyn@users.noreply.github.com> * WAR against https://github.com/advisories/GHSA-vqfr-h8mv-ghfj Signed-off-by: Martin Marciniszyn Mehringer <11665257+MartinMarciniszyn@users.noreply.github.com> * Fix default assignment for CUDA architectures in SBSA build Signed-off-by: Martin Marciniszyn Mehringer <11665257+MartinMarciniszyn@users.noreply.github.com> * Push new docker images Signed-off-by: Martin Marciniszyn Mehringer <11665257+MartinMarciniszyn@users.noreply.github.com> * Handle constraints.txt in setup.py Signed-off-by: Martin Marciniszyn Mehringer <11665257+MartinMarciniszyn@users.noreply.github.com> --------- Signed-off-by: Martin Marciniszyn Mehringer <11665257+MartinMarciniszyn@users.noreply.github.com>	2025-05-19 23:45:01 -07:00
Shi Xiaowei	df2798e0c3	feat: NIXL interface integration (#3934 ) NIXL interfaces Signed-off-by: ShiXiaowei02 <39303645+Shixiaowei02@users.noreply.github.com>	2025-05-19 18:18:22 +08:00
Ming Wei	ed887940d4	infra: open source XQA kernels (#3762 ) Replace libtensorrt_llm_nvrtc_wrapper.so with its source code, which consists of two parts: 1. NVRTC glue code 2. XQA kernel code During TensorRT-LLM build, XQA kernel code is embedded as C++ arries via gen_cpp_header.py and passed to NVRTC for JIT compilation. Signed-off-by: Ming Wei <2345434+ming-wei@users.noreply.github.com>	2025-04-30 18:05:15 +08:00
Enwei Zhu	90b708f851	[https://nvbugspro.nvidia.com/bug/5238602 ][fix] Package lm_eval configuration files Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com>	2025-04-24 09:57:01 +08:00
Enwei Zhu	b2f69db507	test: Accuracy test improvement (Part 3.1): Extend accuracy test suite with LLM API and initial implementation of `trtllm-eval` (#3167 ) * add eval_llmapi Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com> tmp commit port to CLI tool Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com> move Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com> setup llmapi Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com> fix spec_dec_algo Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com> _update_from_hf_quant_config Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com> fix Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com> migrate test_pytorch.py Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com> fix fp8 block scales Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com> fix fp8 rowwise Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com> adj alpha Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com> move test_pytorch.py cases Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com> move Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com> rename test_accuracy.py to test_cli.py Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com> clean Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com> * fix cnn_dailymail Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com> * renaming to cli flow Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com> * rename MMLU Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com> * rename Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com> * add error Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com> * fix Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com> --------- Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com>	2025-04-01 22:20:29 +08:00
Frank	8bb3eea285	perf: Readd iteration logging for trtllm-bench. (#3039 ) Signed-off-by: Frank Di Natale <3429989+FrankD412@users.noreply.github.com>	2025-04-01 08:13:09 +08:00
Oguz Vuruskaner	c3c5a07dca	Update setup.py (#2876 ) update path for the script. Signed-off-by: Oguz Vuruskaner <ovuruska@outlook.com> Co-authored-by: juney-nvidia <143764042+juney-nvidia@users.noreply.github.com>	2025-03-24 13:10:53 +08:00
Kaiyu Xie	3aa6b11d13	Update TensorRT-LLM (#2936 ) * Update TensorRT-LLM --------- Co-authored-by: changcui <cuichang147@gmail.com>	2025-03-18 21:25:19 +08:00
Kaiyu Xie	ab5b19e027	Update TensorRT-LLM (#2820 )	2025-02-25 21:21:49 +08:00
Dan Blanaru	16d2467ea8	Update TensorRT-LLM (#2755 ) * Update TensorRT-LLM --------- Co-authored-by: Denis Kayshev <topenkoff@gmail.com> Co-authored-by: akhoroshev <arthoroshev@gmail.com> Co-authored-by: Patrick Reiter Horn <patrick.horn@gmail.com> Update	2025-02-11 03:01:00 +00:00
Kaiyu Xie	c629546ce4	Update TensorRT-LLM (#2436 )	2024-11-12 15:27:49 +08:00
Kaiyu Xie	1730a587d8	Update TensorRT-LLM (#2363 ) * Update TensorRT-LLM --------- Co-authored-by: tonylek <137782967+tonylek@users.noreply.github.com>	2024-10-22 20:27:35 +08:00
Kaiyu Xie	75057cd036	Update TensorRT-LLM (#2333 ) * Update TensorRT-LLM --------- Co-authored-by: Puneesh Khanna <puneesh.khanna@tii.ae> Co-authored-by: Ethan Zhang <26497102+ethnzhng@users.noreply.github.com>	2024-10-15 15:28:40 +08:00
石晓伟	32ed92e449	Update TensorRT-LLM Co-authored-by: Rong Zhou <130957722+ReginaZh@users.noreply.github.com> Co-authored-by: Onur Galoglu <33498883+ogaloglu@users.noreply.github.com> Co-authored-by: Fabian Joswig <fjosw@users.noreply.github.com>	2024-08-20 18:55:15 +08:00
Kaiyu Xie	bca9a33b02	Update TensorRT-LLM (#2008 ) * Update TensorRT-LLM --------- Co-authored-by: Timur Abishev <abishev.timur@gmail.com> Co-authored-by: MahmoudAshraf97 <hassouna97.ma@gmail.com> Co-authored-by: Saeyoon Oh <saeyoon.oh@furiosa.ai> Co-authored-by: hattizai <hattizai@gmail.com>	2024-07-23 23:05:09 +08:00
Kaiyu Xie	f430a4b447	Update TensorRT-LLM (#1688 ) * Update TensorRT-LLM --------- Co-authored-by: IbrahimAmin <ibrahimamin532@gmail.com> Co-authored-by: Fabian Joswig <fjosw@users.noreply.github.com> Co-authored-by: Pzzzzz <hello-cd.plus@hotmail.com> Co-authored-by: CoderHam <hemant@cohere.com> Co-authored-by: Konstantin Lopuhin <kostia.lopuhin@gmail.com>	2024-05-28 20:07:49 +08:00
Kaiyu Xie	bf0a5afc92	Update TensorRT-LLM (#1598 ) * Update TensorRT-LLM	2024-05-14 16:43:41 +08:00
Kaiyu Xie	89ba1b1a67	Update TensorRT-LLM (#1554 )	2024-05-07 23:34:28 +08:00
石晓伟	850b6fa1e7	Update TensorRT-LLM (#1358 ) Co-authored-by: Kaiyu <26294424+kaiyux@users.noreply.github.com>	2024-03-26 20:47:14 +08:00
Kaiyu Xie	0ab9d17a59	Update TensorRT-LLM (#1055 ) * Update TensorRT-LLM --------- Co-authored-by: Shixiaowei02 <39303645+Shixiaowei02@users.noreply.github.com>	2024-02-06 18:38:07 +08:00
Kaiyu Xie	e06f537e08	Update TensorRT-LLM (#1019 ) * Update TensorRT-LLM --------- Co-authored-by: erenup <ping.nie@pku.edu.cn> Co-authored-by: Shixiaowei02 <39303645+Shixiaowei02@users.noreply.github.com>	2024-01-31 21:55:32 +08:00
Kaiyu Xie	deaae40bd7	Update TensorRT-LLM (#787 ) * Update TensorRT-LLM --------- Co-authored-by: Shixiaowei02 <39303645+Shixiaowei02@users.noreply.github.com>	2024-01-02 17:54:32 +08:00
Kaiyu Xie	a75618df24	Update TensorRT-LLM (#667 ) * Update TensorRT-LLM --------- Co-authored-by: 0xymoro <jerrymeng100@gmail.com> Co-authored-by: Shixiaowei02 <39303645+Shixiaowei02@users.noreply.github.com>	2023-12-15 22:14:51 +08:00
Kaiyu Xie	f7eca56161	Update TensorRT-LLM (#613 ) * Update TensorRT-LLM --------- Co-authored-by: Shixiaowei02 <39303645+Shixiaowei02@users.noreply.github.com> Co-authored-by: zhang-ge-hao <842720660@qq.com>	2023-12-08 17:49:24 +08:00
Kaiyu Xie	71f60f6df0	Update TensorRT-LLM (#524 )	2023-12-01 22:27:51 +08:00
Kaiyu Xie	711a28d9bf	Update TensorRT-LLM (#465 ) * Update TensorRT-LLM --------- Co-authored-by: Shixiaowei02 <39303645+Shixiaowei02@users.noreply.github.com>	2023-11-24 22:12:26 +08:00
Kaiyu Xie	6755a3f077	Update TensorRT-LLM (#422 ) * Update TensorRT-LLM --------- Co-authored-by: Tltin <TltinDeng01@gmail.com> Co-authored-by: zhaohb <zhaohbcloud@126.com> Co-authored-by: Bradley Heilbrun <brad@repl.it> Co-authored-by: nqbao11 <nqbao11.01@gmail.com> Co-authored-by: Nikhil Varghese <nikhil@bot-it.ai>	2023-11-18 00:05:54 +08:00

1 2

54 Commits