TensorRT-LLMs

mirror of https://github.com/NVIDIA/TensorRT-LLM.git synced 2026-01-14 06:27:45 +08:00

Author	SHA1	Message	Date
Venky	61da2daeb4	[TRTLLM-6761][refactor] Replace LogitBiasLogitsProcessor with embedding bias tensor system (#6464 ) Signed-off-by: Venky Ganesh <23023424+venkywonka@users.noreply.github.com>	2025-08-05 07:14:24 -07:00
Zhanrui Sun	6a9b4b11be	[https://nvbugs/5433581 ][infra] Temporarily disable Docker Image use wheel from build stage (#6630 ) Signed-off-by: ZhanruiSunCh <184402041+ZhanruiSunCh@users.noreply.github.com>	2025-08-05 09:33:11 -04:00
Emma Qiao	78a75c2990	[None][Infra] - Split gb200 stages for each test (#6594 ) Signed-off-by: qqiao <qqiao@nvidia.com>	2025-08-05 07:10:00 -04:00
xinhe-nv	c32584125e	[TRTQA-2920][fix] Add failed cases into waives.txt (#6600 ) Signed-off-by: Xin He (SW-GPU) <200704525+xinhe-nv@users.noreply.github.com>	2025-08-05 20:12:55 +10:00
Pengbo Wang @ NVIDIA	c289880afb	[None][fix] fix kimi k2 serving and add test for Kimi-K2 (#6589 ) Signed-off-by: Pengbo Wang <221450789+pengbowang-nv@users.noreply.github.com>	2025-08-05 18:05:33 +08:00
Ivy Zhang	08ed9d7305	[None][doc] add introduction doc on qa test (#6535 ) Signed-off-by: Ivy Zhang <25222398+crazydemo@users.noreply.github.com>	2025-08-05 17:02:17 +08:00
Ivy Zhang	d101a6cebc	[https://nvbugs/5410279 ][test] resubmit timeout refactor (#6337 ) Signed-off-by: Ivy Zhang <25222398+crazydemo@users.noreply.github.com>	2025-08-05 16:39:25 +08:00
Zhanrui Sun	7cbe30e17d	[TRTLLM-6893][infra] fix Build Docker Image tag issue (#6555 ) Signed-off-by: ZhanruiSunCh <184402041+ZhanruiSunCh@users.noreply.github.com> Signed-off-by: Zhanrui Sun <184402041+ZhanruiSunCh@users.noreply.github.com>	2025-08-05 04:33:36 -04:00
amitz-nv	dc84695520	[TRTLLM-6826][feat] Allow sending more than 2GiB through MPI by using mpi4py.util.pkl5 (#6522 ) Signed-off-by: Amit Zuker <203509407+amitz-nv@users.noreply.github.com>	2025-08-05 11:28:26 +03:00
danielafrimi	ed801ff74b	[None][fix] Remove expand configuration from mamba2 mixer (#6521 ) Signed-off-by: Daniel Afrimi <danielafrimi8@gmail.com>	2025-08-05 04:18:25 -04:00
Haohang Huang	c9eebcb454	[TRTLLM-6674][feat] (Breaking Change) Hopper SWA non-cyclic kernels + KV reuse + Spec Dec (#6379 ) Signed-off-by: Haohang Huang <31998628+symphonylyh@users.noreply.github.com> Signed-off-by: symphonylyh <31998628+symphonylyh@users.noreply.github.com>	2025-08-05 07:47:41 +00:00
Chuang Zhu	4d040b50b7	[None][chore] ucx establish connection with zmq (#6090 ) Signed-off-by: Chuang Zhu <111838961+chuangz0@users.noreply.github.com>	2025-08-05 02:50:45 -04:00
Leslie Fang	164acfa31e	[None][infra] Skip test_eagle3 test with device memory check (#6617 ) Signed-off-by: leslie-fang25 <leslief@nvidia.com>	2025-08-05 02:36:03 -04:00
ruodil	7625845365	test: add README_release_test.md for perf test (#6443 ) Signed-off-by: ruodil <200874449+ruodil@users.noreply.github.com>	2025-08-05 02:07:42 -04:00
Guoming Zhang	db51ab11a9	[TRTLLM-5990][doc] trtllm-serve doc improvement. (#5220 ) Signed-off-by: nv-guomingz <137257613+nv-guomingz@users.noreply.github.com>	2025-08-05 13:04:01 +08:00
Yanchao Lu	d53cc2374b	[https://nvbugs/5433581 ][infra] Update install docs and CI script for SBSA deep_gemm workaround (#6607 ) Signed-off-by: Yanchao Lu <yanchaol@nvidia.com>	2025-08-04 23:36:38 -04:00
xinhe-nv	a178cea324	[TRTLLM-6856][feat] add disaggregated serving tests to QA list (#6536 ) Signed-off-by: Xin He (SW-GPU) <200704525+xinhe-nv@users.noreply.github.com>	2025-08-05 12:47:53 +10:00
xinhe-nv	fe3d607c4b	[TRTQA-2920][fix] Add failed cases into waives.txt (#6581 ) Signed-off-by: Xin He (SW-GPU) <200704525+xinhe-nv@users.noreply.github.com> Co-authored-by: Larry <197874197+LarryXFly@users.noreply.github.com>	2025-08-05 12:41:23 +10:00
Enwei Zhu	899b74c357	[None][doc] Fix blog4 typo (#6612 ) Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com>	2025-08-05 10:20:37 +08:00
kris1025	6a3a921284	[TRTLLM-6685][feat] Add speculative metrics for trt llm bench (#6476 ) Signed-off-by: linquanh <linquanh@nvidia.com>	2025-08-04 15:22:57 -07:00
brb-nv	6135f75f87	[None][chore] Update Gemma3 closeness check to mitigate flakiness (#6591 ) Signed-off-by: Balaram Buddharaju <169953907+brb-nv@users.noreply.github.com>	2025-08-04 10:10:58 -04:00
Olya Kozlova	13cc1c4878	[TRTLLM-5271][feat] best_of/n for pytorch workflow (#5997 ) Signed-off-by: Olya Kozlova <okozlova@nvidia.com>	2025-08-04 14:08:06 +02:00
Ivy Zhang	f3651adea8	[None][test] update invalid test name (#6596 ) Signed-off-by: Ivy Zhang <25222398+crazydemo@users.noreply.github.com>	2025-08-04 08:01:05 -04:00
Emma Qiao	5d8a5a0cb8	[None][Infra]Waive failed case in post-merge on main (#6602 ) Signed-off-by: qqiao <qqiao@nvidia.com>	2025-08-04 19:39:44 +08:00
Yiteng Niu	a4e518de51	[TRTLLM-6364] [fix] Update PR title regex to allow optional spaces between ticket and type (#6598 ) Signed-off-by: Yiteng Niu <6831097+niukuo@users.noreply.github.com>	2025-08-04 18:34:25 +08:00
brb-nv	87e4e9f468	[None][chore] Add unit test for Gemma3 lora (#6560 ) Signed-off-by: Balaram Buddharaju <169953907+brb-nv@users.noreply.github.com>	2025-08-04 04:56:57 -04:00
Yiqing Yan	3916dbd98b	[None][chore] Bump version to 1.0.0rc6 (#6597 ) Signed-off-by: Yiqing Yan <yiqingy@nvidia.com>	2025-08-04 04:39:15 -04:00
Pengyun Lin	a15e33351d	[None][fix] Revert commit `48ddc3d` & add test for disagg server with different max_num_tokens (#6259 ) Signed-off-by: Pengyun Lin <81065165+LinPoly@users.noreply.github.com>	2025-08-04 15:09:51 +08:00
Bruce-Lee-LY	8c82ee2803	[fix] xqa precision for fp16/bf16 kv cache (#6573 ) Signed-off-by: Bruce-Lee-LY <yong-li14@tsinghua.org.cn> Co-authored-by: Bruce-Lee-LY <yong-li14@tsinghua.org.cn>	2025-08-04 14:34:20 +08:00
xinhe-nv	a54972e463	[None][fix] remove closed bugs (#6576 ) Signed-off-by: xinhe-nv <200704525+xinhe-nv@users.noreply.github.com> Co-authored-by: Larry <197874197+LarryXFly@users.noreply.github.com>	2025-08-04 15:52:11 +10:00
Yuan Tong	a2f271c8e0	[TRTLLM-4406][feat] LLM sleep & wakeup Part 1: virtual device memory (#5034 ) Signed-off-by: Yuan Tong <13075180+tongyuantongyu@users.noreply.github.com>	2025-08-04 13:51:01 +08:00
Leslie Fang	b9fe0fa7ec	[None][infra] Enable test of chunked prefill with logit post processor (#6483 ) Signed-off-by: leslie-fang25 <leslief@nvidia.com>	2025-08-04 01:46:07 -04:00
Leslie Fang	a60190836c	[None][infra] Enable accuracy test for eagle3 and chunked prefill (#6386 ) Signed-off-by: leslie-fang25 <leslief@nvidia.com>	2025-08-04 01:45:24 -04:00
Yiqing Yan	4763e94156	[TRTLLM-5563][infra] Move test_rerun.py to script folder (#6571 ) Signed-off-by: Yiqing Yan <yiqingy@nvidia.com>	2025-08-04 13:26:04 +08:00
ruodil	6459725bf9	test: move ministral_8b_fp8 to fp8_specific gpu list(exclude Ampere) (#6533 ) Signed-off-by: ruodil <200874449+ruodil@users.noreply.github.com> Co-authored-by: Larry <197874197+LarryXFly@users.noreply.github.com>	2025-08-04 15:22:39 +10:00
Zhenhua Wang	59d91b8b94	[None][chore] add online help to build_wheel.py and fix a doc link (#6391 ) Signed-off-by: Zhenhua Wang <zhenhuaw@nvidia.com>	2025-08-04 13:14:55 +08:00
Yiteng Niu	2279cec4ce	[https://nvbugs/5430932 ][infra] update namelist (#6585 ) Signed-off-by: Yiteng Niu <6831097+niukuo@users.noreply.github.com>	2025-08-04 11:51:08 +08:00
Yiteng Niu	7bf0a48899	[None][infra] update namelist (#6465 ) Signed-off-by: Yiteng Niu <6831097+niukuo@users.noreply.github.com>	2025-08-04 11:32:33 +08:00
Zac Patel	18d1941083	[doc] Update perf_overview.md for release 0.21 (#6270 ) Signed-off-by: zpatel <22306219+zbpatel@users.noreply.github.com>	2025-08-04 11:19:58 +08:00
Perkz Zheng	03430ed379	[https://nvbugspro.nvidia.com/bug/5415268 ] fix illegal smem access with chunked attention (#6401 ) Signed-off-by: Perkz Zheng <67892460+PerkzZheng@users.noreply.github.com> Co-authored-by: Sharan Chetlur <116769508+schetlur-nv@users.noreply.github.com>	2025-08-04 11:19:58 +08:00
QI JUN	5913282e17	doc: update release notes (#6438 ) Signed-off-by: junq <22017000+QiJune@users.noreply.github.com>	2025-08-04 11:19:58 +08:00
Ivy Zhang	5eefdf2c75	tests: Add llama4 functional cases (#6392 ) Signed-off-by: Ivy Zhang <25222398+crazydemo@users.noreply.github.com>	2025-08-04 11:19:58 +08:00
QI JUN	e1eca33dfc	doc: update release notes (#6324 ) Signed-off-by: junq <22017000+QiJune@users.noreply.github.com>	2025-08-04 11:19:58 +08:00
QI JUN	3f47117870	doc: update known issues (#6247 ) Signed-off-by: junq <22017000+QiJune@users.noreply.github.com>	2025-08-04 11:19:58 +08:00
ruodil	8d82ccca63	test: modify max_lora_rank of phi4_multimodal to 320 (#6474 ) Signed-off-by: ruodil <200874449+ruodil@users.noreply.github.com> Co-authored-by: Larry <197874197+LarryXFly@users.noreply.github.com>	2025-08-04 12:20:22 +10:00
Yechan Kim	ee6ab5be96	chore: add EXAONE4 accuracy test (#6397 ) Signed-off-by: yechank <161688079+yechank-nvidia@users.noreply.github.com>	2025-08-04 10:14:16 +08:00
Jinyang Yuan	df90202b51	[fix] Fix DeepSeek w4a8 weight loading (#6498 ) Signed-off-by: Jinyang Yuan <154768711+jinyangyuan-nvidia@users.noreply.github.com>	2025-08-04 10:12:06 +08:00
Ivy Zhang	7547a7d0a2	[TRTLLM-6473][test] add speculative decoding and ep load balance cases into QA test list (#6436 ) Signed-off-by: Ivy Zhang <25222398+crazydemo@users.noreply.github.com>	2025-08-03 22:11:26 -04:00
Jhao-Ting Chen	6edaa23c1c	[None][feat] Multi-block mode for Hopper spec dec XQA kernel (#4416 ) Signed-off-by: Jhao-Ting Chen <jhaotingc@nvidia.com>	2025-08-03 14:31:33 -07:00
Chuang Zhu	542f552d0b	use cudaSetDevice to create context ,fix nvbug 5394497 (#6403 ) Signed-off-by: Chuang Zhu <111838961+chuangz0@users.noreply.github.com>	2025-08-03 13:32:55 -04:00

1 2 3 4 5 ...

2171 Commits