TensorRT-LLMs

mirror of https://github.com/NVIDIA/TensorRT-LLM.git synced 2026-02-07 19:51:50 +08:00

Author	SHA1	Message	Date
liji-nv	dca6397d1e	feat: Introduce UB allocator for pytorch flow (#3257 ) * Instead of allocating UserBuffers at beginning of runtime, UB buffers are now managed with global allocator. The allocator will dynamically assign free UB buffer or allocate new buffer for torch tensor. It makes userbuffers easier to use. * In common usecase, the Userbuffers will be allocated correctly during warm up stage. There is no dynamic allocation during inference. * UB fusion pattern is rewroten using the new UB Allocator. It contains following passes: 1. Fuse Quant with allreduce, replace with UB impl, and insert a copy_to_userbuffers. Currently the normal allreduce still does not support FP8 quant. So this need to be done in UB pass 2. Convert all supported allreduce with UB and insert copy_to_userbuffers. 3. Fuse op before ar with the copy_to_userbuffers. So the op directly writes to the userbuffer 4. Remove userbuffers finalize if the output is connect to another UB allreduce. Signed-off-by: Jin Li <59594262+liji-nv@users.noreply.github.com>	2025-04-08 18:39:49 +08:00
Yan Chunwei	deb876ecdb	clean up trtllm-llmapi-launch logs (#3358 ) Signed-off-by: Superjomn <328693+Superjomn@users.noreply.github.com>	2025-04-08 16:00:59 +08:00
Pengyun Lin	60e02a3684	Use llm.tokenizer in OpenAIServer (#3199 ) Signed-off-by: Pengyun Lin <81065165+LinPoly@users.noreply.github.com> Co-authored-by: Yan Chunwei <328693+Superjomn@users.noreply.github.com>	2025-04-08 14:55:02 +08:00
Yukun He	c678774c99	feat: Apply the new torch-flow compatible AutoTuner to both Fused MoE and NVFP4 Linear operators. (#3151 ) * Several optimizations and fixings on the Autotuner. Signed-off-by: Yukun He <23156053+hyukn@users.noreply.github.com> * Apply the new Python side Autotuner on current linear for nvFP4 data type. Signed-off-by: Yukun He <23156053+hyukn@users.noreply.github.com> * Apply the new Python side Autotuner on MoE op * Remove routers from cache key to improve inference perf * Prevent unnecessary code profiling. Use do_preparation keyword to select which part should be executed during before evaluating any tactic. * Remove try-catch inside moe profiling process. * Move default tactic -1 to 0 transforms in cpp runner. * Revise relavant tests. * Predefined the bucketizing strategy for fused_moe Signed-off-by: Yukun He <23156053+hyukn@users.noreply.github.com> * Add specific_profile support for AutoTuner to bypass the standard cache search process for perf optimization * Add specific_profile for moe * Add specific profile for linear Signed-off-by: Yukun He <23156053+hyukn@users.noreply.github.com> * Fixing and revising according to reviewer's suggestions. Signed-off-by: Yukun He <23156053+hyukn@users.noreply.github.com> * Use lru_cache for inference pref optimization. * Revert gen_custom_cache_key feature Signed-off-by: Yukun He <23156053+hyukn@users.noreply.github.com> * Replace runner with runner id to achieve a serializable cache. Signed-off-by: Yukun He <23156053+hyukn@users.noreply.github.com> * Code clean up and minor fixings. Signed-off-by: Yukun He <23156053+hyukn@users.noreply.github.com> * Move all tunable runners and custom ops into torch_custom_ops. Signed-off-by: Yukun He <23156053+hyukn@users.noreply.github.com> * Treat min_latency_mode as a independent dynamic tensor. Modify get_valid_tactics to suit for it. Signed-off-by: Yukun He <23156053+hyukn@users.noreply.github.com> --------- Signed-off-by: Yukun He <23156053+hyukn@users.noreply.github.com>	2025-04-08 14:28:36 +08:00
Kaiyu Xie	0a4e1d5a55	breaking change: perf: Make ipc_periodically the default responses_handler (#3102 ) Signed-off-by: Kaiyu Xie <26294424+kaiyux@users.noreply.github.com>	2025-04-08 10:36:39 +08:00
pcastonguay	add5e5cd93	feat: Add option to run disaggregated serving without ctx servers,… (#3243 ) * feat: Add option to run disaggregated serving without ctx servers, to benchmark gen only Signed-off-by: Patrice Castonguay <55748270+pcastonguay@users.noreply.github.com> * Fixing comment in sanity check Signed-off-by: Patrice Castonguay <55748270+pcastonguay@users.noreply.github.com> --------- Signed-off-by: Patrice Castonguay <55748270+pcastonguay@users.noreply.github.com>	2025-04-07 21:56:03 -04:00
Ivan Sorokin	d40fce474a	fix: redrafter sampling (#3278 ) * Fix redrafter sampling Signed-off-by: Ivan Sorokin <isorokin@nvidia.com> * Rename redrafter bream search var Signed-off-by: Ivan Sorokin <isorokin@nvidia.com> * Remove _beam_search_candidates_v0 Signed-off-by: Ivan Sorokin <isorokin@nvidia.com> * Remove unused import Signed-off-by: Ivan Sorokin <isorokin@nvidia.com> --------- Signed-off-by: Ivan Sorokin <isorokin@nvidia.com>	2025-04-08 07:49:32 +08:00
amitz-nv	e5407ea89a	Fix torch nvsmall through pyexecutor and fix its TP support (#3238 ) * Fix NemotronNAS support Signed-off-by: Amit Zuker <203509407+amitz-nv@users.noreply.github.com>	2025-04-07 11:53:17 +03:00
pansicheng	ef1ba468a1	feat: support abort disconnected requests (#3214 ) Signed-off-by: pansicheng <sicheng.pan.chn@gmail.com>	2025-04-07 16:14:58 +08:00
Bo Li	515dd0d78f	feat: Add support for FP8 MLA on Hopper and Blackwell. (#3190 ) * fp8 kv + bf16 ctx MLA + fp8 gen MLA Use BF16 for context MLA. mFP8GenerationMLA and mFP8ContextFMHA shouldn't be enabled together. Allow mSM==90 for mFP8GenerationMLA==true. For FMHA, dataTypeKv should be FP8. For FP8 MLA generation, the output is still in BF16. Refine debug info for FMHA kernel metadata. Use inputType, outputType, SM together to hash kernel list. Add FP8 MLA generation FMHA kernel. Special WAR of NUM_COMPUTE_GROUPS for MLA generation kernel. Separate the implementation of fused_multihead_attention_v2.h to CPP and print some debug info if checkIfKernelExist fails. Refine debug info in fused_multihead_attention_v2.cpp Correct FP8 MLA metadata. New kernel provided by Yuxin, which outputs BF16. smem size is not set correctly, which will lead to illegal mem access. Yuxin fixed the error in FMHA MLA kernel: previously the BF16 isn't correctly written: some parts are repeatedly written, while some others are untouched. There are two bmm1 scales that should be set correctly. New kernel generated by Yuxin. Modificatiosn to common/attentionOp for FP8 MLA on Hopper using FMHA. Not necessary. If mFP8GenerationMLA, is_fp8_out is false, so mFP8ContextFMHA is false. Skip a check in fmhaDispatcher. Modifications in fmhaRunner: - Debug dump. - if (!isFP8GenerationMLA) skips a lot of flag setting. - TMA descriptor modification for qo (by Yuxin). Cleanup debug output. Clean up o tma descriptor modifications. Signed-off-by: Bo Li <bobboli0202@gmail.com> * Resolve conflicts. Signed-off-by: Bo Li <bobboli0202@gmail.com> * Apply the patch of FP8 FlashMLA and resolve conflicts. Signed-off-by: Bo Li <bobboli0202@gmail.com> * Fix compilation error. Signed-off-by: Bo Li <bobboli0202@gmail.com> * Fix compile error. Signed-off-by: Bo Li <bobboli0202@gmail.com> * pick blackwell support Signed-off-by: Dylan Chen <191843203+DylanChen-NV@users.noreply.github.com> * Add copyright notice to fused_multihead_attention_v2.cpp. Signed-off-by: Bo Li <bobboli0202@gmail.com> * Add license. Signed-off-by: Bo Li <bobboli0202@gmail.com> * Add missing license. Signed-off-by: Bo Li <bobboli0202@gmail.com> * Exclude building flashMLA kernels under sm90. Signed-off-by: Bo Li <bobboli0202@gmail.com> * Revert "Exclude building flashMLA kernels under sm90." This reverts commit `f0c859d459`. Signed-off-by: Bo Li <bobboli0202@gmail.com> * Use macro to skip compiling FlashMLA for non sm90 targets. Signed-off-by: Bo Li <bobboli0202@gmail.com> --------- Signed-off-by: Bo Li <bobboli0202@gmail.com> Signed-off-by: Dylan Chen <191843203+DylanChen-NV@users.noreply.github.com> Co-authored-by: Dylan Chen <ziqingc@nvidia.com> Co-authored-by: Dylan Chen <191843203+DylanChen-NV@users.noreply.github.com> Co-authored-by: QI JUN <22017000+QiJune@users.noreply.github.com>	2025-04-07 15:14:13 +08:00
Shunkangz	62bc13430e	fix: fix attentionDP padding request type (#3299 ) * Fix attentionDP padding request type Signed-off-by: Shunkang <182541032+Shunkangz@users.noreply.github.co> * Refactor import Signed-off-by: Shunkang <182541032+Shunkangz@users.noreply.github.co> --------- Signed-off-by: Shunkang <182541032+Shunkangz@users.noreply.github.co> Co-authored-by: Shunkang <182541032+Shunkangz@users.noreply.github.co>	2025-04-07 13:28:21 +08:00
Fanrong Li	e8b97341de	fix the py_decoding_iter update in decoder. (#3297 ) Signed-off-by: Fanrong Li <23290157+lfr-0531@users.noreply.github.com> Co-authored-by: QI JUN <22017000+QiJune@users.noreply.github.com>	2025-04-07 11:18:33 +08:00
tburt-nv	7a659885e3	chore: remove usernames from comments (#3291 ) Signed-off-by: Tyler Burt <195370667+tburt-nv@users.noreply.github.com>	2025-04-05 13:44:28 +08:00
Yan Chunwei	b21cfcfed1	chore: refactor the LlmArgs with Pydantic and migrate remaining pybinding configs to python (#3025 ) * make LlmArgs Pydantic Signed-off-by: Superjomn <328693+Superjomn@users.noreply.github.com> * amending doc fix api_stability fix tests Signed-off-by: Superjomn <328693+Superjomn@users.noreply.github.com> * restore yaml groups refine StackTrace singleton clean tests Signed-off-by: Superjomn <328693+Superjomn@users.noreply.github.com> * fix trtllm-bench fix pytorch Signed-off-by: Superjomn <328693+Superjomn@users.noreply.github.com> * fix serve distagg Signed-off-by: Superjomn <328693+Superjomn@users.noreply.github.com> Signed-off-by: Superjomn <328693+Superjomn@users.noreply.github.com> * fix Signed-off-by: Superjomn <328693+Superjomn@users.noreply.github.com> --------- Signed-off-by: Superjomn <328693+Superjomn@users.noreply.github.com>	2025-04-05 13:31:48 +08:00
Frank	f8a4cc0629	perf: Add total token throughput metric. (#3212 ) Signed-off-by: Frank Di Natale <3429989+FrankD412@users.noreply.github.com>	2025-04-05 13:17:59 +08:00
Robin Kobus	e12e7a753d	refactor: Expose DecoderState via bindings and integrate in TRTLLMDecoder (#3139 ) * refactor: Expose DecoderState via bindings and integrate in TRTLLMDecoder - Introduced a new `DecoderState` class in the C++ bindings, encapsulating key functionalities for managing decoding state. - Adjusted the Python `TRTLLMDecoder` to access properties from `decoder_state`, ensuring consistency and clarity in the decoding process. These changes streamline the decoder's architecture and enhance maintainability. Signed-off-by: Robin Kobus <19427718+Funatiq@users.noreply.github.com> * chore: Remove unused new_tokens from DecoderState bindings Signed-off-by: Robin Kobus <19427718+Funatiq@users.noreply.github.com> --------- Signed-off-by: Robin Kobus <19427718+Funatiq@users.noreply.github.com>	2025-04-05 07:42:35 +08:00
qixiang-99	0d4d50a745	feat: no-cache attention in PyTorch workflow (#3085 ) * init trtllm attn no cache Signed-off-by: Qixiang Lin <qixiangl@nvidia.com> * fix: fix the seq_len issue and attn metadata prepare for qwen reward model test fix: fix minor bugs after rebase Signed-off-by: Qixiang Lin <qixiangl@nvidia.com> * refactor: remove unnecessary debug logs and clean up commented code refactor: update max_seq_len documentation and remove max_seq_len for decoder model contructor in PyTorchModelEngine Signed-off-by: Qixiang Lin <qixiangl@nvidia.com> * refactor: update calculate_ref_result function to accept tensor inputs and mask type, enhance test_attention_no_cache to support FULL and CAUSAL masks Signed-off-by: Qixiang Lin <qixiangl@nvidia.com> * refactor: remove unused BERT attention metadata conversion method and add type assertion for no cache attention in PyTorchModelEngine Signed-off-by: Qixiang Lin <qixiangl@nvidia.com> * refactor: remove use_kv_cache parameter from attention function and related classes, update documentation for KV cache handling Signed-off-by: Qixiang Lin <qixiangl@nvidia.com> * refactor: implement setAttentionMaskType method for better mask type handling and remove unused conversion function Signed-off-by: Qixiang Lin <qixiangl@nvidia.com> * refactor: streamline KV cache handling by replacing direct member access with useKVCache method and simplify token per block assignment remove Debug code. Signed-off-by: Qixiang Lin <qixiangl@nvidia.com> * refactor: Resolve comments for Python code Simplify no cache attention metadata preparation and streamline related attributes in TrtllmAttentionMetadata Removed the private method for converting to no cache attention metadata and integrated its logic into the prepare method. Updated the test for BERT sequence classification to reflect these changes and ensure proper handling of attention metadata. Signed-off-by: Qixiang Lin <qixiangl@nvidia.com> * docs: Add is_dummy_attention field to attention metadata for simulation operations Signed-off-by: Qixiang Lin <qixiangl@nvidia.com> * refactor: add KVCacheParams to attention backend interface and import relevant metadata classes Updated the attention backend interface to include KVCacheParams and imported TrtllmAttentionMetadata and VanillaAttentionMetadata in model_engine.py for enhanced functionality. Signed-off-by: Qixiang Lin <qixiangl@nvidia.com> * fix: fix rebase format issue Signed-off-by: Qixiang Lin <qixiangl@nvidia.com> * fix: extend attention mask type handling in MHARunnerFixedParams Added support for additional attention mask types (BIDIRECTIONAL, BIDIRECTIONALGLM, BLOCKSPARSE) in the MHARunnerFixedParams structure to fix the mapping issue between ContextAttentionMaskType and AttentionMaskType Signed-off-by: Qixiang Lin <qixiangl@nvidia.com> * fix: enhance attention mask type handling in TllmGenFmhaRunnerParams Updated the setAttentionMaskType method to include a switch-case structure for better handling of attention mask types, ensuring proper mapping and error handling for invalid types. Signed-off-by: Qixiang Lin <qixiangl@nvidia.com> --------- Signed-off-by: Qixiang Lin <qixiangl@nvidia.com>	2025-04-05 01:54:32 +08:00
Jinyang Yuan	1128dc2a5a	perf: Use pinned H2D to reduce bubbles (#3147 ) Signed-off-by: Jinyang Yuan <154768711+jinyangyuan-nvidia@users.noreply.github.com>	2025-04-04 22:23:10 +08:00
yuanjings-nvda	5776b99b70	fix vila test (#3042 ) Signed-off-by: Yuanjing Shi <yuanjings@nvidia.com>	2025-04-04 14:30:06 +08:00
shaharmor98	ee4aab72ec	feat: Support PeftCacheManager in Torch (#3186 ) * Add PeftCacheManager implementation Signed-off-by: Shahar Mor <smor@nvidia.com>	2025-04-04 12:38:08 +08:00
Tracin	bb6c338730	AWQ support Modelopt ckpts. (#3258 ) Signed-off-by: Tracin <10434017+Tracin@users.noreply.github.com> Co-authored-by: QI JUN <22017000+QiJune@users.noreply.github.com>	2025-04-04 08:10:35 +08:00
pcastonguay	b763051ba4	chore: Refactor disaggregated serving scripts (#3073 ) * chore: Refactor to reduce duplicated code in disagg server, reuse trtllm-serve Signed-off-by: Patrice Castonguay <55748270+pcastonguay@users.noreply.github.com> * Updating README, removing launch script Signed-off-by: Patrice Castonguay <55748270+pcastonguay@users.noreply.github.com> * Fixing integration tests Signed-off-by: Patrice Castonguay <55748270+pcastonguay@users.noreply.github.com> * Adding scripts to populate urls section of disagg config based on SLURM env vars Signed-off-by: Patrice Castonguay <55748270+pcastonguay@users.noreply.github.com> --------- Signed-off-by: Patrice Castonguay <55748270+pcastonguay@users.noreply.github.com>	2025-04-03 14:55:05 -04:00
Fanrong Li	1fe64b90be	fix: fix the acceptance rate of pytorch workflow in trtllm-bench (#3240 ) * fix acceptance rate of pytorch workflow. * revert the RequestOutput API change. --------- Signed-off-by: Fanrong Li <23290157+lfr-0531@users.noreply.github.com>	2025-04-03 15:12:24 +08:00
Frank	2d80db4c36	chore: Remove build config from Pytorch kwargs. (#3210 ) Signed-off-by: Frank Di Natale <3429989+FrankD412@users.noreply.github.com>	2025-04-03 15:00:29 +08:00
Zongfei Jing	dcc0ebd273	Fix warning (#3254 ) Signed-off-by: Zongfei Jing <20381269+zongfeijing@users.noreply.github.com>	2025-04-03 13:30:23 +08:00
Jinyang Yuan	2fdfa39ea8	fix: Fix an error related to dummy request when MTP is used (#3146 )	2025-04-03 11:08:12 +08:00
Anurag Mukkara	d998339855	Raise error for PP + MTP (#3244 ) Signed-off-by: Anurag Mukkara <134339030+amukkara@users.noreply.github.com>	2025-04-03 04:45:31 +08:00
QI JUN	abcb0486dc	fix deepseek failure with pipeline parallelism (#3225 ) Signed-off-by: junq <22017000+QiJune@users.noreply.github.com>	2025-04-02 22:56:39 +08:00
Enwei Zhu	3cf7066350	test: Accuracy test improvement (Part 3.2): Move Qwen tests (NvBug 5135332) (#3219 ) * remove test_llm_models_multi_gpu.py Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com> * fix Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com> * qwen 2.5 Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com> * fix Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com> * upgrade Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com> --------- Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com>	2025-04-02 17:29:57 +08:00
QI JUN	bb10cdcfb8	chore: refine fetch new requests method (#3213 ) * refine broadcast new requests method Signed-off-by: junq <22017000+QiJune@users.noreply.github.com> * refine fetch new requests method Signed-off-by: junq <22017000+QiJune@users.noreply.github.com> --------- Signed-off-by: junq <22017000+QiJune@users.noreply.github.com>	2025-04-02 10:46:00 +08:00
Zheng Duan	35b828ca2d	fix streaming in dist-serving (#3087 ) Signed-off-by: Zheng Duan <200704041+zhengd-nv@users.noreply.github.com>	2025-04-02 10:08:07 +08:00
Zongfei Jing	c7548ad72c	perf: Add optimizations for deepseek in min latency mode (#3093 ) * Add optimizations for deepseek min latency Signed-off-by: Zongfei Jing <20381269+zongfeijing@users.noreply.github.com> * Fix compile error Signed-off-by: Zongfei Jing <20381269+zongfeijing@users.noreply.github.com> * Update internal cutlass kernel libs Signed-off-by: Zongfei Jing <20381269+zongfeijing@users.noreply.github.com> * Format code Signed-off-by: Zongfei Jing <20381269+zongfeijing@users.noreply.github.com> * Resolve conflicts Signed-off-by: Zongfei Jing <20381269+zongfeijing@users.noreply.github.com> --------- Signed-off-by: Zongfei Jing <20381269+zongfeijing@users.noreply.github.com>	2025-04-02 09:05:24 +08:00
brb-nv	1fe3e30356	Add support for Phi-4-mini (#2990 ) Signed-off-by: Balaram Buddharaju <169953907+brb-nv@users.noreply.github.com>	2025-04-02 08:34:39 +08:00
Zhanrui Sun	42963baacd	chore: bump version to 0.19.0.dev2025040800 (#3171 ) Signed-off-by: ZhanruiSunCh <184402041+ZhanruiSunCh@users.noreply.github.com>	2025-04-02 08:21:55 +08:00
QI JUN	8fe2e5865e	refine broadcast new requests method (#3198 ) Signed-off-by: junq <22017000+QiJune@users.noreply.github.com>	2025-04-02 08:05:20 +08:00
Enwei Zhu	b2f69db507	test: Accuracy test improvement (Part 3.1): Extend accuracy test suite with LLM API and initial implementation of `trtllm-eval` (#3167 ) * add eval_llmapi Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com> tmp commit port to CLI tool Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com> move Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com> setup llmapi Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com> fix spec_dec_algo Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com> _update_from_hf_quant_config Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com> fix Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com> migrate test_pytorch.py Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com> fix fp8 block scales Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com> fix fp8 rowwise Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com> adj alpha Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com> move test_pytorch.py cases Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com> move Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com> rename test_accuracy.py to test_cli.py Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com> clean Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com> * fix cnn_dailymail Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com> * renaming to cli flow Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com> * rename MMLU Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com> * rename Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com> * add error Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com> * fix Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com> --------- Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com>	2025-04-01 22:20:29 +08:00
amirkl94	bf02b9144f	feature: Add LoRA support for gemma (#3068 ) Signed-off-by: Amir Klein <203507526+amirkl94@users.noreply.github.com>	2025-04-01 19:15:55 +08:00
WeiHaocheng	ff35af77ea	feat: refactor scaffolding worker and support openai api worker (#3166 ) Signed-off-by: Fred Wei <20514172+WeiHaocheng@users.noreply.github.com> Signed-off-by: fredw <20514172+WeiHaocheng@users.noreply.github.com>	2025-04-01 18:31:52 +08:00
Jinyang Yuan	992d513bc6	feat: Optionally split MoE inputs into chunks to reduce GPU memory usage (#3104 ) Signed-off-by: Jinyang Yuan <154768711+jinyangyuan-nvidia@users.noreply.github.com> Co-authored-by: raccoonliukai <raccoonliu@tencent.com>	2025-04-01 16:07:02 +08:00
brb-nv	727d78e785	Support prequantized fp8 ckpt for nemotron-mini-4b-instruct (#3046 ) Signed-off-by: Balaram Buddharaju <169953907+brb-nv@users.noreply.github.com>	2025-04-01 14:52:09 +08:00
dongjiyingdjy	22ff81b047	fix：fix illeagel memory access when mtp >= 2 (#3006 ) * fix - fix illeagel memory access when mtp > 2 --------- Signed-off-by: Jiying Dong <87510204+dongjiyingdjy@users.noreply.github.com> Signed-off-by: Fanrong Li <23290157+lfr-0531@users.noreply.github.com> Co-authored-by: Fanrong Li <23290157+lfr-0531@users.noreply.github.com>	2025-04-01 13:36:45 +08:00
Shunkangz	dda7354d1a	Refactor return of first gen token in PD (#2986 ) Signed-off-by: Shunkang <182541032+Shunkangz@users.noreply.github.co>	2025-04-01 12:28:27 +08:00
jiahanc	c4ee14e43a	fix: Reverse cuda graph size order (#3116 ) Signed-off-by: jiahanc <jiahanc@nvidia.com>	2025-04-01 11:28:36 +08:00
Aurelien Chartier	14e194433c	chore: cleanup py_executor code (#3132 ) * chore: cleanup py_executor code * Add common loop cleanup function * Remove checks for attention DP if nothing to queue * Remove extra return statements * Remove extra variables * Remove commented debug print Signed-off-by: Aurelien Chartier <achartier@nvidia.com> * rename cleanup function Signed-off-by: Aurelien Chartier <achartier@nvidia.com> --------- Signed-off-by: Aurelien Chartier <achartier@nvidia.com>	2025-04-01 09:27:04 +08:00
Anurag Mukkara	435cd2983d	perf: Optimisations for PP + attention DP (#3134 ) * Minor tp_rank fix Signed-off-by: Anurag Mukkara <134339030+amukkara@users.noreply.github.com> * Delete unused function Signed-off-by: Anurag Mukkara <134339030+amukkara@users.noreply.github.com> * PP broadcast for ADP new requests Signed-off-by: Anurag Mukkara <134339030+amukkara@users.noreply.github.com> * Sync request finish point for intermediate and last pp ranks Signed-off-by: Anurag Mukkara <134339030+amukkara@users.noreply.github.com> * Use local PP layers only for KV cache estimation Signed-off-by: Anurag Mukkara <134339030+amukkara@users.noreply.github.com> --------- Signed-off-by: Anurag Mukkara <134339030+amukkara@users.noreply.github.com>	2025-04-01 08:59:16 +08:00
Frank	8bb3eea285	perf: Readd iteration logging for trtllm-bench. (#3039 ) Signed-off-by: Frank Di Natale <3429989+FrankD412@users.noreply.github.com>	2025-04-01 08:13:09 +08:00
WeiHaocheng	f665f83256	feat: improve scaffolding shutdown process (#3084 )	2025-03-31 20:39:20 +08:00
Zhanrui Sun	36ac5e78ed	chore: bump version to 0.19.0.dev2025040100 (#3152 ) Signed-off-by: ZhanruiSunCh <184402041+ZhanruiSunCh@users.noreply.github.com>	2025-03-31 16:36:06 +08:00
Quanfeng Li	839aad4d6e	fix: Add missing parameter for WeightOnlyQuantRowLinear module (#2768 ) Signed-off-by: Quanfeng Li <liquanfeng7@foxmail.com>	2025-03-31 16:20:30 +08:00
QI JUN	9560fcd5ec	Chore: waive tests and fix multi-GPU tests (#3157 ) * waive tests Signed-off-by: junq <22017000+QiJune@users.noreply.github.com> * update Signed-off-by: junq <22017000+QiJune@users.noreply.github.com> * clean up Signed-off-by: junq <22017000+QiJune@users.noreply.github.com> --------- Signed-off-by: junq <22017000+QiJune@users.noreply.github.com>	2025-03-31 16:05:45 +08:00
liji-nv	e0d0dde058	None - Add one-shot version for UB AR NORM FP16/BF16 (#2995 ) Signed-off-by: Jin Li <59594262+liji-nv@users.noreply.github.com>	2025-03-31 11:16:03 +08:00
Yan Chunwei	794f61c997	fix: fix single-node cannot quit issue on slurm (#3140 ) Signed-off-by: Superjomn <328693+Superjomn@users.noreply.github.com>	2025-03-31 10:15:27 +08:00
Mike Iovine	5416966ddb	Add initial EAGLE-3 implementation (#3035 ) Signed-off-by: Mike Iovine <miovine@nvidia.com>	2025-03-29 22:31:24 +08:00
Erin	c75d7cd684	move BuildConfig functional args to llmargs (#3036 ) Signed-off-by: Erin Ho <14718778+hchings@users.noreply.github.com>	2025-03-29 02:20:18 +08:00
Aurelien Chartier	3de82c41cd	Pytorch PP + attention DP support (#3044 ) Signed-off-by: Aurelien Chartier <achartier@nvidia.com>	2025-03-28 00:11:19 +08:00
Fanrong Li	ec03159e60	fix: Waive twoshot to fix acc issue (#3066 ) * waive twoshot to fix acc issue Signed-off-by: Fanrong Li <23290157+lfr-0531@users.noreply.github.com> --------- Signed-off-by: Fanrong Li <23290157+lfr-0531@users.noreply.github.com>	2025-03-27 21:38:52 +08:00
Yan Chunwei	87ab794aa2	fix: fix hang in mgmn with trtllm-llmapi-launch command (#3119 ) * init Signed-off-by: Superjomn <328693+Superjomn@users.noreply.github.com> * restore Signed-off-by: Superjomn <328693+Superjomn@users.noreply.github.com> --------- Signed-off-by: Superjomn <328693+Superjomn@users.noreply.github.com>	2025-03-27 18:45:43 +08:00
Fanrong Li	0976360204	add support for MTP+cuda_graph_padding. (#3096 ) Signed-off-by: Fanrong Li <23290157+lfr-0531@users.noreply.github.com>	2025-03-27 16:06:14 +08:00
Yan Chunwei	82edd90350	fix gpus_per_node in trtllm-bench when world_size < device_count (#3007 ) Signed-off-by: Superjomn <328693+Superjomn@users.noreply.github.com>	2025-03-27 09:31:40 +08:00
Suyog Gupta	047f2b234d	perf: [AutoDeploy] Enable AutoDeploy as a backend in trtllm-bench (#3041 ) * Enable AutoDeploy as a backend in trtllm-bench Signed-off-by: Suyog Gupta <suyogg@nvidia.com> * update how caches are resized Signed-off-by: Suyog Gupta <suyogg@nvidia.com> * fix: files permission from 100755 to 100644 Signed-off-by: Suyog Gupta <suyogg@nvidia.com> * some comments Signed-off-by: Suyog Gupta <suyogg@nvidia.com> * lint Signed-off-by: Suyog Gupta <suyogg@nvidia.com> * lint Signed-off-by: Suyog Gupta <suyogg@nvidia.com> * lint Signed-off-by: Suyog Gupta <suyogg@nvidia.com> * lint Signed-off-by: Suyog Gupta <suyogg@nvidia.com> * Fix function name Signed-off-by: Suyog Gupta <suyogg@nvidia.com> * refactor Signed-off-by: Suyog Gupta <suyogg@nvidia.com> * Remove spurious change Signed-off-by: Suyog Gupta <suyogg@nvidia.com> * Add cursor generated doc strings Signed-off-by: Suyog Gupta <suyogg@nvidia.com> * re-enable ad test Signed-off-by: Suyog Gupta <suyogg@nvidia.com> * some perf cleanup Signed-off-by: Suyog Gupta <suyogg@nvidia.com> * debug ci Signed-off-by: Suyog Gupta <suyogg@nvidia.com> * ensure that overlap scheduler is enabled Signed-off-by: Suyog Gupta <suyogg@nvidia.com> * Reorder the tests Signed-off-by: Suyog Gupta <suyogg@nvidia.com> --------- Signed-off-by: Suyog Gupta <suyogg@nvidia.com> Co-authored-by: Kaiyu Xie <26294424+kaiyux@users.noreply.github.com>	2025-03-26 14:33:14 -07:00
wili	3e035f2219	v1.2 (#3082 ) Signed-off-by: wili <wili@nvidia.com>	2025-03-26 23:31:29 +08:00
Jinyang Yuan	6b583f6f83	perf: Enable CUDA graphs when attention DP is used and active requests on different GPUs are uneven (#3010 ) Signed-off-by: Jinyang Yuan <154768711+jinyangyuan-nvidia@users.noreply.github.com> Co-authored-by: raccoonliukai <raccoonliu@tencent.com>	2025-03-26 21:09:25 +08:00
Enwei Zhu	224469b096	test: [TRTLLM-4334] Create 1.0 criteria scope from API stability references (#3069 ) * committed APIs validation Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com> * fix Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com> * clean name Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com> * separate Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com> * add TODOs Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com> * fix naming Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com> * fix Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com> --------- Signed-off-by: Enwei Zhu <21126786+syuoni@users.noreply.github.com>	2025-03-26 18:14:35 +08:00
Kaiyu Xie	ea3739ee62	Fix: fuse message not aligned on different processes (#3067 ) Signed-off-by: Kaiyu Xie <26294424+kaiyux@users.noreply.github.com>	2025-03-26 17:15:27 +08:00
Yechan Kim	3c7cb6629c	Add EXAONE-Deep (#3054 ) Signed-off-by: yechank <161688079+yechank-nvidia@users.noreply.github.com> Co-authored-by: QI JUN <22017000+QiJune@users.noreply.github.com>	2025-03-26 14:24:04 +08:00
DylanChen-NV	1ac0566a93	fix: fix for cp > kvHeadNum (#3002 ) * fix for cp > kvHeadNum Signed-off-by: Dylan Chen <191843203+DylanChen-NV@users.noreply.github.com> * fix for None kv_head_num Signed-off-by: Dylan Chen <191843203+DylanChen-NV@users.noreply.github.com> --------- Signed-off-by: Dylan Chen <191843203+DylanChen-NV@users.noreply.github.com>	2025-03-26 12:39:02 +08:00
HuiGao-NV	25f2434495	fix: Set correct draft_token_nums to dummy requests for torch compilation with MTP (#3053 ) Set correct draft_token_nums to dummy requests for torch compilation with MTP Signed-off-by: Hui Gao <huig@nvidia.com>	2025-03-26 11:32:57 +08:00
yuxianq	268933b5cc	Refactor imports inside tensorrt_llm._torch. (#3015 ) Signed-off-by: Yuxian Qiu <142763828+yuxianq@users.noreply.github.com>	2025-03-26 11:01:07 +08:00
WeiHaocheng	7ac04ada2a	doc: Add README.md for scaffolding (#3048 ) * Add README.md for scaffolding Signed-off-by: fredw <20514172+WeiHaocheng@users.noreply.github.com> * Update tensorrt_llm/scaffolding/README.md Co-authored-by: dongxuy04 <78518666+dongxuy04@users.noreply.github.com> Signed-off-by: WeiHaocheng <20514172+WeiHaocheng@users.noreply.github.com> --------- Signed-off-by: fredw <20514172+WeiHaocheng@users.noreply.github.com> Signed-off-by: WeiHaocheng <20514172+WeiHaocheng@users.noreply.github.com> Co-authored-by: dongxuy04 <78518666+dongxuy04@users.noreply.github.com>	2025-03-25 13:58:01 +08:00
Aurelien Chartier	ef78518310	Only gather responses on rank 0 (#3040 ) Signed-off-by: Aurelien Chartier <achartier@nvidia.com>	2025-03-24 21:54:51 -07:00
Zhanrui Sun	c2ffce7dbd	chore: bump version to "0.19.0.dev2025032500" (#3019 ) Signed-off-by: ZhanruiSunCh <184402041+ZhanruiSunCh@users.noreply.github.com>	2025-03-25 10:04:17 +08:00
bhsueh_NV	11f9ecb2fd	chore: remove useless param (#3023 ) Signed-off-by: bhsueh <11360707+byshiue@users.noreply.github.com>	2025-03-25 08:36:45 +08:00
Netanel Haber	da0b0e0ee3	fix: disable kv cache reuse when minimum window size is reached, instead of maximum window size (#2983 ) * fix variable window size reuse - disable when min attention window starts sliding, not max * isPreCyclic -> isCyclic, and invert logic, for clarity * getDecoderState() Signed-off-by: Netanel Haber <58652339+netanel-haber@users.noreply.github.com>	2025-03-24 22:49:52 +08:00
Yan Chunwei	531b98ed62	feat: Add several pure python configs to LlmArgs (#2997 ) * add SchedulerConfig * add PeftCacheConfig	2025-03-24 16:16:17 +08:00
Kaiyu Xie	2631f21089	Update (#2978 ) Signed-off-by: Kaiyu Xie <26294424+kaiyux@users.noreply.github.com>	2025-03-23 16:39:35 +08:00
Kaiyu Xie	3aa6b11d13	Update TensorRT-LLM (#2936 ) * Update TensorRT-LLM --------- Co-authored-by: changcui <cuichang147@gmail.com>	2025-03-18 21:25:19 +08:00
Kaiyu Xie	9b931c0f63	Update TensorRT-LLM (#2873 )	2025-03-11 21:13:42 +08:00
Kaiyu Xie	77d7fe1eb2	Update TensorRT-LLM (#2849 ) * Update TensorRT-LLM --------- Co-authored-by: aotman <chenhangatm@gmail.com>	2025-03-04 18:44:00 +08:00
Kaiyu Xie	ab5b19e027	Update TensorRT-LLM (#2820 )	2025-02-25 21:21:49 +08:00
Kaiyu Xie	2ea17cdad2	Update TensorRT-LLM (#2792 ) * Update TensorRT-LLM --------- Co-authored-by: jlee <jungmoolee@clika.io>	2025-02-18 21:27:39 +08:00
Kaiyu Xie	e88da961c5	Update TensorRT-LLM (#2783 )	2025-02-13 18:40:22 +08:00
Dan Blanaru	16d2467ea8	Update TensorRT-LLM (#2755 ) * Update TensorRT-LLM --------- Co-authored-by: Denis Kayshev <topenkoff@gmail.com> Co-authored-by: akhoroshev <arthoroshev@gmail.com> Co-authored-by: Patrick Reiter Horn <patrick.horn@gmail.com> Update	2025-02-11 03:01:00 +00:00
Denis Kayshev	d93a2dde84	Fix kwarg name (#2691 )	2025-01-20 12:18:26 +08:00
Kaiyu Xie	be17881062	Update TensorRT-LLM (#2582 )	2024-12-16 21:50:47 -08:00
Kaiyu Xie	aaacc9bd68	Update TensorRT-LLM (#2562 ) * Update TensorRT-LLM --------- Co-authored-by: Starrick Liu <73152103+StarrickLiu@users.noreply.github.com>	2024-12-11 00:31:05 -08:00
石晓伟	548b5b7310	Update TensorRT-LLM (#2532 ) * blossom-ci.yml: run vulnerability scan on blossom * open source efb18c1256f8c9c3d47b7d0c740b83e5d5ebe0ec --------- Co-authored-by: niukuo <6831097+niukuo@users.noreply.github.com> Co-authored-by: pei0033 <59505847+pei0033@users.noreply.github.com> Co-authored-by: Kyungmin Lee <30465912+lkm2835@users.noreply.github.com> Co-authored-by: Kaiyu Xie <26294424+kaiyux@users.noreply.github.com>	2024-12-04 21:16:56 +08:00
Kyungmin Lee	4420547017	Fix typo (#2473 )	2024-12-02 10:11:27 +08:00
Kaiyu Xie	385626572d	Update TensorRT-LLM (#2502 ) * Update TensorRT-LLM --------- Co-authored-by: 岑灿 <yunyi.hyy@alibaba-inc.com>	2024-11-26 16:51:34 +08:00
Kaiyu Xie	535c9cc673	Update TensorRT-LLM (#2460 )	2024-11-19 18:30:34 +08:00
Kaiyu Xie	c629546ce4	Update TensorRT-LLM (#2436 )	2024-11-12 15:27:49 +08:00
Kaiyu Xie	b7868dd1bd	Update TensorRT-LLM (#2413 )	2024-11-05 16:27:06 +08:00
Kaiyu Xie	f14d1d433c	Update TensorRT-LLM (#2389 ) * Update TensorRT-LLM --------- Co-authored-by: Alessio Netti <netti.alessio@gmail.com>	2024-10-29 22:24:38 +08:00
Kaiyu Xie	1730a587d8	Update TensorRT-LLM (#2363 ) * Update TensorRT-LLM --------- Co-authored-by: tonylek <137782967+tonylek@users.noreply.github.com>	2024-10-22 20:27:35 +08:00
Kaiyu Xie	75057cd036	Update TensorRT-LLM (#2333 ) * Update TensorRT-LLM --------- Co-authored-by: Puneesh Khanna <puneesh.khanna@tii.ae> Co-authored-by: Ethan Zhang <26497102+ethnzhng@users.noreply.github.com>	2024-10-15 15:28:40 +08:00
Kaiyu Xie	8681b3a4c0	open source 4dbf696ae9b74a26829d120b67ab8443d70c8e58 (#2297 ) * Update TensorRT-LLM --------- Co-authored-by: Bhuvanesh Sridharan <bhuvanesh.sridharan@sprinklr.com> Co-authored-by: Qingquan Song <ustcsqq@gmail.com>	2024-10-08 12:19:19 +02:00
Dan Blanaru	48686bca3a	open source 7f370deb0090d885d7518c2b146399ba3933c004 (#2273 ) * Update TensorRT-LLM --------- Co-authored-by: Qingquan Song <ustcsqq@gmail.com>	2024-09-30 13:51:19 +02:00
Kaiyu Xie	40274aac39	Bump version to `0.14.0.dev2024092401` (#2258 )	2024-09-26 10:26:16 +08:00
Kaiyu Xie	e153372759	Update TensorRT-LLM (#2253 ) * Update TensorRT-LLM --------- Co-authored-by: Ivan Sorokin <isorokin@nvidia.com> Co-authored-by: lkm2835 <lkm2835@gmail.com>	2024-09-24 17:27:31 +02:00
Kaiyu Xie	a65dba7aaf	Bump version to `0.14.0.dev2024091700` (#2234 )	2024-09-18 08:58:36 +08:00
Kaiyu Xie	fe7dc6ad4e	Update TensorRT-LLM (#2230 ) * Update TensorRT-LLM --------- Co-authored-by: Yi Wang <yi.wang.2005@gmail.com> Co-authored-by: lkm2835 <lkm2835@gmail.com>	2024-09-17 14:39:09 +08:00
Kaiyu Xie	31ac30e928	Update TensorRT-LLM (#2215 ) * Update TensorRT-LLM --------- Co-authored-by: Sherlock Xu <65327072+Sherlock113@users.noreply.github.com>	2024-09-10 18:21:22 +08:00
Kaiyu Xie	78f5c2936b	Update TensorRT-LLM (#2184 )	2024-09-03 12:14:23 +02:00
石晓伟	b8fc6633ba	Update TensorRT-LLM (#2156 ) Co-authored-by: Bruno Magalhaes <bruno.magalhaes@synthesia.io>	2024-08-27 18:20:59 +08:00
石晓伟	32ed92e449	Update TensorRT-LLM Co-authored-by: Rong Zhou <130957722+ReginaZh@users.noreply.github.com> Co-authored-by: Onur Galoglu <33498883+ogaloglu@users.noreply.github.com> Co-authored-by: Fabian Joswig <fjosw@users.noreply.github.com>	2024-08-20 18:55:15 +08:00
Kaiyu Xie	74b324f667	Update TensorRT-LLM (#2110 )	2024-08-13 22:34:33 +08:00
Kaiyu Xie	be9cd719f7	Update TensorRT-LLM (#2094 ) * Update TensorRT-LLM --------- Co-authored-by: akhoroshev <arthoroshev@gmail.com> Co-authored-by: Fabian Joswig <fjosw@users.noreply.github.com> Co-authored-by: Tayef Shah <tayefshah@gmail.com> Co-authored-by: lfz941 <linfanzai941@gmail.com>	2024-08-07 16:44:43 +08:00
Kaiyu Xie	a681853d38	Update TensorRT-LLM (#2053 )	2024-07-30 21:25:01 +08:00
Kaiyu Xie	93293aa46d	open source 315e9f5ccd286e906d4c0d402fefbf2f69a1febe (#2033 )	2024-07-26 16:19:24 +08:00
Kaiyu Xie	5fa9436e17	Update TensorRT-LLM (#2016 )	2024-07-24 19:50:28 +08:00
dongxuy04	5f26e44ead	open source 3706e7395b9b58994412617992727c8ff2d14c9f (#2010 ) Co-authored-by: Kaiyu Xie <26294424+kaiyux@users.noreply.github.com>	2024-07-24 05:48:06 +08:00
Kaiyu Xie	bca9a33b02	Update TensorRT-LLM (#2008 ) * Update TensorRT-LLM --------- Co-authored-by: Timur Abishev <abishev.timur@gmail.com> Co-authored-by: MahmoudAshraf97 <hassouna97.ma@gmail.com> Co-authored-by: Saeyoon Oh <saeyoon.oh@furiosa.ai> Co-authored-by: hattizai <hattizai@gmail.com>	2024-07-23 23:05:09 +08:00
Kaiyu Xie	2d234357c6	Update TensorRT-LLM (#1954 ) * Update TensorRT-LLM --------- Co-authored-by: Altair-Alpha <62340011+Altair-Alpha@users.noreply.github.com>	2024-07-16 15:30:25 +08:00
Kaiyu Xie	a96cccafcf	Update TensorRT-LLM (#1918 )	2024-07-09 14:42:22 +08:00
Kaiyu Xie	9dbc5b38ba	Update TensorRT-LLM (#1891 ) * Update TensorRT-LLM --------- Co-authored-by: Marks101 <markus.schnoes@gmx.de> Co-authored-by: lkm2835 <lkm2835@gmail.com>	2024-07-04 14:37:19 +08:00
Kaiyu Xie	9691e12bce	Update TensorRT-LLM (#1835 ) * Update TensorRT-LLM --------- Co-authored-by: Morgan Funtowicz <funtowiczmo@gmail.com>	2024-06-25 21:10:30 +08:00
石晓伟	2a115dae84	Update TensorRT-LLM (#1793 ) Co-authored-by: DreamGenX <x@dreamgen.com> Co-authored-by: Ace-RR <78812427+Ace-RR@users.noreply.github.com> Co-authored-by: bprus <39293131+bprus@users.noreply.github.com> Co-authored-by: janpetrov <janpetrov@icloud.com>	2024-06-18 18:18:23 +08:00
Kaiyu Xie	db4edea1e1	Update TensorRT-LLM (#1763 ) * Update TensorRT-LLM --------- Co-authored-by: Kota Tsuyuzaki <bloodeagle40234@gmail.com> Co-authored-by: Pzzzzz <hello-cd.plus@hotmail.com> Co-authored-by: Patrick Reiter Horn <patrick.horn@gmail.com>	2024-06-11 16:59:02 +08:00
Kaiyu Xie	b777bd6475	Update TensorRT-LLM (#1725 ) * Update TensorRT-LLM --------- Co-authored-by: RunningLeon <mnsheng@yeah.net> Co-authored-by: Tlntin <TlntinDeng01@Gmail.com> Co-authored-by: ZHENG, Zhen <zhengzhen.z@qq.com> Co-authored-by: Pham Van Ngoan <ngoanpham1196@gmail.com> Co-authored-by: Nathan Price <nathan@abridge.com> Co-authored-by: Tushar Goel <tushar.goel.ml@gmail.com> Co-authored-by: Mati <132419219+matichon-vultureprime@users.noreply.github.com>	2024-06-04 20:26:32 +08:00
Kaiyu Xie	f430a4b447	Update TensorRT-LLM (#1688 ) * Update TensorRT-LLM --------- Co-authored-by: IbrahimAmin <ibrahimamin532@gmail.com> Co-authored-by: Fabian Joswig <fjosw@users.noreply.github.com> Co-authored-by: Pzzzzz <hello-cd.plus@hotmail.com> Co-authored-by: CoderHam <hemant@cohere.com> Co-authored-by: Konstantin Lopuhin <kostia.lopuhin@gmail.com>	2024-05-28 20:07:49 +08:00
Kaiyu Xie	5d8ca2faf7	Update TensorRT-LLM (#1639 ) * Update TensorRT-LLM --------- Co-authored-by: vonjackustc <fga@mail.ustc.edu.cn>	2024-05-21 17:51:02 +08:00
Kaiyu Xie	bf0a5afc92	Update TensorRT-LLM (#1598 ) * Update TensorRT-LLM	2024-05-14 16:43:41 +08:00
Kaiyu Xie	89ba1b1a67	Update TensorRT-LLM (#1554 )	2024-05-07 23:34:28 +08:00
Kaiyu Xie	06c0e9b1ec	Update TensorRT-LLM (#1530 )	2024-04-30 17:19:10 +08:00
Kaiyu Xie	66ef1df492	Update TensorRT-LLM (#1492 ) * Update TensorRT-LLM --------- Co-authored-by: Loki <lokravi@amazon.com>	2024-04-24 14:44:22 +08:00
Kaiyu Xie	71d8d4d3dc	Update TensorRT-LLM (#1455 )	2024-04-16 19:40:08 +08:00
Kaiyu Xie	035b99e0d0	Update TensorRT-LLM (#1427 ) * Update TensorRT-LLM --------- Co-authored-by: meghagarwal <16129366+megha95@users.noreply.github.com>	2024-04-09 17:03:34 +08:00
Kaiyu Xie	118b3d7e7b	Update TensorRT-LLM (#1387 )	2024-04-01 16:39:43 +08:00
石晓伟	850b6fa1e7	Update TensorRT-LLM (#1358 ) Co-authored-by: Kaiyu <26294424+kaiyux@users.noreply.github.com>	2024-03-26 20:47:14 +08:00
Kaiyu Xie	66ca3378c6	Update TensorRT-LLM (#1315 )	2024-03-19 17:36:42 +08:00
Kaiyu Xie	4bb65f216f	Update TensorRT-LLM (#1274 ) * Update TensorRT-LLM --------- Co-authored-by: meghagarwal <16129366+megha95@users.noreply.github.com> Co-authored-by: Shixiaowei02 <39303645+Shixiaowei02@users.noreply.github.com>	2024-03-12 18:15:52 +08:00
Kaiyu Xie	728cc0044b	Update TensorRT-LLM (#1233 ) * Update TensorRT-LLM --------- Co-authored-by: Morgan Funtowicz <funtowiczmo@gmail.com> Co-authored-by: Shixiaowei02 <39303645+Shixiaowei02@users.noreply.github.com>	2024-03-05 18:32:53 +08:00
Kaiyu Xie	655524dd82	Update TensorRT-LLM (#1168 ) * Update TensorRT-LLM --------- Co-authored-by: Bhuvanesh Sridharan <bhuvan.sridharan@gmail.com> Co-authored-by: Shixiaowei02 <39303645+Shixiaowei02@users.noreply.github.com>	2024-02-27 17:37:34 +08:00
Kaiyu Xie	eb8f26c7e4	Update TensorRT-LLM (#1122 ) * Update TensorRT-LLM --------- Co-authored-by: Eddie-Wang1120 <wangjinheng1120@163.com> Co-authored-by: Shixiaowei02 <39303645+Shixiaowei02@users.noreply.github.com>	2024-02-21 21:30:55 +08:00
Kaiyu Xie	0f041b7b57	Update TensorRT-LLM (#1098 ) * Update TensorRT-LLM * update submodule * Remove unused binaries	2024-02-18 15:48:08 +08:00
Kaiyu Xie	0ab9d17a59	Update TensorRT-LLM (#1055 ) * Update TensorRT-LLM --------- Co-authored-by: Shixiaowei02 <39303645+Shixiaowei02@users.noreply.github.com>	2024-02-06 18:38:07 +08:00
Kaiyu Xie	e06f537e08	Update TensorRT-LLM (#1019 ) * Update TensorRT-LLM --------- Co-authored-by: erenup <ping.nie@pku.edu.cn> Co-authored-by: Shixiaowei02 <39303645+Shixiaowei02@users.noreply.github.com>	2024-01-31 21:55:32 +08:00
石晓伟	da79354b8e	Update TensorRT-LLM (#1017 )	2024-01-31 17:48:46 +08:00
Kaiyu Xie	b57221b764	Update TensorRT-LLM (#941 ) * Update TensorRT-LLM --------- Co-authored-by: Shixiaowei02 <39303645+Shixiaowei02@users.noreply.github.com>	2024-01-23 23:22:35 +08:00
Kaiyu Xie	c89653021e	Update TensorRT-LLM (20240116) (#891 ) * Update TensorRT-LLM --------- Co-authored-by: Eddie-Wang1120 <81598289+Eddie-Wang1120@users.noreply.github.com> Co-authored-by: Shixiaowei02 <39303645+Shixiaowei02@users.noreply.github.com>	2024-01-16 20:03:11 +08:00
Kaiyu Xie	d879430b04	Update TensorRT-LLM (#846 ) * Update TensorRT-LLM --------- Co-authored-by: Shixiaowei02 <39303645+Shixiaowei02@users.noreply.github.com>	2024-01-09 21:03:35 +08:00
Kaiyu Xie	deaae40bd7	Update TensorRT-LLM (#787 ) * Update TensorRT-LLM --------- Co-authored-by: Shixiaowei02 <39303645+Shixiaowei02@users.noreply.github.com>	2024-01-02 17:54:32 +08:00
Kaiyu Xie	d37b507f41	Update TensorRT-LLM main branch (#754 ) * Update TensorRT-LLM --------- Co-authored-by: Shixiaowei02 <39303645+Shixiaowei02@users.noreply.github.com>	2023-12-27 17:41:24 +08:00
Kaiyu Xie	a75618df24	Update TensorRT-LLM (#667 ) * Update TensorRT-LLM --------- Co-authored-by: 0xymoro <jerrymeng100@gmail.com> Co-authored-by: Shixiaowei02 <39303645+Shixiaowei02@users.noreply.github.com>	2023-12-15 22:14:51 +08:00
Kaiyu Xie	f7eca56161	Update TensorRT-LLM (#613 ) * Update TensorRT-LLM --------- Co-authored-by: Shixiaowei02 <39303645+Shixiaowei02@users.noreply.github.com> Co-authored-by: zhang-ge-hao <842720660@qq.com>	2023-12-08 17:49:24 +08:00
Kaiyu Xie	71f60f6df0	Update TensorRT-LLM (#524 )	2023-12-01 22:27:51 +08:00
Kaiyu Xie	711a28d9bf	Update TensorRT-LLM (#465 ) * Update TensorRT-LLM --------- Co-authored-by: Shixiaowei02 <39303645+Shixiaowei02@users.noreply.github.com>	2023-11-24 22:12:26 +08:00
Kaiyu Xie	6755a3f077	Update TensorRT-LLM (#422 ) * Update TensorRT-LLM --------- Co-authored-by: Tltin <TltinDeng01@gmail.com> Co-authored-by: zhaohb <zhaohbcloud@126.com> Co-authored-by: Bradley Heilbrun <brad@repl.it> Co-authored-by: nqbao11 <nqbao11.01@gmail.com> Co-authored-by: Nikhil Varghese <nikhil@bot-it.ai>	2023-11-18 00:05:54 +08:00
Kaiyu Xie	b2fd493c16	Update TensorRT-LLM (#349 ) * Update TensorRT-LLM --------- Co-authored-by: Shixiaowei02 <39303645+Shixiaowei02@users.noreply.github.com>	2023-11-10 22:30:31 +08:00
Kaiyu Xie	f044eb8d94	Update TensorRT-LLM (#302 ) * Update TensorRT-LLM --------- Co-authored-by: wangruohui <12756472+wangruohui@users.noreply.github.com>	2023-11-07 19:51:58 +08:00
Kaiyu Xie	4de32a86ae	Update TensorRT-LLM (#188 ) * Update batch manager * Update src --------- Co-authored-by: Shixiaowei02 <39303645+Shixiaowei02@users.noreply.github.com> Co-authored-by: jdemouth-nvidia <11447840+jdemouth-nvidia@users.noreply.github.com>	2023-10-30 16:06:41 +08:00
Kaiyu Xie	d8b408e6dc	Update TensorRT-LLM (#148 ) * Update TensorRT-LLM --------- Co-authored-by: Shixiaowei02 <39303645+Shixiaowei02@users.noreply.github.com>	2023-10-27 12:10:00 +08:00
Kaiyu Xie	75b6210ff4	Kaiyu/update main (#5 ) * Update * Update	2023-10-18 22:38:53 +08:00
Kevin Xie	39d574ae66	Update	2023-10-11 00:42:09 -07:00
Kevin Xie	027cd518e3	Update	2023-10-10 23:22:17 -07:00
Kevin Xie	6e9e318e91	Update code	2023-09-28 09:00:05 -07:00
Kaiyu Xie	23bc5b7c49	Initial commit	2023-09-20 00:29:41 -07:00

... 38 39 40 41 42 ...

2106 Commits