[https://nvbugs/5463720][fix] tp-split the inferred mlp_hidden_size for nemotron-nas (#7231)

Signed-off-by: Venky Ganesh <23023424+venkywonka@users.noreply.github.com>
2026-01-14 06:27:45 +08:00 · 2025-08-27 05:04:42 -07:00 · 2025-08-27 05:04:42 -07:00 · 6cc168a5d3
commit 6cc168a5d3
parent 0fa49c5e2b
1 changed files with 2 additions and 1 deletions
--- a/tensorrt_llm/_torch/model_config.py
+++ b/tensorrt_llm/_torch/model_config.py
@ -344,7 +344,8 @@ class ModelConfig(Generic[TConfig]):
                architectures = self.pretrained_config.architectures
                if len(architectures
                       ) == 1 and architectures[0] == "DeciLMForCausalLM":
-                    mlp_hidden_size = self._infer_nemotron_ffn_mult()
+                    mlp_hidden_size = self._infer_nemotron_ffn_mult(
+                    ) // self.mapping.tp_size
                else:
                    raise ValueError(
                        f"Inferring mlp hidden size for model architecture: {architectures} isn't supported yet"