[5305318] fix: Fix the accuracy issue when reduce_fusion is enabled for GEMMA model. (#5801)

Signed-off-by: Yukun He <23156053+hyukn@users.noreply.github.com>
2026-01-14 06:27:45 +08:00 · 2025-07-08 19:51:05 +08:00 · 2025-07-08 19:51:05 +08:00 · e104f8bbb5
commit e104f8bbb5
parent b01d1c28f7
1 changed files with 4 additions and 4 deletions
--- a/tensorrt_llm/models/gemma/model.py
+++ b/tensorrt_llm/models/gemma/model.py
@ -157,10 +157,10 @@ class GemmaDecoderLayer(Module):
                if default_net().plugin_config.reduce_fusion else
                AllReduceFusionOp.NONE,
                residual=residual,
-                norm_weight=self.post_layernorm.weight.value,
+                norm_weight=self.pre_feedforward_layernorm.weight.value,
-                norm_pre_residual_weight=self.pre_feedforward_layernorm.weight.
+                norm_pre_residual_weight=self.post_layernorm.weight.value
-                value if self.config.inter_layernorms else None,
+                if self.config.inter_layernorms else None,
-                eps=self.post_layernorm.eps))
+                eps=self.pre_feedforward_layernorm.eps))
        if use_cache:
            attention_output, presents = attention_output