diff --git a/.buildkite/test-amd.yaml b/.buildkite/test-amd.yaml
index c7338b4828d..97fc9c2bb91 100644
--- a/.buildkite/test-amd.yaml
+++ b/.buildkite/test-amd.yaml
@@ -1299,12 +1299,11 @@ steps:
   source_file_dependencies:
   - vllm/
   - tests/entrypoints/llm
-  - tests/entrypoints/offline_mode
   commands:
   - export VLLM_WORKER_MULTIPROC_METHOD=spawn
-  - pytest -v -s entrypoints/llm --ignore=entrypoints/llm/test_generate.py --ignore=entrypoints/llm/test_collective_rpc.py
-  - pytest -v -s entrypoints/llm/test_generate.py
-  - pytest -v -s entrypoints/offline_mode
+  - pytest -v -s entrypoints/llm --ignore=entrypoints/llm/test_generate.py --ignore=entrypoints/llm/test_collective_rpc.py --ignore=entrypoints/llm/offline_mode
+  - pytest -v -s entrypoints/llm/test_generate.py # it needs a clean process
+  - pytest -v -s entrypoints/llm/offline_mode # Needs to avoid interference with other tests
 
 - label: Entrypoints Integration (Pooling) # TBD
   timeout_in_minutes: 180
@@ -1346,7 +1345,7 @@ steps:
   - vllm/platforms/rocm.py
   commands:
   - pytest -v -s entrypoints/openai/tool_parsers
-  - pytest -v -s entrypoints/ --ignore=entrypoints/llm --ignore=entrypoints/offline_mode --ignore=entrypoints/openai --ignore=entrypoints/serve --ignore=entrypoints/test_chat_utils.py  --ignore=entrypoints/pooling --ignore=entrypoints/speech_to_text --ignore=tests/entrypoints/generate
+  - pytest -v -s entrypoints/ --ignore=entrypoints/llm --ignore=entrypoints/openai --ignore=entrypoints/serve --ignore=entrypoints/test_chat_utils.py  --ignore=entrypoints/pooling --ignore=entrypoints/speech_to_text --ignore=tests/entrypoints/generate
 
 - label: OpenAI API correctness # TBD
   timeout_in_minutes: 180
diff --git a/.buildkite/test_areas/entrypoints.yaml b/.buildkite/test_areas/entrypoints.yaml
index 548174ed748..613cb76eb4e 100644
--- a/.buildkite/test_areas/entrypoints.yaml
+++ b/.buildkite/test_areas/entrypoints.yaml
@@ -11,7 +11,7 @@ steps:
   - tests/entrypoints/
   commands:
   - pytest -v -s entrypoints/openai/tool_parsers
-  - pytest -v -s entrypoints/ --ignore=entrypoints/llm --ignore=entrypoints/offline_mode --ignore=entrypoints/openai --ignore=entrypoints/serve --ignore=entrypoints/test_chat_utils.py  --ignore=entrypoints/pooling --ignore=entrypoints/speech_to_text --ignore=tests/entrypoints/generate
+  - pytest -v -s entrypoints/ --ignore=entrypoints/llm --ignore=entrypoints/openai --ignore=entrypoints/serve --ignore=entrypoints/test_chat_utils.py  --ignore=entrypoints/pooling --ignore=entrypoints/speech_to_text --ignore=tests/entrypoints/generate
 
 - label: Entrypoints Integration (LLM)
   key: entrypoints-integration-llm
@@ -20,12 +20,11 @@ steps:
   source_file_dependencies:
   - vllm/
   - tests/entrypoints/llm
-  - tests/entrypoints/offline_mode
   commands:
   - export VLLM_WORKER_MULTIPROC_METHOD=spawn
-  - pytest -v -s entrypoints/llm --ignore=entrypoints/llm/test_generate.py --ignore=entrypoints/llm/test_collective_rpc.py
+  - pytest -v -s entrypoints/llm --ignore=entrypoints/llm/test_generate.py --ignore=entrypoints/llm/test_collective_rpc.py --ignore=entrypoints/llm/offline_mode
   - pytest -v -s entrypoints/llm/test_generate.py # it needs a clean process
-  - pytest -v -s entrypoints/offline_mode # Needs to avoid interference with other tests
+  - pytest -v -s entrypoints/llm/offline_mode # Needs to avoid interference with other tests
   mirror:
     amd:
       device: mi325_1
diff --git a/.dockerignore b/.dockerignore
index fb010600db9..66447272e95 100644
--- a/.dockerignore
+++ b/.dockerignore
@@ -33,10 +33,3 @@ share/python-wheels/
 *.egg
 MANIFEST
 rust/target/
-# Not needed in Docker builds
-docs/
-.github/
-.pre-commit-config.yaml
-.clang-format
-.gitattributes
-format.sh
diff --git a/.github/CODEOWNERS b/.github/CODEOWNERS
index beaaa5d8642..a8947fe2324 100644
--- a/.github/CODEOWNERS
+++ b/.github/CODEOWNERS
@@ -34,10 +34,11 @@
 /vllm/entrypoints/speech_to_text/realtime @njhill
 /vllm/entrypoints/speech_to_text @NickLucche
 /vllm/entrypoints/pooling @noooop
-/vllm/entrypoints/sagemaker @DarkLight1337
+/vllm/entrypoints/serve/sagemaker @DarkLight1337
 /vllm/entrypoints/serve @njhill
 /vllm/entrypoints/*.py @njhill
 /vllm/entrypoints/chat_utils.py @DarkLight1337
+/vllm/entrypoints/offline_utils.py @DarkLight1337
 /vllm/entrypoints/llm.py @DarkLight1337
 
 # Rust Frontend
diff --git a/.github/workflows/stale.yml b/.github/workflows/stale.yml
index 44bf71db5e9..ba807fab7c3 100644
--- a/.github/workflows/stale.yml
+++ b/.github/workflows/stale.yml
@@ -15,7 +15,7 @@ jobs:
       actions: write
     runs-on: ubuntu-latest
     steps:
-      - uses: actions/stale@997185467fa4f803885201cee163a9f38240193d # v10.1.1
+      - uses: actions/stale@eb5cf3af3ac0a1aa4c9c45633dd1ae542a27a899 # v10.3.0
         with:
           # Increasing this value ensures that changes to this workflow
           # propagate to all issues and PRs in days rather than months
diff --git a/csrc/libtorch_stable/fused_deepseek_v4_qnorm_rope_kv_insert_kernel.cu b/csrc/libtorch_stable/fused_deepseek_v4_qnorm_rope_kv_insert_kernel.cu
index a5f3f03de00..4d34b4b6b50 100644
--- a/csrc/libtorch_stable/fused_deepseek_v4_qnorm_rope_kv_insert_kernel.cu
+++ b/csrc/libtorch_stable/fused_deepseek_v4_qnorm_rope_kv_insert_kernel.cu
@@ -102,6 +102,35 @@ constexpr float NUM_TOKEN_CUTOFF = 1024;
 constexpr int kNumLanes = 32;
 constexpr int kElemsPerLane = kHeadDim / kNumLanes;  // 16
 
+// Pack this lane's 16 fp32 elements into per-tensor E4M3 FP8 (one uint4 = 16
+// B), scaling by `scale` (a reciprocal scale) and saturating to ±448.  Used by
+// the FlashInfer full-cache path for both the Q and KV stores.
+__device__ __forceinline__ uint4 packFp8E4M3x16(float const* values,
+                                                float const scale) {
+#ifndef USE_ROCM
+  uint4 out;
+  auto* out2 = reinterpret_cast<__nv_fp8x2_storage_t*>(&out);
+  #pragma unroll
+  for (int i = 0; i < kElemsPerLane / 2; i++) {
+    float2 scaled =
+        make_float2(values[2 * i] * scale, values[2 * i + 1] * scale);
+    scaled.x = fminf(fmaxf(scaled.x, -kFp8Max), kFp8Max);
+    scaled.y = fminf(fmaxf(scaled.y, -kFp8Max), kFp8Max);
+    out2[i] = __nv_cvt_float2_to_fp8x2(scaled, __NV_SATFINITE, __NV_E4M3);
+  }
+  return out;
+#else
+  uint8_t out_bytes[kElemsPerLane];
+  #pragma unroll
+  for (int i = 0; i < kElemsPerLane; i++) {
+    float scaled = values[i] * scale;
+    scaled = fminf(fmaxf(scaled, -kFp8Max), kFp8Max);
+    out_bytes[i] = rocm_cvt_float_to_fp8_e4m3(scaled);
+  }
+  return *reinterpret_cast<uint4 const*>(out_bytes);
+#endif
+}
+
 // ────────────────────────────────────────────────────────────────────────────
 // Small inline helpers
 // ────────────────────────────────────────────────────────────────────────────
@@ -649,6 +678,257 @@ void launchFusedDeepseekV4QNormRopeKVRopeQuantInsert(
 #undef DISPATCH
 }
 
+// ────────────────────────────────────────────────────────────────────────────
+// FlashInfer full-cache kernel
+// ────────────────────────────────────────────────────────────────────────────
+//
+// Sibling to the FlashMLA kernel above, used by the FlashInfer V4 sparse-MLA
+// backend.  Differences from the legacy path:
+//   * No Q head padding — output Q layout matches the input num_heads_q.
+//   * KV is written as a *contiguous* 512-wide row per token (token-strided),
+//     not the legacy UE8M0 paged layout with a separate scale tail.
+//   * Q/KV are stored either as bf16 or as per-tensor E4M3 FP8 (one global
+//     scale), selected by the STORE_Q_FP8 / STORE_KV_FP8 template flags.
+//
+// Grid: 1D, gridDim.x = ceil(num_tokens_full * (num_heads_q + 1) / warps).
+// Each warp handles one (token, slot): slot < num_heads_q → Q, slot ==
+// num_heads_q → KV.
+template <typename scalar_t_in, bool STORE_Q_FP8, bool STORE_KV_FP8>
+__global__ void fusedDeepseekV4FullCacheKernel(
+    scalar_t_in* __restrict__ q_inout,          // [N, H, 512], in place (bf16)
+    uint8_t* __restrict__ q_fp8_out,            // [N, H, 512] fp8, optional
+    int64_t const q_fp8_stride0,                // elements (fp8 == bytes)
+    int64_t const q_fp8_stride1,                // elements (fp8 == bytes)
+    scalar_t_in const* __restrict__ kv_in,      // [N, 512] bf16
+    uint8_t* __restrict__ k_cache,              // contiguous bf16 or fp8 cache
+    int64_t const* __restrict__ slot_mapping,   // [num_tokens_insert] i64
+    int64_t const* __restrict__ position_ids,   // [N] i64
+    float const* __restrict__ cos_sin_cache,    // [max_pos, 64] fp32
+    float const* __restrict__ fp8_scale_ptr,    // scalar, KV fp8 only
+    float const* __restrict__ q_fp8_scale_inv,  // scalar, Q fp8 only
+    float const eps,
+    int const num_tokens_full,      // = q.size(0) = kv.size(0)
+    int const num_tokens_insert,    // = slot_mapping.size(0)
+    int const num_heads_q,          // H (no padding)
+    int const cache_block_size,     // tokens per cache block
+    int64_t const kv_block_stride,  // bytes per cache block
+    int64_t const kv_token_stride) {  // bytes per cache token
+#if (!defined(__CUDA_ARCH__) || __CUDA_ARCH__ < 800) && !defined(USE_ROCM)
+  if constexpr (std::is_same_v<scalar_t_in, c10::BFloat16>) {
+    return;
+  } else {
+#endif
+    using Converter = vllm::_typeConvert<scalar_t_in>;
+    int const warpsPerBlock = blockDim.x / 32;
+    int const warpId = threadIdx.x / 32;
+    int const laneId = threadIdx.x % 32;
+    int const globalWarpIdx = blockIdx.x * warpsPerBlock + warpId;
+
+    int const slotsPerToken = num_heads_q + 1;
+    int const tokenIdx = globalWarpIdx / slotsPerToken;
+    int const slotIdx = globalWarpIdx % slotsPerToken;
+    if (tokenIdx >= num_tokens_full) return;
+    bool const isKV = (slotIdx == num_heads_q);
+    // KV branch: skip DP-padded tokens (no slot reserved for them).
+    if (isKV && tokenIdx >= num_tokens_insert) return;
+
+#if defined(__CUDA_ARCH__) && (__CUDA_ARCH__ >= 900)
+    cudaGridDependencySynchronize();
+#endif
+
+    int const dim_base = laneId * kElemsPerLane;  // in [0, 512) step 16
+    scalar_t_in const* src_ptr;
+    if (isKV) {
+      src_ptr = kv_in + static_cast<int64_t>(tokenIdx) * kHeadDim + dim_base;
+    } else {
+      src_ptr = q_inout +
+                (static_cast<int64_t>(tokenIdx) * num_heads_q + slotIdx) *
+                    kHeadDim +
+                dim_base;
+    }
+    uint4 const v0 = *reinterpret_cast<uint4 const*>(src_ptr);
+    uint4 const v1 = *reinterpret_cast<uint4 const*>(src_ptr + 8);
+
+    // ── Decode bf16 → 16 fp32 registers ───────────────────────────────────
+    float elements[kElemsPerLane];
+    {
+      auto const* p0 =
+          reinterpret_cast<typename Converter::packed_hip_type const*>(&v0);
+      auto const* p1 =
+          reinterpret_cast<typename Converter::packed_hip_type const*>(&v1);
+#pragma unroll
+      for (int i = 0; i < 4; i++) {
+        float2 f2 = Converter::convert(p0[i]);
+        elements[2 * i] = f2.x;
+        elements[2 * i + 1] = f2.y;
+      }
+#pragma unroll
+      for (int i = 0; i < 4; i++) {
+        float2 f2 = Converter::convert(p1[i]);
+        elements[8 + 2 * i] = f2.x;
+        elements[8 + 2 * i + 1] = f2.y;
+      }
+    }
+
+    // ── Q branch: RMSNorm (no weight) ─────────────────────────────────────
+    if (!isKV) {
+      float sumOfSquares = 0.0f;
+#pragma unroll
+      for (int i = 0; i < kElemsPerLane; i++) {
+        sumOfSquares += elements[i] * elements[i];
+      }
+      sumOfSquares = warpSum<float>(sumOfSquares);
+      float const rms_rcp =
+          rsqrtf(sumOfSquares / static_cast<float>(kHeadDim) + eps);
+#pragma unroll
+      for (int i = 0; i < kElemsPerLane; i++) {
+        elements[i] = elements[i] * rms_rcp;
+      }
+    }
+
+    // ── GPT-J RoPE on dims [NOPE_DIM, HEAD_DIM) ───────────────────────────
+    bool const is_rope_lane = dim_base >= kNopeDim;
+    if (is_rope_lane) {
+      int64_t const pos = position_ids[tokenIdx];
+      constexpr int kHalfRope = kRopeDim / 2;
+      float const* cos_ptr = cos_sin_cache + pos * kRopeDim;
+      float const* sin_ptr = cos_ptr + kHalfRope;
+      int const rope_local_base = dim_base - kNopeDim;
+      int const half_base = rope_local_base >> 1;
+      float4 const c0 = *reinterpret_cast<float4 const*>(cos_ptr + half_base);
+      float4 const c1 = *reinterpret_cast<float4 const*>(cos_ptr + half_base + 4);
+      float4 const s0 = *reinterpret_cast<float4 const*>(sin_ptr + half_base);
+      float4 const s1 = *reinterpret_cast<float4 const*>(sin_ptr + half_base + 4);
+      float const cos_arr[8] = {c0.x, c0.y, c0.z, c0.w, c1.x, c1.y, c1.z, c1.w};
+      float const sin_arr[8] = {s0.x, s0.y, s0.z, s0.w, s1.x, s1.y, s1.z, s1.w};
+#pragma unroll
+      for (int p = 0; p < kElemsPerLane / 2; p++) {
+        float const x_even = elements[2 * p];
+        float const x_odd = elements[2 * p + 1];
+        elements[2 * p] = x_even * cos_arr[p] - x_odd * sin_arr[p];
+        elements[2 * p + 1] = x_even * sin_arr[p] + x_odd * cos_arr[p];
+      }
+    }
+
+    // ── Store ─────────────────────────────────────────────────────────────
+    if (!isKV) {
+      if constexpr (STORE_Q_FP8) {
+        float const scale_inv = VLLM_LDG(q_fp8_scale_inv);
+        uint4 const out = packFp8E4M3x16(elements, scale_inv);
+        uint8_t* dst = q_fp8_out +
+                       static_cast<int64_t>(tokenIdx) * q_fp8_stride0 +
+                       static_cast<int64_t>(slotIdx) * q_fp8_stride1 + dim_base;
+        *reinterpret_cast<uint4*>(dst) = out;
+      } else {
+        uint4 out0, out1;
+        auto* po0 = reinterpret_cast<typename Converter::packed_hip_type*>(&out0);
+        auto* po1 = reinterpret_cast<typename Converter::packed_hip_type*>(&out1);
+#pragma unroll
+        for (int i = 0; i < 4; i++) {
+          po0[i] = Converter::convert(
+              make_float2(elements[2 * i], elements[2 * i + 1]));
+        }
+#pragma unroll
+        for (int i = 0; i < 4; i++) {
+          po1[i] = Converter::convert(
+              make_float2(elements[8 + 2 * i], elements[8 + 2 * i + 1]));
+        }
+        scalar_t_in* dst =
+            q_inout +
+            (static_cast<int64_t>(tokenIdx) * num_heads_q + slotIdx) * kHeadDim +
+            dim_base;
+        *reinterpret_cast<uint4*>(dst) = out0;
+        *reinterpret_cast<uint4*>(dst + 8) = out1;
+      }
+    } else {
+      int64_t const slot_id = slot_mapping[tokenIdx];
+      if (slot_id >= 0) {
+        int64_t const block_idx = slot_id / cache_block_size;
+        int64_t const pos_in_block = slot_id % cache_block_size;
+        uint8_t* cache_row =
+            k_cache + block_idx * kv_block_stride + pos_in_block * kv_token_stride;
+        if constexpr (STORE_KV_FP8) {
+          float const inv_scale = 1.0f / VLLM_LDG(fp8_scale_ptr);
+          uint4 const out = packFp8E4M3x16(elements, inv_scale);
+          *reinterpret_cast<uint4*>(cache_row + dim_base) = out;
+        } else {
+          uint4 out0, out1;
+          auto* po0 =
+              reinterpret_cast<typename Converter::packed_hip_type*>(&out0);
+          auto* po1 =
+              reinterpret_cast<typename Converter::packed_hip_type*>(&out1);
+#pragma unroll
+          for (int i = 0; i < 4; i++) {
+            po0[i] = Converter::convert(
+                make_float2(elements[2 * i], elements[2 * i + 1]));
+          }
+#pragma unroll
+          for (int i = 0; i < 4; i++) {
+            po1[i] = Converter::convert(
+                make_float2(elements[8 + 2 * i], elements[8 + 2 * i + 1]));
+          }
+          scalar_t_in* dst = reinterpret_cast<scalar_t_in*>(cache_row) + dim_base;
+          *reinterpret_cast<uint4*>(dst) = out0;
+          *reinterpret_cast<uint4*>(dst + 8) = out1;
+        }
+      }
+    }
+
+#if defined(__CUDA_ARCH__) && (__CUDA_ARCH__ >= 900)
+    cudaTriggerProgrammaticLaunchCompletion();
+#endif
+#if (!defined(__CUDA_ARCH__) || __CUDA_ARCH__ < 800) && !defined(USE_ROCM)
+  }
+#endif
+}
+
+// Configure + launch helper shared by the bf16 and fp8 full-cache launchers.
+template <typename scalar_t_in, bool STORE_Q_FP8, bool STORE_KV_FP8>
+static void launchFullCacheKernel(
+    scalar_t_in* q_inout, uint8_t* q_fp8_out, int64_t q_fp8_stride0,
+    int64_t q_fp8_stride1, scalar_t_in const* kv_in, uint8_t* k_cache,
+    int64_t const* slot_mapping, int64_t const* position_ids,
+    float const* cos_sin_cache, float const* fp8_scale,
+    float const* q_fp8_scale_inv, float const eps, int const num_tokens_full,
+    int const num_tokens_insert, int const num_heads_q,
+    int const cache_block_size, int64_t const kv_block_stride,
+    int64_t const kv_token_stride, char const* op_name, cudaStream_t stream) {
+  constexpr int kBlockSize = 256;
+  constexpr int kWarpsPerBlock = kBlockSize / 32;
+  int64_t const total_warps =
+      static_cast<int64_t>(num_tokens_full) * (num_heads_q + 1);
+  int const grid =
+      static_cast<int>((total_warps + kWarpsPerBlock - 1) / kWarpsPerBlock);
+  auto* kernel =
+      fusedDeepseekV4FullCacheKernel<scalar_t_in, STORE_Q_FP8, STORE_KV_FP8>;
+#ifndef USE_ROCM
+  static int const sm_version = getSMVersion();
+  STD_TORCH_CHECK(sm_version >= 80, op_name,
+                  " requires sm_80+ (Ampere or newer); got sm_", sm_version);
+  cudaLaunchConfig_t config;
+  config.gridDim = dim3(grid);
+  config.blockDim = dim3(kBlockSize);
+  config.dynamicSmemBytes = 0;
+  config.stream = stream;
+  cudaLaunchAttribute attrs[1];
+  attrs[0].id = cudaLaunchAttributeProgrammaticStreamSerialization;
+  attrs[0].val.programmaticStreamSerializationAllowed = 1;
+  config.attrs = attrs;
+  config.numAttrs = (sm_version >= 90) ? 1 : 0;
+  cudaLaunchKernelEx(&config, kernel, q_inout, q_fp8_out, q_fp8_stride0,
+                     q_fp8_stride1, kv_in, k_cache, slot_mapping, position_ids,
+                     cos_sin_cache, fp8_scale, q_fp8_scale_inv, eps,
+                     num_tokens_full, num_tokens_insert, num_heads_q,
+                     cache_block_size, kv_block_stride, kv_token_stride);
+#else
+  kernel<<<grid, kBlockSize, 0, stream>>>(
+      q_inout, q_fp8_out, q_fp8_stride0, q_fp8_stride1, kv_in, k_cache,
+      slot_mapping, position_ids, cos_sin_cache, fp8_scale, q_fp8_scale_inv,
+      eps, num_tokens_full, num_tokens_insert, num_heads_q, cache_block_size,
+      kv_block_stride, kv_token_stride);
+#endif
+}
+
 }  // namespace deepseek_v4_fused_ops
 }  // namespace vllm
 
@@ -735,3 +1015,167 @@ torch::stable::Tensor fused_deepseek_v4_qnorm_rope_kv_rope_quant_insert(
       });
   return q_out;
 }
+
+// ────────────────────────────────────────────────────────────────────────────
+// FlashInfer full-cache torch ops
+// ────────────────────────────────────────────────────────────────────────────
+void fused_deepseek_v4_qnorm_rope_kv_rope_full_cache_bf16_insert(
+    torch::stable::Tensor& q,                    // [N, H, 512] bf16, in place
+    torch::stable::Tensor const& kv,             // [N, 512] bf16, read-only
+    torch::stable::Tensor& k_cache,              // [num_blocks, bs, 512] bf16
+    torch::stable::Tensor const& slot_mapping,   // [num_tokens_insert] int64
+    torch::stable::Tensor const& position_ids,   // [N] int64
+    torch::stable::Tensor const& cos_sin_cache,  // [max_pos, 64] float32
+    double eps, int64_t cache_block_size) {
+  using torch::headeronly::ScalarType;
+  STD_TORCH_CHECK(q.device().is_cuda() && q.is_contiguous(),
+                  "q must be contiguous CUDA");
+  STD_TORCH_CHECK(kv.device().is_cuda() && kv.is_contiguous(),
+                  "kv must be contiguous CUDA");
+  STD_TORCH_CHECK(k_cache.device().is_cuda(), "k_cache must be CUDA");
+  STD_TORCH_CHECK(slot_mapping.device().is_cuda() &&
+                      slot_mapping.scalar_type() == ScalarType::Long,
+                  "slot_mapping must be int64 CUDA");
+  STD_TORCH_CHECK(position_ids.device().is_cuda() &&
+                      position_ids.scalar_type() == ScalarType::Long,
+                  "position_ids must be int64 CUDA");
+  STD_TORCH_CHECK(cos_sin_cache.device().is_cuda() &&
+                      cos_sin_cache.scalar_type() == ScalarType::Float &&
+                      cos_sin_cache.dim() == 2 && cos_sin_cache.size(1) == 64,
+                  "cos_sin_cache shape [max_pos, 64] float32");
+  STD_TORCH_CHECK(q.dim() == 3 && q.size(2) == 512, "q shape [N, H, 512]");
+  STD_TORCH_CHECK(kv.dim() == 2 && kv.size(1) == 512, "kv shape [N, 512]");
+  STD_TORCH_CHECK(q.scalar_type() == ScalarType::BFloat16 &&
+                      kv.scalar_type() == ScalarType::BFloat16,
+                  "q and kv must be bfloat16");
+  STD_TORCH_CHECK(k_cache.dim() == 3 && k_cache.size(1) == cache_block_size &&
+                      k_cache.size(2) == 512 && k_cache.stride(2) == 1,
+                  "k_cache shape [num_blocks, cache_block_size, 512] contiguous");
+  STD_TORCH_CHECK(k_cache.scalar_type() == ScalarType::BFloat16,
+                  "k_cache must be bfloat16");
+
+  int const num_tokens_full = static_cast<int>(q.size(0));
+  int const num_tokens_insert = static_cast<int>(slot_mapping.size(0));
+  STD_TORCH_CHECK(static_cast<int>(kv.size(0)) == num_tokens_full &&
+                      static_cast<int>(position_ids.size(0)) == num_tokens_full,
+                  "q/kv/position_ids row counts must match");
+  STD_TORCH_CHECK(num_tokens_insert <= num_tokens_full,
+                  "slot_mapping must not exceed q row count");
+  int const num_heads_q = static_cast<int>(q.size(1));
+
+  const torch::stable::accelerator::DeviceGuard device_guard(
+      q.get_device_index());
+  const cudaStream_t stream = get_current_cuda_stream(q.get_device_index());
+
+  // bf16 cache: 2 bytes/element -> byte strides for the uint8-addressed kernel.
+  int64_t const kv_block_stride = k_cache.stride(0) * 2;
+  int64_t const kv_token_stride = k_cache.stride(1) * 2;
+
+  VLLM_STABLE_DISPATCH_HALF_TYPES(
+      q.scalar_type(),
+      "fused_deepseek_v4_qnorm_rope_kv_rope_full_cache_bf16_insert", [&] {
+        vllm::deepseek_v4_fused_ops::launchFullCacheKernel<scalar_t, false,
+                                                           false>(
+            reinterpret_cast<scalar_t*>(q.mutable_data_ptr()), nullptr, 0, 0,
+            reinterpret_cast<scalar_t const*>(kv.const_data_ptr()),
+            reinterpret_cast<uint8_t*>(k_cache.mutable_data_ptr()),
+            slot_mapping.const_data_ptr<int64_t>(),
+            position_ids.const_data_ptr<int64_t>(),
+            cos_sin_cache.const_data_ptr<float>(), nullptr, nullptr,
+            static_cast<float>(eps), num_tokens_full, num_tokens_insert,
+            num_heads_q, static_cast<int>(cache_block_size), kv_block_stride,
+            kv_token_stride,
+            "fused_deepseek_v4_qnorm_rope_kv_rope_full_cache_bf16_insert",
+            stream);
+      });
+}
+
+void fused_deepseek_v4_qnorm_rope_kv_rope_full_cache_fp8_insert(
+    torch::stable::Tensor const& q,                // [N, H, 512] bf16, read-only
+    torch::stable::Tensor const& kv,               // [N, 512] bf16, read-only
+    torch::stable::Tensor& q_fp8,                  // [N, H, 512] fp8 e4m3
+    torch::stable::Tensor& k_cache,                // [num_blocks, bs, 512] fp8
+    torch::stable::Tensor const& slot_mapping,     // [num_tokens_insert] int64
+    torch::stable::Tensor const& position_ids,     // [N] int64
+    torch::stable::Tensor const& cos_sin_cache,    // [max_pos, 64] float32
+    torch::stable::Tensor const& fp8_scale,        // scalar float32 (KV scale)
+    torch::stable::Tensor const& q_fp8_scale_inv,  // scalar float32 (1 / Q scale)
+    double eps, int64_t cache_block_size) {
+  using torch::headeronly::ScalarType;
+  STD_TORCH_CHECK(q.device().is_cuda() && q.is_contiguous(),
+                  "q must be contiguous CUDA");
+  STD_TORCH_CHECK(kv.device().is_cuda() && kv.is_contiguous(),
+                  "kv must be contiguous CUDA");
+  STD_TORCH_CHECK(q_fp8.device().is_cuda() && q_fp8.is_contiguous() &&
+                      q_fp8.scalar_type() == ScalarType::Float8_e4m3fn &&
+                      q_fp8.dim() == 3 && q_fp8.size(0) == q.size(0) &&
+                      q_fp8.size(1) == q.size(1) && q_fp8.size(2) == q.size(2),
+                  "q_fp8 must be a contiguous float8_e4m3fn tensor matching q");
+  STD_TORCH_CHECK(k_cache.device().is_cuda(), "k_cache must be CUDA");
+  STD_TORCH_CHECK(slot_mapping.device().is_cuda() &&
+                      slot_mapping.scalar_type() == ScalarType::Long,
+                  "slot_mapping must be int64 CUDA");
+  STD_TORCH_CHECK(position_ids.device().is_cuda() &&
+                      position_ids.scalar_type() == ScalarType::Long,
+                  "position_ids must be int64 CUDA");
+  STD_TORCH_CHECK(cos_sin_cache.device().is_cuda() &&
+                      cos_sin_cache.scalar_type() == ScalarType::Float &&
+                      cos_sin_cache.dim() == 2 && cos_sin_cache.size(1) == 64,
+                  "cos_sin_cache shape [max_pos, 64] float32");
+  STD_TORCH_CHECK(fp8_scale.device().is_cuda() &&
+                      fp8_scale.scalar_type() == ScalarType::Float &&
+                      fp8_scale.size(0) == 1,
+                  "fp8_scale must be a scalar float32 CUDA tensor");
+  STD_TORCH_CHECK(q_fp8_scale_inv.device().is_cuda() &&
+                      q_fp8_scale_inv.scalar_type() == ScalarType::Float &&
+                      q_fp8_scale_inv.size(0) == 1,
+                  "q_fp8_scale_inv must be a scalar float32 CUDA tensor");
+  STD_TORCH_CHECK(q.dim() == 3 && q.size(2) == 512, "q shape [N, H, 512]");
+  STD_TORCH_CHECK(kv.dim() == 2 && kv.size(1) == 512, "kv shape [N, 512]");
+  STD_TORCH_CHECK(q.scalar_type() == kv.scalar_type(),
+                  "q and kv dtype must match");
+  STD_TORCH_CHECK(k_cache.dim() == 3 && k_cache.size(1) == cache_block_size &&
+                      k_cache.size(2) == 512 && k_cache.stride(2) == 1,
+                  "k_cache shape [num_blocks, cache_block_size, 512] contiguous");
+  STD_TORCH_CHECK(k_cache.scalar_type() == ScalarType::Float8_e4m3fn,
+                  "k_cache must be float8_e4m3fn");
+
+  int const num_tokens_full = static_cast<int>(q.size(0));
+  int const num_tokens_insert = static_cast<int>(slot_mapping.size(0));
+  STD_TORCH_CHECK(static_cast<int>(kv.size(0)) == num_tokens_full &&
+                      static_cast<int>(position_ids.size(0)) == num_tokens_full,
+                  "q/kv/position_ids row counts must match");
+  STD_TORCH_CHECK(num_tokens_insert <= num_tokens_full,
+                  "slot_mapping must not exceed q row count");
+  int const num_heads_q = static_cast<int>(q.size(1));
+
+  const torch::stable::accelerator::DeviceGuard device_guard(
+      q.get_device_index());
+  const cudaStream_t stream = get_current_cuda_stream(q.get_device_index());
+
+  VLLM_STABLE_DISPATCH_HALF_TYPES(
+      q.scalar_type(),
+      "fused_deepseek_v4_qnorm_rope_kv_rope_full_cache_fp8_insert", [&] {
+        vllm::deepseek_v4_fused_ops::launchFullCacheKernel<scalar_t, true,
+                                                           true>(
+            // q is read-only in the fp8 path (the kernel writes q_fp8); the
+            // launcher signature is non-const, so cast away const on the ptr.
+            reinterpret_cast<scalar_t*>(
+                const_cast<void*>(q.const_data_ptr())),
+            reinterpret_cast<uint8_t*>(q_fp8.mutable_data_ptr()),
+            q_fp8.stride(0), q_fp8.stride(1),
+            reinterpret_cast<scalar_t const*>(kv.const_data_ptr()),
+            reinterpret_cast<uint8_t*>(k_cache.mutable_data_ptr()),
+            slot_mapping.const_data_ptr<int64_t>(),
+            position_ids.const_data_ptr<int64_t>(),
+            cos_sin_cache.const_data_ptr<float>(),
+            fp8_scale.const_data_ptr<float>(),
+            q_fp8_scale_inv.const_data_ptr<float>(), static_cast<float>(eps),
+            num_tokens_full, num_tokens_insert, num_heads_q,
+            static_cast<int>(cache_block_size),
+            // fp8 cache: 1 byte/element -> stride already in bytes.
+            k_cache.stride(0), k_cache.stride(1),
+            "fused_deepseek_v4_qnorm_rope_kv_rope_full_cache_fp8_insert",
+            stream);
+      });
+}
diff --git a/csrc/libtorch_stable/ops.h b/csrc/libtorch_stable/ops.h
index dd27a6968d0..0a991de76ff 100644
--- a/csrc/libtorch_stable/ops.h
+++ b/csrc/libtorch_stable/ops.h
@@ -238,6 +238,23 @@ torch::stable::Tensor fused_deepseek_v4_qnorm_rope_kv_rope_quant_insert(
     torch::stable::Tensor const& cos_sin_cache, int64_t q_head_padded,
     double eps, int64_t cache_block_size);
 
+void fused_deepseek_v4_qnorm_rope_kv_rope_full_cache_bf16_insert(
+    torch::stable::Tensor& q, torch::stable::Tensor const& kv,
+    torch::stable::Tensor& k_cache, torch::stable::Tensor const& slot_mapping,
+    torch::stable::Tensor const& position_ids,
+    torch::stable::Tensor const& cos_sin_cache, double eps,
+    int64_t cache_block_size);
+
+void fused_deepseek_v4_qnorm_rope_kv_rope_full_cache_fp8_insert(
+    torch::stable::Tensor const& q, torch::stable::Tensor const& kv,
+    torch::stable::Tensor& q_fp8, torch::stable::Tensor& k_cache,
+    torch::stable::Tensor const& slot_mapping,
+    torch::stable::Tensor const& position_ids,
+    torch::stable::Tensor const& cos_sin_cache,
+    torch::stable::Tensor const& fp8_scale,
+    torch::stable::Tensor const& q_fp8_scale_inv, double eps,
+    int64_t cache_block_size);
+
 #ifndef USE_ROCM
 torch::stable::Tensor minimax_allreduce_rms(
     torch::stable::Tensor const& input,
diff --git a/csrc/libtorch_stable/torch_bindings.cpp b/csrc/libtorch_stable/torch_bindings.cpp
index e9a62a8666c..511a788eeae 100644
--- a/csrc/libtorch_stable/torch_bindings.cpp
+++ b/csrc/libtorch_stable/torch_bindings.cpp
@@ -343,6 +343,20 @@ STABLE_TORCH_LIBRARY_FRAGMENT(_C, ops) {
       "Tensor slot_mapping, Tensor position_ids, Tensor cos_sin_cache, "
       "int q_head_padded, float eps, int cache_block_size) -> Tensor");
 
+  // FlashInfer V4 full-cache variants: write Q in place (bf16) or to a separate
+  // FP8 tensor, and KV into a contiguous 512-wide token-strided cache.
+  ops.def(
+      "fused_deepseek_v4_qnorm_rope_kv_rope_full_cache_bf16_insert("
+      "Tensor! q, Tensor kv, Tensor! k_cache, Tensor slot_mapping, "
+      "Tensor position_ids, Tensor cos_sin_cache, float eps, "
+      "int cache_block_size) -> ()");
+  ops.def(
+      "fused_deepseek_v4_qnorm_rope_kv_rope_full_cache_fp8_insert("
+      "Tensor q, Tensor kv, Tensor! q_fp8, Tensor! k_cache, "
+      "Tensor slot_mapping, Tensor position_ids, Tensor cos_sin_cache, "
+      "Tensor fp8_scale, Tensor q_fp8_scale_inv, float eps, "
+      "int cache_block_size) -> ()");
+
 #ifndef USE_ROCM
   ops.def(
       "minimax_allreduce_rms("
@@ -591,6 +605,12 @@ STABLE_TORCH_LIBRARY_IMPL(_C, CUDA, ops) {
   ops.impl("fused_qk_norm_rope", TORCH_BOX(&fused_qk_norm_rope));
   ops.impl("fused_deepseek_v4_qnorm_rope_kv_rope_quant_insert",
            TORCH_BOX(&fused_deepseek_v4_qnorm_rope_kv_rope_quant_insert));
+  ops.impl(
+      "fused_deepseek_v4_qnorm_rope_kv_rope_full_cache_bf16_insert",
+      TORCH_BOX(&fused_deepseek_v4_qnorm_rope_kv_rope_full_cache_bf16_insert));
+  ops.impl(
+      "fused_deepseek_v4_qnorm_rope_kv_rope_full_cache_fp8_insert",
+      TORCH_BOX(&fused_deepseek_v4_qnorm_rope_kv_rope_full_cache_fp8_insert));
 #ifndef USE_ROCM
   ops.impl("minimax_allreduce_rms", TORCH_BOX(&minimax_allreduce_rms));
   ops.impl("minimax_allreduce_rms_qk", TORCH_BOX(&minimax_allreduce_rms_qk));
diff --git a/csrc/torch_bindings.cpp b/csrc/torch_bindings.cpp
index c078222bca0..3351638f574 100644
--- a/csrc/torch_bindings.cpp
+++ b/csrc/torch_bindings.cpp
@@ -55,7 +55,8 @@ TORCH_LIBRARY_EXPAND(TORCH_EXTENSION_NAME, ops) {
 
   // Horizontally-fused DeepseekV4-MLA: per-head RMSNorm + GPT-J RoPE for Q, and
   // GPT-J RoPE + UE8M0 FP8 quant + paged cache insert for KV, all in one
-  // kernel launch. Registered in _C_stable_libtorch.
+  // kernel launch. Registered in _C_stable_libtorch (incl. the FlashInfer V4
+  // full-cache bf16/fp8 variants).
 
   // Quantization ops
 #ifndef USE_ROCM
diff --git a/docker/Dockerfile.rocm b/docker/Dockerfile.rocm
index 1e39306e39f..545765ea856 100644
--- a/docker/Dockerfile.rocm
+++ b/docker/Dockerfile.rocm
@@ -98,7 +98,6 @@ RUN if [ "$USE_SCCACHE" = "1" ]; then \
 ARG USE_SCCACHE
 ENV SCCACHE_BUCKET=${USE_SCCACHE:+${SCCACHE_BUCKET_NAME}}
 ENV SCCACHE_REGION=${USE_SCCACHE:+${SCCACHE_REGION_NAME}}
-ENV SCCACHE_ENDPOINT=${USE_SCCACHE:+${SCCACHE_ENDPOINT}}
 ENV SCCACHE_S3_NO_CREDENTIALS=${USE_SCCACHE:+${SCCACHE_S3_NO_CREDENTIALS}}
 ENV SCCACHE_IDLE_TIMEOUT=${USE_SCCACHE:+0}
 
diff --git a/docs/design/attention_backends.md b/docs/design/attention_backends.md
index 329a4aacfb6..bd3eed7d55b 100644
--- a/docs/design/attention_backends.md
+++ b/docs/design/attention_backends.md
@@ -228,3 +228,17 @@ MLA decode backends are selected using the standard
 | `TOKENSPEED_MLA` | fp16, bf16 | `fp8`, `fp8_e4m3` | 32, 64 | Any | ❌ | ❌ | ❌ | ❌ | ❌ | Decoder | 10.x |
 | `TRITON_MLA` | fp16, bf16 | `auto`, `float16`, `bfloat16`, `fp8`, `fp8_e4m3` | %16 | Any | ❌ | ❌ | ❌ | ❌ | ✅ | Decoder | Any |
 | `XPU_MLA_SPARSE` | fp16, bf16 | `auto`, `float16`, `bfloat16` | Any | 576 | ❌ | ❌ | ✅ | ❌ | ❌ | Decoder | Any |
+
+### DeepSeek V4 Decode Backends
+
+DeepSeek V4 sparse MLA uses its own decode backends, selected via
+`--attention-backend=<BACKEND>` (e.g., `FLASHMLA_SPARSE_DSV4`,
+`FLASHINFER_MLA_SPARSE_DSV4`). They share the V4 sparse-index
+pipeline (compressor + SWA + indexer, 256-token blocks, head 512);
+default on NVIDIA is `FLASHMLA_SPARSE_DSV4`.
+
+| Backend | Dtypes | KV Dtypes | Block Sizes | Head Sizes | Sink | Non-Causal | Sparse | MM Prefix | DCP | Attention Types | Compute Cap. |
+| ------- | ------ | --------- | ----------- | ---------- | ---- | ---------- | ------ | --------- | --- | --------------- | ------------ |
+| `FLASHINFER_MLA_SPARSE_DSV4` | fp16, bf16 | `auto` | Any | Any | ❌ | ❌ | ❌ | ❌ | ❌ | Decoder | Any |
+| `FLASHMLA_SPARSE_DSV4` | fp16, bf16 | `auto` | 256 | 512 | ❌ | ❌ | ❌ | ❌ | ❌ | Decoder | Any |
+| `ROCM_FLASHMLA_SPARSE_DSV4` | fp16, bf16 | `auto` | Any | Any | ❌ | ❌ | ❌ | ❌ | ❌ | Decoder | N/A |
diff --git a/docs/design/cuda_graphs_multimodal.md b/docs/design/cuda_graphs_multimodal.md
index 1fb5c2ba651..5a9edc1ad93 100644
--- a/docs/design/cuda_graphs_multimodal.md
+++ b/docs/design/cuda_graphs_multimodal.md
@@ -82,6 +82,7 @@ Models opt-in to encoder CUDA Graphs by implementing the [SupportsEncoderCudaGra
 
 | Architecture | Models | CG for Image | CG for Video |
 | ------------ | ------ | ------------ | ------------ |
+| `InternVLChatModel` | `InternVL3.5`, `InternVL3`, `InternVL2.5`, `InternVL2` | ✅︎ | ✅︎ |
 | `Qwen2VLForConditionalGeneration` | `Qwen2-VL` | ✅︎ | ✅︎ |
 | `Qwen2_5_VLForConditionalGeneration` | `Qwen2.5-VL` | ✅︎ | ✅︎ |
 | `Qwen3VLForConditionalGeneration` | `Qwen3-VL` | ✅︎ | ✅︎ |
diff --git a/docs/features/quantization/README.md b/docs/features/quantization/README.md
index 6c4aa7d8aaa..2be357d8860 100644
--- a/docs/features/quantization/README.md
+++ b/docs/features/quantization/README.md
@@ -3,7 +3,7 @@
 Quantization trades off model precision for smaller memory footprint, allowing large models to be run on a wider range of devices.
 
 !!! tip
-    To get started with quantization, see [LLM Compressor](llm_compressor.md), a library for optimizing models for deployment with vLLM that supports FP8, INT8, INT4, and other quantization formats.
+    To get started with quantization, see [LLM Compressor](llm_compressor/README.md), a library for optimizing models for deployment with vLLM that supports FP8, INT8, INT4, and other quantization formats.
 
 The following are the supported quantization formats for vLLM:
 
@@ -12,9 +12,11 @@ The following are the supported quantization formats for vLLM:
 - [GGUF](gguf.md)
 - [GPTQModel](gptqmodel.md)
 - [Intel Neural Compressor](inc.md)
-- [INT4 W4A16](int4.md)
-- [INT8 W8A8](int8.md)
-- [FP8 W8A8](fp8.md)
+- [LLM Compressor](llm_compressor/README.md)
+    - [FP8 W8A8](llm_compressor/fp8.md)
+    - [INT4 W4A16](llm_compressor/int4.md)
+    - [INT8 W4A8](llm_compressor/int8_w4a8.md)
+    - [INT8 W8A8](llm_compressor/int8_w8a8.md)
 - [NVIDIA Model Optimizer](modelopt.md)
 - [Online Quantization](online.md)
 - [AMD Quark](quark.md)
@@ -46,16 +48,17 @@ th:not(:first-child) {
 }
 </style>
 
-| Implementation            | Volta | Turing | Ampere | Ada | Hopper | AMD GPU | Intel GPU | x86 CPU |
-| ------------------------- | ----- | ------ | ------ | --- | ------ | ------- | --------- | ------- |
-| AWQ                       | ❌    | ✅︎     | ✅︎     | ✅︎  | ✅︎     | ❌      | ✅︎        | ✅︎      |
-| GPTQ                      | ✅︎    | ✅︎     | ✅︎     | ✅︎  | ✅︎     | ❌      | ✅︎        | ✅︎      |
-| Marlin (GPTQ/AWQ/FP8/FP4) | ❌    | ✅︎*    | ✅︎     | ✅︎  | ✅︎     | ❌      | ❌        | ❌      |
-| INT8 (W8A8)               | ❌    | ✅︎     | ✅︎     | ✅︎  | ✅︎     | ❌      | ❌        | ✅︎      |
-| FP8 (W8A8)                | ❌    | ❌     | ❌     | ✅︎  | ✅︎     | ✅︎      | ❌        | ❌      |
-| bitsandbytes              | ✅︎    | ✅︎     | ✅︎     | ✅︎  | ✅︎     | ❌      | ❌        | ❌      |
-| DeepSpeedFP               | ✅︎    | ✅︎     | ✅︎     | ✅︎  | ✅︎     | ❌      | ❌        | ❌      |
-| GGUF                      | ✅︎    | ✅︎     | ✅︎     | ✅︎  | ✅︎     | ✅︎      | ❌        | ❌      |
+| Implementation            | Volta | Turing | Ampere | Ada | Hopper | AMD GPU | Intel GPU | x86 CPU | Arm CPU |
+| ------------------------- | ----- | ------ | ------ | --- | ------ | ------- | --------- | ------- | ------- |
+| AWQ                       | ❌    | ✅︎     | ✅︎     | ✅︎  | ✅︎     | ❌      | ✅︎        | ✅︎      | ❌      |
+| GPTQ                      | ✅︎    | ✅︎     | ✅︎     | ✅︎  | ✅︎     | ❌      | ✅︎        | ✅︎      | ❌      |
+| Marlin (GPTQ/AWQ/FP8/FP4) | ❌    | ✅︎*    | ✅︎     | ✅︎  | ✅︎     | ❌      | ❌        | ❌      | ❌      |
+| llm-compressor INT8 (W8A8)| ❌    | ✅︎     | ✅︎     | ✅︎  | ✅︎     | ❌      | ❌        | ✅︎      | ✅︎      |
+| llm-compressor INT8 (W4A8)| ❌    | ❌     | ❌     | ❌  | ❌     | ❌      | ❌        | ❌      | ✅︎      |
+| llm-compressor FP8 (W8A8) | ❌    | ❌     | ❌     | ✅︎  | ✅︎     | ✅︎      | ❌        | ❌      | ❌      |
+| bitsandbytes              | ✅︎    | ✅︎     | ✅︎     | ✅︎  | ✅︎     | ❌      | ❌        | ❌      | ❌      |
+| DeepSpeedFP               | ✅︎    | ✅︎     | ✅︎     | ✅︎  | ✅︎     | ❌      | ❌        | ❌      | ❌      |
+| GGUF                      | ✅︎    | ✅︎     | ✅︎     | ✅︎  | ✅︎     | ✅︎      | ❌        | ❌      | ❌      |
 
 - Volta refers to SM 7.0, Turing to SM 7.5, Ampere to SM 8.0/8.6, Ada to SM 8.9, and Hopper to SM 9.0.
 - ✅︎ indicates that the quantization method is supported on the specified hardware.
diff --git a/docs/features/quantization/llm_compressor.md b/docs/features/quantization/llm_compressor/README.md
similarity index 100%
rename from docs/features/quantization/llm_compressor.md
rename to docs/features/quantization/llm_compressor/README.md
diff --git a/docs/features/quantization/fp8.md b/docs/features/quantization/llm_compressor/fp8.md
similarity index 86%
rename from docs/features/quantization/fp8.md
rename to docs/features/quantization/llm_compressor/fp8.md
index 2de71ce8da1..5dc1a7d43a0 100644
--- a/docs/features/quantization/fp8.md
+++ b/docs/features/quantization/llm_compressor/fp8.md
@@ -21,9 +21,17 @@ The FP8 types typically supported in hardware have two distinct representations,
 To produce performant FP8 quantized models with vLLM, you'll need to install the [llm-compressor](https://github.com/vllm-project/llm-compressor/) library:
 
 ```bash
-pip install llmcompressor
+(venv-llm-compressor) pip install llmcompressor
 ```
 
+Additionally, install `vllm` and `lm-evaluation-harness` for evaluation:
+
+```bash
+(venv-vllm) pip install vllm "lm-eval[api]>=0.4.12"
+```
+
+Please use separate environments for vLLM and llm-compressor as they might not work together.
+
 ## Quantization Process
 
 The quantization process involves three main steps:
@@ -57,36 +65,28 @@ For FP8 quantization, we can recover accuracy with simple RTN quantization. We r
 
 Since simple RTN does not require data for weight quantization and the activations are quantized dynamically, we do not need any calibration data for this quantization flow.
 
-??? code
+```python
+from llmcompressor import oneshot
+from llmcompressor.modifiers.quantization import QuantizationModifier
 
-    ```python
-    from llmcompressor import oneshot
-    from llmcompressor.modifiers.quantization import QuantizationModifier
+# Configure the simple PTQ quantization
+recipe = QuantizationModifier(
+    targets="Linear",
+    scheme="FP8_DYNAMIC",
+    ignore=["lm_head"],
+)
 
-    # Configure the simple PTQ quantization
-    recipe = QuantizationModifier(
-        targets="Linear",
-        scheme="FP8_DYNAMIC",
-        ignore=["lm_head"],
-    )
+# Apply the quantization algorithm.
+oneshot(model=model, recipe=recipe)
 
-    # Apply the quantization algorithm.
-    oneshot(model=model, recipe=recipe)
-
-    # Save the model: Meta-Llama-3-8B-Instruct-FP8-Dynamic
-    SAVE_DIR = MODEL_ID.split("/")[1] + "-FP8-Dynamic"
-    model.save_pretrained(SAVE_DIR)
-    tokenizer.save_pretrained(SAVE_DIR)
-    ```
+# Save the model: Meta-Llama-3-8B-Instruct-FP8-Dynamic
+SAVE_DIR = MODEL_ID.split("/")[1] + "-FP8-Dynamic"
+model.save_pretrained(SAVE_DIR)
+tokenizer.save_pretrained(SAVE_DIR)
+```
 
 ### 3. Evaluating Accuracy
 
-Install `vllm` and `lm-evaluation-harness` for evaluation:
-
-```bash
-pip install vllm "lm-eval[api]>=0.4.12"
-```
-
 Load and run the model in `vllm`:
 
 ```python
diff --git a/docs/features/quantization/int4.md b/docs/features/quantization/llm_compressor/int4.md
similarity index 62%
rename from docs/features/quantization/int4.md
rename to docs/features/quantization/llm_compressor/int4.md
index 41c4b40574f..0e54797397a 100644
--- a/docs/features/quantization/int4.md
+++ b/docs/features/quantization/llm_compressor/int4.md
@@ -12,15 +12,17 @@ Please visit the HF collection of [quantized INT4 checkpoints of popular LLMs re
 To use INT4 quantization with vLLM, you'll need to install the [llm-compressor](https://github.com/vllm-project/llm-compressor/) library:
 
 ```bash
-pip install llmcompressor
+(venv-llm-compressor) pip install llmcompressor
 ```
 
 Additionally, install `vllm` and `lm-evaluation-harness` for evaluation:
 
 ```bash
-pip install vllm "lm-eval[api]>=0.4.12"
+(venv-vllm) pip install vllm "lm-eval[api]>=0.4.12"
 ```
 
+Please use separate environments for vLLM and llm-compressor as they might not work together.
+
 ## Quantization Process
 
 The quantization process involves four main steps:
@@ -52,55 +54,51 @@ When quantizing weights to INT4, you need sample data to estimate the weight upd
 It's best to use calibration data that closely matches your deployment data.
 For a general-purpose instruction-tuned model, you can use a dataset like `ultrachat`:
 
-??? code
+```python
+from datasets import load_dataset
 
-    ```python
-    from datasets import load_dataset
+NUM_CALIBRATION_SAMPLES = 512
+MAX_SEQUENCE_LENGTH = 2048
 
-    NUM_CALIBRATION_SAMPLES = 512
-    MAX_SEQUENCE_LENGTH = 2048
+# Load and preprocess the dataset
+ds = load_dataset("HuggingFaceH4/ultrachat_200k", split="train_sft")
+ds = ds.shuffle(seed=42).select(range(NUM_CALIBRATION_SAMPLES))
 
-    # Load and preprocess the dataset
-    ds = load_dataset("HuggingFaceH4/ultrachat_200k", split="train_sft")
-    ds = ds.shuffle(seed=42).select(range(NUM_CALIBRATION_SAMPLES))
+def preprocess(example):
+    return {"text": tokenizer.apply_chat_template(example["messages"], tokenize=False)}
+ds = ds.map(preprocess)
 
-    def preprocess(example):
-        return {"text": tokenizer.apply_chat_template(example["messages"], tokenize=False)}
-    ds = ds.map(preprocess)
-
-    def tokenize(sample):
-        return tokenizer(sample["text"], padding=False, max_length=MAX_SEQUENCE_LENGTH, truncation=True, add_special_tokens=False)
-    ds = ds.map(tokenize, remove_columns=ds.column_names)
-    ```
+def tokenize(sample):
+    return tokenizer(sample["text"], padding=False, max_length=MAX_SEQUENCE_LENGTH, truncation=True, add_special_tokens=False)
+ds = ds.map(tokenize, remove_columns=ds.column_names)
+```
 
 ### 3. Applying Quantization
 
 Now, apply the quantization algorithms:
 
-??? code
+```python
+from llmcompressor import oneshot
+from llmcompressor.modifiers.quantization import GPTQModifier
+from llmcompressor.modifiers.smoothquant import SmoothQuantModifier
 
-    ```python
-    from llmcompressor import oneshot
-    from llmcompressor.modifiers.quantization import GPTQModifier
-    from llmcompressor.modifiers.smoothquant import SmoothQuantModifier
+# Configure the quantization algorithms
+recipe = GPTQModifier(targets="Linear", scheme="W4A16", ignore=["lm_head"])
 
-    # Configure the quantization algorithms
-    recipe = GPTQModifier(targets="Linear", scheme="W4A16", ignore=["lm_head"])
+# Apply quantization
+oneshot(
+    model=model,
+    dataset=ds,
+    recipe=recipe,
+    max_seq_length=MAX_SEQUENCE_LENGTH,
+    num_calibration_samples=NUM_CALIBRATION_SAMPLES,
+)
 
-    # Apply quantization
-    oneshot(
-        model=model,
-        dataset=ds,
-        recipe=recipe,
-        max_seq_length=MAX_SEQUENCE_LENGTH,
-        num_calibration_samples=NUM_CALIBRATION_SAMPLES,
-    )
-
-    # Save the compressed model: Meta-Llama-3-8B-Instruct-W4A16-G128
-    SAVE_DIR = MODEL_ID.split("/")[1] + "-W4A16-G128"
-    model.save_pretrained(SAVE_DIR, save_compressed=True)
-    tokenizer.save_pretrained(SAVE_DIR)
-    ```
+# Save the compressed model: Meta-Llama-3-8B-Instruct-W4A16-G128
+SAVE_DIR = MODEL_ID.split("/")[1] + "-W4A16-G128"
+model.save_pretrained(SAVE_DIR, save_compressed=True)
+tokenizer.save_pretrained(SAVE_DIR)
+```
 
 This process creates a W4A16 model with weights quantized to 4-bit integers.
 
@@ -141,36 +139,34 @@ lm_eval --model vllm \
 
 The following is an example of an expanded quantization recipe you can tune to your own use case:
 
-??? code
-
-    ```python
-    from compressed_tensors.quantization import (
-        QuantizationArgs,
-        QuantizationScheme,
-        QuantizationStrategy,
-        QuantizationType,
-    ) 
-    recipe = GPTQModifier(
-        targets="Linear",
-        config_groups={
-            "config_group": QuantizationScheme(
-                targets=["Linear"],
-                weights=QuantizationArgs(
-                    num_bits=4,
-                    type=QuantizationType.INT,
-                    strategy=QuantizationStrategy.GROUP,
-                    group_size=128,
-                    symmetric=True,
-                    dynamic=False,
-                    actorder="weight",
-                ),
+```python
+from compressed_tensors.quantization import (
+    QuantizationArgs,
+    QuantizationScheme,
+    QuantizationStrategy,
+    QuantizationType,
+)
+recipe = GPTQModifier(
+    targets="Linear",
+    config_groups={
+        "config_group": QuantizationScheme(
+            targets=["Linear"],
+            weights=QuantizationArgs(
+                num_bits=4,
+                type=QuantizationType.INT,
+                strategy=QuantizationStrategy.GROUP,
+                group_size=128,
+                symmetric=True,
+                dynamic=False,
+                actorder="weight",
             ),
-        },
-        ignore=["lm_head"],
-        update_size=NUM_CALIBRATION_SAMPLES,
-        dampening_frac=0.01,
-    )
-    ```
+        ),
+    },
+    ignore=["lm_head"],
+    update_size=NUM_CALIBRATION_SAMPLES,
+    dampening_frac=0.01,
+)
+```
 
 ## Troubleshooting and Support
 
diff --git a/docs/features/quantization/llm_compressor/int8_w4a8.md b/docs/features/quantization/llm_compressor/int8_w4a8.md
new file mode 100644
index 00000000000..cc6a0982832
--- /dev/null
+++ b/docs/features/quantization/llm_compressor/int8_w4a8.md
@@ -0,0 +1,217 @@
+# INT8 W4A8
+
+vLLM supports quantizing weights to INT4 and activations to INT8 for memory savings and inference acceleration.
+This quantization method is particularly useful for reducing model size while maintaining good performance.
+
+## Prerequisites
+
+To use INT8 W4A8 quantization with vLLM, you'll need to install the [llm-compressor](https://github.com/vllm-project/llm-compressor/) library.
+
+```bash
+(venv-llm-compressor) pip install llmcompressor
+```
+
+Additionally, install `vllm` and `lm-evaluation-harness` for evaluation:
+
+```bash
+(venv-vllm) pip install vllm "lm-eval[api]>=0.4.12"
+```
+
+Please use separate environments for vLLM and llm-compressor as they might not work together.
+
+## Quantization Process
+
+The quantization process involves four main steps:
+
+1. Loading the model
+2. Preparing calibration data
+3. Applying quantization
+4. Evaluating accuracy in vLLM
+
+### 1. Loading the Model
+
+Load your model and tokenizer using the standard `transformers` AutoModel classes:
+
+```python
+from transformers import AutoTokenizer, AutoModelForCausalLM
+
+MODEL_ID = "meta-llama/Meta-Llama-3-8B-Instruct"
+model = AutoModelForCausalLM.from_pretrained(
+    MODEL_ID,
+    dtype="auto",
+)
+tokenizer = AutoTokenizer.from_pretrained(MODEL_ID)
+```
+
+### 2. Preparing Calibration Data
+
+When quantizing activations to INT8 and weights to INT4, you need sample data to estimate the activation scales.
+It's best to use calibration data that closely matches your deployment data.
+For a general-purpose instruction-tuned model, you can use a dataset like `ultrachat`:
+
+```python
+from datasets import load_dataset
+
+NUM_CALIBRATION_SAMPLES = 512
+MAX_SEQUENCE_LENGTH = 2048
+
+# Load and preprocess the dataset
+ds = load_dataset("HuggingFaceH4/ultrachat_200k", split="train_sft")
+ds = ds.shuffle(seed=42).select(range(NUM_CALIBRATION_SAMPLES))
+
+def preprocess(example):
+    return {"text": tokenizer.apply_chat_template(example["messages"], tokenize=False)}
+ds = ds.map(preprocess)
+
+def tokenize(sample):
+    return tokenizer(sample["text"], padding=False, max_length=MAX_SEQUENCE_LENGTH, truncation=True, add_special_tokens=False)
+ds = ds.map(tokenize, remove_columns=ds.column_names)
+```
+
+### 3. Applying Quantization
+
+Now, apply the quantization algorithms.
+
+The following recipes create W4A8 models (int4 weights, int8 activations). On Arm® CPUs, this is accelerated through [KleidiAI](https://github.com/ARM-software/kleidiai).
+
+Use groupwise for best accuracy, and channelwise for best inference performance.
+
+=== "Groupwise"
+
+    ```python
+    from llmcompressor import oneshot
+    from llmcompressor.modifiers.quantization import GPTQModifier
+
+    # Configure the quantization algorithms
+    recipe = [
+        GPTQModifier(
+            targets="Linear",
+            scheme="W4A8",
+            ignore=["lm_head"],
+            dampening_frac=0.01
+        ),
+    ]
+
+    # Apply quantization
+    oneshot(
+        model=model,
+        dataset=ds,
+        recipe=recipe,
+        max_seq_length=MAX_SEQUENCE_LENGTH,
+        num_calibration_samples=NUM_CALIBRATION_SAMPLES,
+    )
+
+    # Save the compressed model: Meta-Llama-3-8B-Instruct-W4A8-G128-Dynamic-Per-Token
+    SAVE_DIR = MODEL_ID.split("/")[1] + "-W4A8-G128-Dynamic-Per-Token"
+    model.save_pretrained(SAVE_DIR, save_compressed=True)
+    tokenizer.save_pretrained(SAVE_DIR)
+    ```
+
+=== "Channelwise"
+
+    ```python
+    from llmcompressor import oneshot
+    from llmcompressor.modifiers.quantization import GPTQModifier
+    from compressed_tensors.quantization import QuantizationStrategy, QuantizationType
+
+    scheme = {
+        "targets": ["Linear"],
+        "weights": {
+            "num_bits": 4,
+            "type": QuantizationType.INT,
+            "strategy": QuantizationStrategy.CHANNEL,
+            "symmetric": True,
+            "dynamic": False,
+            "group_size": None,
+        },
+        "input_activations": {
+            "num_bits": 8,
+            "type": QuantizationType.INT,
+            "strategy": QuantizationStrategy.TOKEN,
+            "dynamic": True,
+            "symmetric": False,
+            "observer": None,
+        },
+        "output_activations": None,
+    }
+
+    recipe = [
+        GPTQModifier(
+            targets="Linear",
+            config_groups={"group_0": scheme},
+            ignore=["lm_head"],
+            dampening_frac=0.01,
+        ),
+    ]
+
+    oneshot(
+        model=model,
+        dataset=ds,
+        recipe=recipe,
+        max_seq_length=MAX_SEQUENCE_LENGTH,
+        num_calibration_samples=NUM_CALIBRATION_SAMPLES,
+    )
+
+    # Save the compressed model: Meta-Llama-3-8B-Instruct-W4A8-Channelwise-Dynamic-Per-Token
+    SAVE_DIR = MODEL_ID.split("/")[1] + "-W4A8-Channelwise-Dynamic-Per-Token"
+    model.save_pretrained(SAVE_DIR, save_compressed=True)
+    tokenizer.save_pretrained(SAVE_DIR)
+    ```
+
+### 4. Evaluating Accuracy
+
+=== "Groupwise"
+
+    After quantization, you can load and run the model in vLLM:
+
+    ```python
+    from vllm import LLM
+
+    llm = LLM("./Meta-Llama-3-8B-Instruct-W4A8-G128-Dynamic-Per-Token")
+    ```
+
+    To evaluate accuracy, you can use `lm_eval`:
+
+    ```bash
+    lm_eval --model vllm \
+        --model_args pretrained="./Meta-Llama-3-8B-Instruct-W4A8-G128-Dynamic-Per-Token",add_bos_token=true \
+        --tasks gsm8k \
+        --num_fewshot 5 \
+        --limit 250 \
+        --batch_size 'auto'
+    ```
+
+=== "Channelwise"
+
+    After quantization, you can load and run the model in vLLM:
+
+    ```python
+    from vllm import LLM
+
+    llm = LLM("./Meta-Llama-3-8B-Instruct-W4A8-Channelwise-Dynamic-Per-Token")
+    ```
+
+    To evaluate accuracy, you can use `lm_eval`:
+
+    ```bash
+    lm_eval --model vllm \
+        --model_args pretrained="./Meta-Llama-3-8B-Instruct-W4A8-Channelwise-Dynamic-Per-Token",add_bos_token=true \
+        --tasks gsm8k \
+        --num_fewshot 5 \
+        --limit 250 \
+        --batch_size 'auto'
+    ```
+
+!!! note
+    Quantized models can be sensitive to the presence of the `bos` token. Make sure to include the `add_bos_token=True` argument when running evaluations.
+
+## Best Practices
+
+- Start with 512 samples for calibration data (increase if accuracy drops)
+- Use a sequence length of 2048 as a starting point
+- Employ the chat template or instruction template that the model was trained with
+- If you've fine-tuned a model, consider using a sample of your training data for calibration
+
+## Troubleshooting and Support
+
+If you encounter any issues or have feature requests, please open an issue on the [vllm-project/llm-compressor](https://github.com/vllm-project/llm-compressor/issues) GitHub repository.
diff --git a/docs/features/quantization/int8.md b/docs/features/quantization/llm_compressor/int8_w8a8.md
similarity index 66%
rename from docs/features/quantization/int8.md
rename to docs/features/quantization/llm_compressor/int8_w8a8.md
index 547eb5aedc2..21ed00d1393 100644
--- a/docs/features/quantization/int8.md
+++ b/docs/features/quantization/llm_compressor/int8_w8a8.md
@@ -17,15 +17,17 @@ Please visit the HF collection of [quantized INT8 checkpoints of popular LLMs re
 To use INT8 quantization with vLLM, you'll need to install the [llm-compressor](https://github.com/vllm-project/llm-compressor/) library:
 
 ```bash
-pip install llmcompressor
+(venv-llm-compressor) pip install llmcompressor
 ```
 
 Additionally, install `vllm` and `lm-evaluation-harness` for evaluation:
 
 ```bash
-pip install vllm "lm-eval[api]>=0.4.12"
+(venv-vllm) pip install vllm "lm-eval[api]>=0.4.12"
 ```
 
+Please use separate environments for vLLM and llm-compressor as they might not work together.
+
 ## Quantization Process
 
 The quantization process involves four main steps:
@@ -57,26 +59,24 @@ When quantizing activations to INT8, you need sample data to estimate the activa
 It's best to use calibration data that closely matches your deployment data.
 For a general-purpose instruction-tuned model, you can use a dataset like `ultrachat`:
 
-??? code
+```python
+from datasets import load_dataset
 
-    ```python
-    from datasets import load_dataset
+NUM_CALIBRATION_SAMPLES = 512
+MAX_SEQUENCE_LENGTH = 2048
 
-    NUM_CALIBRATION_SAMPLES = 512
-    MAX_SEQUENCE_LENGTH = 2048
+# Load and preprocess the dataset
+ds = load_dataset("HuggingFaceH4/ultrachat_200k", split="train_sft")
+ds = ds.shuffle(seed=42).select(range(NUM_CALIBRATION_SAMPLES))
 
-    # Load and preprocess the dataset
-    ds = load_dataset("HuggingFaceH4/ultrachat_200k", split="train_sft")
-    ds = ds.shuffle(seed=42).select(range(NUM_CALIBRATION_SAMPLES))
+def preprocess(example):
+    return {"text": tokenizer.apply_chat_template(example["messages"], tokenize=False)}
+ds = ds.map(preprocess)
 
-    def preprocess(example):
-        return {"text": tokenizer.apply_chat_template(example["messages"], tokenize=False)}
-    ds = ds.map(preprocess)
-
-    def tokenize(sample):
-        return tokenizer(sample["text"], padding=False, max_length=MAX_SEQUENCE_LENGTH, truncation=True, add_special_tokens=False)
-    ds = ds.map(tokenize, remove_columns=ds.column_names)
-    ```
+def tokenize(sample):
+    return tokenizer(sample["text"], padding=False, max_length=MAX_SEQUENCE_LENGTH, truncation=True, add_special_tokens=False)
+ds = ds.map(tokenize, remove_columns=ds.column_names)
+```
 
 </details>
 
@@ -84,33 +84,31 @@ For a general-purpose instruction-tuned model, you can use a dataset like `ultra
 
 Now, apply the quantization algorithms:
 
-??? code
+```python
+from llmcompressor import oneshot
+from llmcompressor.modifiers.quantization import GPTQModifier
+from llmcompressor.modifiers.smoothquant import SmoothQuantModifier
 
-    ```python
-    from llmcompressor import oneshot
-    from llmcompressor.modifiers.quantization import GPTQModifier
-    from llmcompressor.modifiers.smoothquant import SmoothQuantModifier
+# Configure the quantization algorithms
+recipe = [
+    SmoothQuantModifier(smoothing_strength=0.8),
+    GPTQModifier(targets="Linear", scheme="W8A8", ignore=["lm_head"]),
+]
 
-    # Configure the quantization algorithms
-    recipe = [
-        SmoothQuantModifier(smoothing_strength=0.8),
-        GPTQModifier(targets="Linear", scheme="W8A8", ignore=["lm_head"]),
-    ]
+# Apply quantization
+oneshot(
+    model=model,
+    dataset=ds,
+    recipe=recipe,
+    max_seq_length=MAX_SEQUENCE_LENGTH,
+    num_calibration_samples=NUM_CALIBRATION_SAMPLES,
+)
 
-    # Apply quantization
-    oneshot(
-        model=model,
-        dataset=ds,
-        recipe=recipe,
-        max_seq_length=MAX_SEQUENCE_LENGTH,
-        num_calibration_samples=NUM_CALIBRATION_SAMPLES,
-    )
-
-    # Save the compressed model: Meta-Llama-3-8B-Instruct-W8A8-Dynamic-Per-Token
-    SAVE_DIR = MODEL_ID.split("/")[1] + "-W8A8-Dynamic-Per-Token"
-    model.save_pretrained(SAVE_DIR, save_compressed=True)
-    tokenizer.save_pretrained(SAVE_DIR)
-    ```
+# Save the compressed model: Meta-Llama-3-8B-Instruct-W8A8-Dynamic-Per-Token
+SAVE_DIR = MODEL_ID.split("/")[1] + "-W8A8-Dynamic-Per-Token"
+model.save_pretrained(SAVE_DIR, save_compressed=True)
+tokenizer.save_pretrained(SAVE_DIR)
+```
 
 This process creates a W8A8 model with weights and activations quantized to 8-bit integers.
 
diff --git a/docs/models/supported_models.md b/docs/models/supported_models.md
index 19cccdc12f5..c0a034bd96a 100644
--- a/docs/models/supported_models.md
+++ b/docs/models/supported_models.md
@@ -569,6 +569,7 @@ These models primarily accept the [`LLM.generate`](./generative_models.md#llmgen
 | `GlmOcrForConditionalGeneration` | GLM-OCR | T + I<sup>E+</sup> | `zai-org/GLM-OCR`, etc. | ✅︎ | ✅︎ |
 | `Granite4VisionForConditionalGeneration` | Granite 4 Vision | T + I<sup>E+</sup> | `ibm-granite/granite-4.1-3b-vision`, etc. | ✅︎ | ✅︎ |
 | `GraniteSpeechForConditionalGeneration` | Granite Speech | T + A | `ibm-granite/granite-speech-3.3-8b` | ✅︎ | ✅︎ |
+| `GraniteSpeechPlusForConditionalGeneration` | Granite Speech Plus | T + A | `ibm-granite/granite-speech-4.1-2b-plus` | ✅︎ | ✅︎ |
 | `HCXVisionForCausalLM` | HyperCLOVAX-SEED-Vision-Instruct-3B | T + I<sup>+</sup> + V<sup>+</sup> | `naver-hyperclovax/HyperCLOVAX-SEED-Vision-Instruct-3B` | | |
 | `HCXVisionV2ForCausalLM` | HyperCLOVAX-SEED-Think-32B | T + I<sup>+</sup> + V<sup>+</sup> | `naver-hyperclovax/HyperCLOVAX-SEED-Think-32B` | | |
 | `H2OVLChatModel` | H2OVL | T + I<sup>E+</sup> | `h2oai/h2ovl-mississippi-800m`, `h2oai/h2ovl-mississippi-2b`, etc. | ✅︎ | ✅︎ |
@@ -709,6 +710,7 @@ Speech2Text models trained specifically for Automatic Speech Recognition.
 | `Gemma3nForConditionalGeneration` | Gemma3n | `google/gemma-3n-E2B-it`, `google/gemma-3n-E4B-it`, etc. | | |
 | `GlmAsrForConditionalGeneration` | GLM-ASR | `zai-org/GLM-ASR-Nano-2512` | ✅︎ | ✅︎ |
 | `GraniteSpeechForConditionalGeneration` | Granite Speech | `ibm-granite/granite-4.0-1b-speech`, `ibm-granite/granite-speech-3.3-2b`, etc. | ✅︎ | ✅︎ |
+| `GraniteSpeechPlusForConditionalGeneration` | Granite Speech Plus | `ibm-granite/granite-speech-4.1-2b-plus` | ✅︎ | ✅︎ |
 | `Qwen3ASRForConditionalGeneration` | Qwen3-ASR | `Qwen/Qwen3-ASR-1.7B`, etc. | ✅︎ | ✅︎ |
 | `Qwen3OmniMoeThinkerForConditionalGeneration` | Qwen3-Omni | `Qwen/Qwen3-Omni-30B-A3B-Instruct`, etc. | | ✅︎ |
 | `VoxtralForConditionalGeneration` | Voxtral (Mistral format) | `mistralai/Voxtral-Mini-3B-2507`, `mistralai/Voxtral-Small-24B-2507`, etc. | ✅︎ | ✅︎ |
diff --git a/docs/pre_run_check.sh b/docs/pre_run_check.sh
index 464766c42ec..4228e4954fe 100644
--- a/docs/pre_run_check.sh
+++ b/docs/pre_run_check.sh
@@ -24,8 +24,14 @@ echo "Checking pre-commit/pre-run-check status..."
 MAX_WAIT=300
 INTERVAL=60
 ELAPSED=0
+# Use a GitHub token if provided to raise the API rate limit (60 -> 5000
+# requests/hour). Set GITHUB_TOKEN in the Read the Docs environment variables.
+CURL_AUTH=()
+if [ -n "$GITHUB_TOKEN" ]; then
+  CURL_AUTH=(-H "Authorization: Bearer $GITHUB_TOKEN")
+fi
 while :; do
-  RAW=$(curl -sS -w "\n%{http_code}" "https://api.github.com/repos/vllm-project/vllm/commits/${READTHEDOCS_GIT_COMMIT_HASH}/check-runs?check_name=pre-run-check&filter=latest")
+  RAW=$(curl -sS "${CURL_AUTH[@]}" -w "\n%{http_code}" "https://api.github.com/repos/vllm-project/vllm/commits/${READTHEDOCS_GIT_COMMIT_HASH}/check-runs?check_name=pre-run-check&filter=latest")
   HTTP_CODE=$(printf %s "$RAW" | tail -n1)
   BODY=$(printf %s "$RAW" | sed '$d')
   if [ "$HTTP_CODE" != "200" ]; then
diff --git a/examples/generate/multimodal/vision_language_offline.py b/examples/generate/multimodal/vision_language_offline.py
index b4e34bd6438..4d47d9f8b45 100644
--- a/examples/generate/multimodal/vision_language_offline.py
+++ b/examples/generate/multimodal/vision_language_offline.py
@@ -2554,6 +2554,7 @@ MODELS_NEED_VIDEO_METADATA = [
 
 
 MODELS_SUPPORT_VIT_CUDA_GRAPH = [
+    "internvl_chat",
     "qwen2_5_vl",
     "qwen3_vl",
     "qwen3_vl_moe",
diff --git a/mkdocs.yaml b/mkdocs.yaml
index 097f7497fb2..1fee824f3b2 100644
--- a/mkdocs.yaml
+++ b/mkdocs.yaml
@@ -110,6 +110,9 @@ plugins:
       redirect_maps:
         features/spec_decode/README.md: features/speculative_decoding/README.md
         features/spec_decode/speculators.md: features/speculative_decoding/speculators.md
+        features/quantization/fp8.md: features/quantization/llm_compressor/fp8.md
+        features/quantization/int4.md: features/quantization/llm_compressor/int4.md
+        features/quantization/int8.md: features/quantization/llm_compressor/int8_w8a8.md
         serving/openai_compatible_server.md: serving/online_serving/README.md
 
 markdown_extensions:
diff --git a/requirements/common.txt b/requirements/common.txt
index d37ef1f1fed..8141dc8ea6b 100644
--- a/requirements/common.txt
+++ b/requirements/common.txt
@@ -38,7 +38,7 @@ pyyaml
 six>=1.16.0; python_version > '3.11' # transitive dependency of pandas that needs to be the latest version for python 3.12
 setuptools>=77.0.3,<81.0.0; python_version > '3.11' # Setuptools is used by triton, we need to ensure a modern version is installed for 3.12+ so that it does not try to import distutils, which was removed in 3.12
 einops # Required for Qwen2-VL.
-compressed-tensors == 0.15.0.1 # required for compressed-tensors
+compressed-tensors == 0.17.0 # required for compressed-tensors
 depyf==0.20.0 # required for profiling and debugging with compilation config
 cloudpickle # allows pickling lambda functions in model_executor/models/registry.py
 watchfiles # required for http server to monitor the updates of TLS files
diff --git a/requirements/cuda.txt b/requirements/cuda.txt
index b0e16d11c75..618f8ae0a37 100644
--- a/requirements/cuda.txt
+++ b/requirements/cuda.txt
@@ -18,7 +18,7 @@ tilelang==0.1.9
 nvidia-cudnn-frontend>=1.13.0,<1.19.0
 
 # Required for faster safetensors model loading
-fastsafetensors >= 0.2.2
+fastsafetensors >= 0.3.2
 
 # QuACK and Cutlass DSL for FA4 (cute-DSL implementation)
 nvidia-cutlass-dsl[cu13]==4.5.2
@@ -28,4 +28,4 @@ quack-kernels>=0.3.3
 tokenspeed-mla==0.1.2
 
 # Humming kernels for quantization gemm
-humming-kernels[cu13]==0.1.2
+humming-kernels[cu13]==0.1.4
diff --git a/requirements/rocm.txt b/requirements/rocm.txt
index 0520f4ca1e9..4ca70738303 100644
--- a/requirements/rocm.txt
+++ b/requirements/rocm.txt
@@ -19,7 +19,10 @@ setuptools-rust>=1.9.0
 runai-model-streamer[s3,gcs,azure]==0.15.7
 conch-triton-kernels==1.2.1
 timm>=1.0.17
-# amd-quark: required for Quark quantization on ROCm 
+# amd-quark: required for Quark quantization on ROCm
 # To be consistent with test_quark.py
 amd-quark>=0.8.99
 tilelang==0.1.10
+
+# Required for faster safetensors model loading
+fastsafetensors >= 0.3.2
diff --git a/requirements/test/cuda.in b/requirements/test/cuda.in
index 6c786491603..344a58ec1bb 100644
--- a/requirements/test/cuda.in
+++ b/requirements/test/cuda.in
@@ -57,7 +57,7 @@ arctic-inference == 0.1.1; platform_machine == "x86_64" # Required for suffix de
 numba == 0.65.0 # Required for N-gram speculative decoding
 numpy
 runai-model-streamer[s3,gcs,azure]==0.15.7
-fastsafetensors>=0.2.2; platform_machine == "x86_64" # 0.2.2 contains important fixes for multi-GPU mem usage
+fastsafetensors>=0.3.2
 instanttensor>=0.1.5; platform_machine == "x86_64"
 pydantic>=2.12 # 2.11 leads to error on python 3.13
 decord==0.6.0; platform_machine == "x86_64"
diff --git a/requirements/test/cuda.txt b/requirements/test/cuda.txt
index 245a86f93be..7d847d10577 100644
--- a/requirements/test/cuda.txt
+++ b/requirements/test/cuda.txt
@@ -191,7 +191,7 @@ fastparquet==2024.11.0
     # via genai-perf
 fastrlock==0.8.2
     # via cupy-cuda12x
-fastsafetensors==0.2.2
+fastsafetensors==0.3.2
     # via
     #   -c requirements/cuda.txt
     #   -r requirements/test/cuda.in
diff --git a/requirements/test/nightly-torch.txt b/requirements/test/nightly-torch.txt
index 9c70aa8b90e..89fd4ea9b43 100644
--- a/requirements/test/nightly-torch.txt
+++ b/requirements/test/nightly-torch.txt
@@ -43,6 +43,6 @@ tritonclient>=2.51.0
 numba == 0.65.0 # Required for N-gram speculative decoding
 numpy
 runai-model-streamer[s3,gcs,azure]==0.15.7
-fastsafetensors>=0.2.2
+fastsafetensors>=0.3.2
 instanttensor>=0.1.5
 pydantic>=2.12 # 2.11 leads to error on python 3.13
diff --git a/requirements/test/rocm.in b/requirements/test/rocm.in
index 97e0658fb10..0a615831774 100644
--- a/requirements/test/rocm.in
+++ b/requirements/test/rocm.in
@@ -56,7 +56,7 @@ arctic-inference==0.1.1 # Required for suffix decoding test
 numba==0.65.0 # Required for N-gram speculative decoding
 numpy
 runai-model-streamer[s3,gcs,azure]==0.15.7
-fastsafetensors @ git+https://github.com/foundation-model-stack/fastsafetensors.git@0.2.2 # PyPI only ships CUDA wheels
+fastsafetensors>=0.3.2
 instanttensor>=0.1.5
 pydantic>=2.12 # 2.11 leads to error on python 3.13
 decord==0.6.0
diff --git a/requirements/test/rocm.txt b/requirements/test/rocm.txt
index c39f268709b..e0232d8b6d3 100644
--- a/requirements/test/rocm.txt
+++ b/requirements/test/rocm.txt
@@ -143,7 +143,7 @@ colorful==0.5.8
     # via ray
 colorlog==6.10.1
     # via optuna
-compressed-tensors==0.15.0.1
+compressed-tensors==0.17.0
     # via
     #   -c requirements/common.txt
     #   -r requirements/test/../common.txt
@@ -240,8 +240,10 @@ fastar==0.10.0
     # via fastapi-cloud-cli
 fastparquet==2026.3.0
     # via genai-perf
-fastsafetensors @ git+https://github.com/foundation-model-stack/fastsafetensors.git@65d80088fca7a8f567fba30415fbcc80f7d2259c
-    # via -r requirements/test/rocm.in
+fastsafetensors==0.3.2
+    # via
+    #   -c requirements/rocm.txt
+    #   -r requirements/test/rocm.in
 filelock==3.25.2
     # via
     #   -c requirements/common.txt
diff --git a/setup.py b/setup.py
index 07374807bee..b674d55a14a 100644
--- a/setup.py
+++ b/setup.py
@@ -1168,7 +1168,7 @@ setup(
         "zen": ["zentorch==2.11.0.0"],
         "bench": ["pandas", "matplotlib", "seaborn", "datasets", "scipy", "plotly"],
         "tensorizer": ["tensorizer==2.10.1"],
-        "fastsafetensors": ["fastsafetensors >= 0.2.2"],
+        "fastsafetensors": ["fastsafetensors >= 0.3.2"],
         "instanttensor": ["instanttensor >= 0.1.5"],
         "runai": ["runai-model-streamer[s3,gcs,azure] >= 0.15.7"],
         "audio": [
diff --git a/tests/compile/passes/distributed/test_fusion_all_reduce.py b/tests/compile/passes/distributed/test_fusion_all_reduce.py
index 1a175b8dd33..4805863057d 100644
--- a/tests/compile/passes/distributed/test_fusion_all_reduce.py
+++ b/tests/compile/passes/distributed/test_fusion_all_reduce.py
@@ -14,6 +14,7 @@ from vllm.compilation.passes.fusion.allreduce_rms_fusion import (
     AllReduceFusionPass,
     RocmAiterAllReduceFusionPass,
 )
+from vllm.compilation.passes.fx_utils import find_op_nodes
 from vllm.compilation.passes.utility.fix_functionalization import (
     FixFunctionalizationPass,
 )
@@ -33,7 +34,7 @@ from vllm.distributed.parallel_state import (
     init_distributed_environment,
     initialize_model_parallel,
 )
-from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.layernorm import GemmaRMSNorm, RMSNorm
 from vllm.model_executor.layers.quantization.utils.quant_utils import (
     kFp8StaticTensorSym,
 )
@@ -91,6 +92,49 @@ class TestAllReduceRMSNormModel(torch.nn.Module):
         return [torch.ops.vllm.flashinfer_trtllm_fused_allreduce_norm.default]
 
 
+class TestAllReduceGemmaRMSNormModel(torch.nn.Module):
+    def __init__(
+        self,
+        hidden_size=16,
+        token_num=16,
+        eps=1e-6,
+        dtype: torch.dtype = torch.float16,
+    ):
+        super().__init__()
+        self.hidden_size = hidden_size
+        self.eps = eps
+        self.norm = [GemmaRMSNorm(hidden_size, eps) for _ in range(4)]
+        # Non-trivial weight (~Gemma range) so (1 + w) exercises the scale path.
+        for n in self.norm:
+            n.weight.data.normal_(mean=0.0, std=0.1)
+        self.w = [torch.rand(hidden_size, hidden_size) for _ in range(3)]
+
+    def forward(self, x):
+        # avoid having graph input be an arg to a pattern directly
+        z = torch.relu(x)
+        x = resid = tensor_model_parallel_all_reduce(z)
+        y = self.norm[0](x)
+
+        z2 = torch.mm(y, self.w[0])
+        x2 = tensor_model_parallel_all_reduce(z2)
+        y2, resid = self.norm[1](x2, resid)
+
+        z3 = torch.mm(y2, self.w[1])
+        x3 = tensor_model_parallel_all_reduce(z3)
+        y3, resid = self.norm[2](x3, resid)
+
+        z4 = torch.mm(y3, self.w[2])
+        x4 = tensor_model_parallel_all_reduce(z4)
+        y4, resid = self.norm[3](x4, resid)
+        return y4
+
+    def ops_in_model_before(self):
+        return [torch.ops.vllm.all_reduce.default]
+
+    def ops_in_model_after(self):
+        return [torch.ops.vllm.flashinfer_trtllm_fused_allreduce_norm.default]
+
+
 class TestAllReduceRMSNormStaticQuantFP8Model(torch.nn.Module):
     quant_key = kFp8StaticTensorSym
 
@@ -209,6 +253,15 @@ class TestAllReduceFusedAddRMSNormStaticQuantFP4Model(torch.nn.Module):
     "test_model, enable_quant_fp8_custom_op, use_aiter",
     [
         (TestAllReduceRMSNormModel, False, IS_AITER_FOUND),
+        pytest.param(
+            TestAllReduceGemmaRMSNormModel,
+            False,
+            False,
+            marks=pytest.mark.skipif(
+                current_platform.is_rocm(),
+                reason="Not supported on ROCm platform",
+            ),
+        ),
         pytest.param(
             TestAllReduceRMSNormStaticQuantFP8Model,
             True,
@@ -404,4 +457,9 @@ def all_reduce_fusion_pass_on_test_model(
         )
         backend.check_before_ops(model.ops_in_model_before(), fully_replaced=False)
         backend.check_after_ops(model.ops_in_model_after())
+        if test_model_cls is TestAllReduceGemmaRMSNormModel:
+            fused_op = torch.ops.vllm.flashinfer_trtllm_fused_allreduce_norm.default
+            fused_nodes = list(find_op_nodes(fused_op, backend.graph_post_pass))
+            assert fused_nodes
+            assert all(n.kwargs.get("weight_bias") == 1.0 for n in fused_nodes)
         del all_reduce_fusion_pass
diff --git a/tests/compile/test_inductor_fallback_allow_list_patch.py b/tests/compile/test_inductor_fallback_allow_list_patch.py
new file mode 100644
index 00000000000..29fe9962e34
--- /dev/null
+++ b/tests/compile/test_inductor_fallback_allow_list_patch.py
@@ -0,0 +1,250 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Tests for the Inductor FALLBACK_ALLOW_LIST patch in env_override.py.
+
+The patch wraps ``torch._inductor.lowering.FALLBACK_ALLOW_LIST`` in a thin
+proxy that auto-allows any custom op in the ``vllm::`` or ``vllm_aiter::``
+namespaces. This routes those ops through Inductor's fast-path
+``make_fallback(target, warn=False, override_decomp=True)`` and avoids the
+expensive ``error.operator_str(target, args, kwargs)`` formatting that
+recursively stringifies every input ``TensorBox``.
+
+The slow path is what made ``torch.compile`` effectively hang on Kimi-K2.6
+TP=8 (deep MoE/TP IR provenance trees). These tests cover both the proxy's
+semantics in isolation and the membership-check fast-path that Inductor's
+``GraphLowering.call_function`` actually performs, so we can validate the
+optimization without needing a full GPU compile.
+"""
+
+import time
+
+import pytest
+
+from vllm.env_override import (
+    _patch_inductor_fallback_allow_list,
+    _VllmFallbackAllowList,
+)
+
+
+class TestVllmFallbackAllowListProxy:
+    """Unit tests for the membership-proxy semantics."""
+
+    def test_vllm_namespace_auto_allowed(self):
+        proxy = _VllmFallbackAllowList(set())
+        assert "vllm::all_reduce" in proxy
+        assert "vllm::fused_add_rms_norm" in proxy
+        assert "vllm::all_reduce.default" in proxy
+
+    def test_vllm_aiter_namespace_auto_allowed(self):
+        proxy = _VllmFallbackAllowList(set())
+        assert "vllm_aiter::fused_add_rms_norm" in proxy
+        assert "vllm_aiter::rocm_aiter_fused_moe" in proxy
+
+    def test_unknown_namespace_falls_through(self):
+        proxy = _VllmFallbackAllowList({"torchvision::roi_align"})
+        assert "torchvision::roi_align" in proxy
+        assert "made_up_ns::nonexistent_op" not in proxy
+
+    def test_non_string_falls_through_to_inner(self):
+        sentinel = object()
+        inner = {sentinel}
+        proxy = _VllmFallbackAllowList(inner)
+        assert sentinel in proxy
+        assert object() not in proxy
+
+    def test_prefix_only_match_not_substring(self):
+        proxy = _VllmFallbackAllowList(set())
+        assert "not_vllm::something" not in proxy
+        assert "  vllm::space_prefixed" not in proxy
+
+    def test_standard_entries_preserved(self):
+        base = {"torchvision::roi_align", "aten::index_add"}
+        proxy = _VllmFallbackAllowList(base)
+        assert "torchvision::roi_align" in proxy
+        assert "aten::index_add" in proxy
+        assert "aten::__not_present__" not in proxy
+
+    def test_add_and_discard_delegate_to_inner(self):
+        inner: set[str] = set()
+        proxy = _VllmFallbackAllowList(inner)
+        proxy.add("custom::op")
+        assert "custom::op" in inner
+        proxy.discard("custom::op")
+        assert "custom::op" not in inner
+
+    def test_iter_len_repr(self):
+        base = {"torchvision::roi_align", "aten::index_add"}
+        proxy = _VllmFallbackAllowList(base)
+        assert set(iter(proxy)) == base
+        assert len(proxy) == len(base)
+        assert "torchvision::roi_align" in repr(proxy)
+
+    def test_getattr_delegates_to_inner(self):
+        class _Inner:
+            sentinel = "i_am_inner"
+
+            def some_method(self):
+                return 42
+
+        inner = _Inner()
+        proxy = _VllmFallbackAllowList(inner)
+        assert proxy.sentinel == "i_am_inner"
+        assert proxy.some_method() == 42
+
+    def test_sentinel_attribute(self):
+        proxy = _VllmFallbackAllowList(set())
+        assert proxy._vllm_patched is True
+
+
+class TestPatchApplication:
+    """Integration tests verifying the patch reaches ``torch._inductor``."""
+
+    def test_patch_applied_to_lowering(self):
+        import torch._inductor.lowering as _lowering
+
+        assert getattr(_lowering.FALLBACK_ALLOW_LIST, "_vllm_patched", False), (
+            "env_override._patch_inductor_fallback_allow_list did not run"
+        )
+
+    def test_graph_module_local_binding_rebound(self):
+        # ``torch/_inductor/graph.py`` does:
+        #   from torch._inductor.lowering import FALLBACK_ALLOW_LIST
+        # so the patch has to overwrite the graph module's local binding too,
+        # otherwise the fast-path check in GraphLowering.call_function still
+        # sees the original (unwrapped) OrderedSet.
+        import torch._inductor.graph as _graph
+        import torch._inductor.lowering as _lowering
+
+        if not hasattr(_graph, "FALLBACK_ALLOW_LIST"):
+            pytest.skip(
+                "torch._inductor.graph no longer imports FALLBACK_ALLOW_LIST "
+                "as a module-level symbol; nothing to rebind."
+            )
+
+        assert _graph.FALLBACK_ALLOW_LIST is _lowering.FALLBACK_ALLOW_LIST
+
+    def test_patch_is_idempotent(self):
+        import torch._inductor.lowering as _lowering
+
+        first = _lowering.FALLBACK_ALLOW_LIST
+        _patch_inductor_fallback_allow_list()
+        _patch_inductor_fallback_allow_list()
+        assert _lowering.FALLBACK_ALLOW_LIST is first
+
+    def test_real_vllm_ops_in_real_allow_list(self):
+        # End-to-end membership check using the live (already-patched) object.
+        import torch._inductor.lowering as _lowering
+
+        allow_list = _lowering.FALLBACK_ALLOW_LIST
+        assert "vllm::all_reduce" in allow_list
+        assert "vllm::fused_add_rms_norm" in allow_list
+        assert "vllm_aiter::fused_add_rms_norm" in allow_list
+
+
+class TestInductorFallbackFastPath:
+    """Emulates ``GraphLowering.call_function``'s FALLBACK_ALLOW_LIST check.
+
+    The relevant snippet in ``torch/_inductor/graph.py`` is roughly::
+
+        base_name = target.name()
+        if base_name not in FALLBACK_ALLOW_LIST:
+            log.info(
+                "Creating implicit fallback for:\\n%s",
+                error.operator_str(target, args, kwargs),
+            )
+        out = make_fallback(target, ...)
+
+    On a deep MoE/TP graph (Kimi-K2.6 at TP=4/8) ``operator_str`` recurses
+    through every input ``TensorBox.__str__`` and ends up taking many minutes
+    of CPU per encountered op. The patch ensures the membership test
+    short-circuits for ``vllm::*``/``vllm_aiter::*`` ops so the slow path is
+    never entered. These tests pin that behaviour without needing a real
+    GPU compile.
+    """
+
+    def _simulate_graph_lowering(self, target_names: list[str]):
+        """Returns the set of target names that would have hit the slow
+        operator_str() path under the patched FALLBACK_ALLOW_LIST.
+        """
+        import torch._inductor.lowering as _lowering
+
+        allow_list = _lowering.FALLBACK_ALLOW_LIST
+        slow_path_hits: list[str] = []
+        for name in target_names:
+            if name not in allow_list:
+                slow_path_hits.append(name)
+        return slow_path_hits
+
+    def test_vllm_ops_skip_slow_path(self):
+        slow = self._simulate_graph_lowering(
+            [
+                "vllm::all_reduce",
+                "vllm::fused_add_rms_norm",
+                "vllm_aiter::rocm_aiter_fused_moe",
+                "vllm_aiter::asm_moe",
+            ]
+        )
+        assert slow == [], (
+            "Patched FALLBACK_ALLOW_LIST must short-circuit for all "
+            f"vllm::*/vllm_aiter::* ops; got slow-path hits: {slow}"
+        )
+
+    def test_non_vllm_ops_still_hit_slow_path(self):
+        # Without the patch this is also what would happen; with the patch
+        # the behaviour for non-vllm namespaces must be unchanged.
+        slow = self._simulate_graph_lowering(
+            ["my_user_ns::custom_op", "fancy_ns::something_else"]
+        )
+        assert "my_user_ns::custom_op" in slow
+        assert "fancy_ns::something_else" in slow
+
+    def test_kimi_k2_6_style_op_stream(self):
+        """Emulates one decoder layer's worth of fallback hits.
+
+        Kimi-K2.6 at TP=4 lowers a stream of ``vllm::all_reduce`` +
+        ``vllm_aiter::fused_add_rms_norm`` calls (one per residual block)
+        plus a handful of fused-MoE ops. Pre-patch every one of these would
+        invoke ``operator_str`` and stringify a hundreds-deep IR provenance
+        tree; post-patch they must all short-circuit.
+        """
+        n_layers = 64  # Kimi-K2.6 has ~64 decoder layers per replica
+        op_stream: list[str] = []
+        for _ in range(n_layers):
+            op_stream.extend(
+                [
+                    "vllm::all_reduce",
+                    "vllm_aiter::fused_add_rms_norm",
+                    "vllm_aiter::rocm_aiter_fused_moe",
+                ]
+            )
+
+        start = time.perf_counter()
+        slow = self._simulate_graph_lowering(op_stream)
+        elapsed_s = time.perf_counter() - start
+
+        assert slow == [], (
+            f"Expected all {len(op_stream)} vllm/vllm_aiter ops to take "
+            f"the fast path; got {len(slow)} slow-path hits."
+        )
+        # ``__contains__`` is O(1) per call, so a Kimi-sized stream should
+        # complete in well under a second even on a slow runner. The
+        # pre-patch slow path took many minutes per op on Kimi-K2.6 TP=8.
+        assert elapsed_s < 1.0, (
+            f"FALLBACK_ALLOW_LIST membership check is unexpectedly slow: "
+            f"{elapsed_s:.3f}s for {len(op_stream)} ops"
+        )
+
+    def test_inner_set_membership_still_works_for_standard_ops(self):
+        """The patch must not break Inductor's existing fallback decisions
+        for non-vllm ops such as ``torchvision::roi_align``."""
+        import torch._inductor.lowering as _lowering
+
+        allow_list = _lowering.FALLBACK_ALLOW_LIST
+        # ``torchvision::roi_align`` has been a member of the upstream
+        # FALLBACK_ALLOW_LIST since the original Inductor implementation.
+        # If the proxy ever broke pass-through, this would regress.
+        if "torchvision::roi_align" not in allow_list:
+            pytest.skip(
+                "Upstream FALLBACK_ALLOW_LIST no longer ships "
+                "torchvision::roi_align; nothing to verify."
+            )
diff --git a/tests/distributed/test_eplb_execute.py b/tests/distributed/test_eplb_execute.py
index d9e6a739b01..0b87477950f 100644
--- a/tests/distributed/test_eplb_execute.py
+++ b/tests/distributed/test_eplb_execute.py
@@ -277,12 +277,15 @@ def assert_verification_synced(local_ok: bool, msg: str) -> None:
     assert bool(ok_tensor.item()), msg
 
 
-def create_eplb_communicator_or_raise(*, group_coordinator, backend, expert_weights):
+def create_eplb_communicator_or_raise(
+    *, group_coordinator, backend, expert_weights, expert_buffer
+):
     try:
         return create_eplb_communicator(
             group_coordinator=group_coordinator,
             backend=backend,
             expert_weights=expert_weights,
+            expert_buffer=expert_buffer,
         )
     except Exception as exc:
         raise RuntimeError(
@@ -355,7 +358,8 @@ def _test_async_transfer_layer_without_mtp_worker(
         communicator = create_eplb_communicator_or_raise(
             group_coordinator=ep_group_coordinator,
             backend=eplb_communicator,
-            expert_weights=expert_weights[0],
+            expert_weights=expert_weights,
+            expert_buffer=expert_buffer,
         )
         communicator.set_stream(cuda_stream)
 
@@ -368,6 +372,7 @@ def _test_async_transfer_layer_without_mtp_worker(
                 ep_group=ep_group,
                 communicator=communicator,
                 cuda_stream=cuda_stream,
+                layer_idx=layer_idx,
             )
             cuda_stream.synchronize()
             move_from_buffer(
@@ -460,10 +465,12 @@ def _test_rearrange_expert_weights_with_redundancy(
             num_layers, num_local_experts, hidden_sizes, ep_rank, device, old_indices
         )
 
+        expert_buffer = [torch.empty_like(w) for w in expert_weights[0]]
         communicator = create_eplb_communicator_or_raise(
             group_coordinator=ep_group_coordinator,
             backend=eplb_communicator,
-            expert_weights=expert_weights[0],
+            expert_weights=expert_weights,
+            expert_buffer=expert_buffer,
         )
 
         # Execute weight rearrangement
@@ -471,9 +478,9 @@ def _test_rearrange_expert_weights_with_redundancy(
             old_indices,
             new_indices,
             expert_weights,
+            expert_buffer,
             ep_group,
-            is_profile=False,
-            communicator=communicator,
+            communicator,
         )
 
     # Verify the rearrangement result
@@ -593,10 +600,12 @@ def _test_rearrange_expert_weights_no_change(env, world_size) -> None:
                 layer_copy.append(weight.clone())
             original_weights.append(layer_copy)
 
+        expert_buffer = [torch.empty_like(w) for w in expert_weights[0]]
         communicator = create_eplb_communicator_or_raise(
             group_coordinator=ep_group_coordinator,
             backend="torch_nccl",
-            expert_weights=expert_weights[0],
+            expert_weights=expert_weights,
+            expert_buffer=expert_buffer,
         )
 
         # Execute rearrangement (should be no change)
@@ -604,9 +613,9 @@ def _test_rearrange_expert_weights_no_change(env, world_size) -> None:
             indices,
             indices,  # Same indices
             expert_weights,
+            expert_buffer,
             ep_group,
             communicator,
-            is_profile=False,
         )
 
     # Verify that the weights have not changed
@@ -726,10 +735,12 @@ def _test_rearrange_expert_weights_profile_mode(env, world_size) -> None:
                 layer_copy.append(weight.clone())
             original_weights.append(layer_copy)
 
+        expert_buffer = [torch.empty_like(w) for w in expert_weights[0]]
         communicator = create_eplb_communicator_or_raise(
             group_coordinator=ep_group_coordinator,
             backend="torch_nccl",
-            expert_weights=expert_weights[0],
+            expert_weights=expert_weights,
+            expert_buffer=expert_buffer,
         )
 
         # Execute profile mode rearrangement
@@ -737,9 +748,10 @@ def _test_rearrange_expert_weights_profile_mode(env, world_size) -> None:
             old_indices,
             new_indices,
             expert_weights,
+            expert_buffer,
             ep_group,
             communicator,
-            is_profile=True,  # Profile mode
+            is_profile=True,
         )
 
     # In profile mode, the weights should remain unchanged
diff --git a/tests/distributed/test_eplb_fused_moe_layer.py b/tests/distributed/test_eplb_fused_moe_layer.py
index eacdb3abc36..87ed4485d3d 100644
--- a/tests/distributed/test_eplb_fused_moe_layer.py
+++ b/tests/distributed/test_eplb_fused_moe_layer.py
@@ -9,9 +9,11 @@ import pytest
 import torch
 
 from vllm.config import VllmConfig, set_current_vllm_config
+from vllm.distributed.eplb.eplb_communicator import create_eplb_communicator
 from vllm.distributed.eplb.rebalance_execute import rearrange_expert_weights_inplace
 from vllm.distributed.parallel_state import (
     ensure_model_parallel_initialized,
+    get_eplb_group,
     get_tp_group,
 )
 from vllm.model_executor.layers.fused_moe.layer import FusedMoE
@@ -213,12 +215,20 @@ def _test_eplb_fml(env, world_size: int, test_config: TestConfig):
         for lidx in range(test_config.num_layers):
             shuffled_indices[lidx] = torch.randperm(test_config.num_experts)
 
+        expert_buffer = [torch.empty_like(w) for w in rank_expert_weights[0]]
+        communicator = create_eplb_communicator(
+            group_coordinator=get_eplb_group(),
+            backend="torch_nccl",
+            expert_weights=rank_expert_weights,
+            expert_buffer=expert_buffer,
+        )
         rearrange_expert_weights_inplace(
             indices,
             shuffled_indices,
             rank_expert_weights,
+            expert_buffer,
             ep_group,
-            is_profile=False,
+            communicator,
         )
 
         num_local_experts = test_config.num_local_experts
diff --git a/tests/distributed/test_eplb_fused_moe_layer_dep_nvfp4.py b/tests/distributed/test_eplb_fused_moe_layer_dep_nvfp4.py
index 9ab785af313..4818f8a2c8c 100644
--- a/tests/distributed/test_eplb_fused_moe_layer_dep_nvfp4.py
+++ b/tests/distributed/test_eplb_fused_moe_layer_dep_nvfp4.py
@@ -10,11 +10,13 @@ import torch
 
 from tests.kernels.moe.utils import make_test_quant_config
 from vllm.config import VllmConfig, set_current_vllm_config
+from vllm.distributed.eplb.eplb_communicator import create_eplb_communicator
 from vllm.distributed.eplb.eplb_state import EplbLayerState
 from vllm.distributed.eplb.rebalance_execute import rearrange_expert_weights_inplace
 from vllm.distributed.parallel_state import (
     ensure_model_parallel_initialized,
     get_dp_group,
+    get_eplb_group,
 )
 from vllm.forward_context import set_forward_context
 from vllm.model_executor.layers.fused_moe.layer import FusedMoE
@@ -171,12 +173,20 @@ def _test_eplb_fml(env, world_size: int, test_config: TestConfig):
         for lidx in range(test_config.num_layers):
             shuffled_indices[lidx] = torch.randperm(test_config.num_experts)
 
+        expert_buffer = [torch.empty_like(w) for w in rank_expert_weights[0]]
+        communicator = create_eplb_communicator(
+            group_coordinator=get_eplb_group(),
+            backend="torch_nccl",
+            expert_weights=rank_expert_weights,
+            expert_buffer=expert_buffer,
+        )
         rearrange_expert_weights_inplace(
             indices,
             shuffled_indices,
             rank_expert_weights,
+            expert_buffer,
             ep_group,
-            is_profile=False,
+            communicator,
         )
 
         num_global_experts = test_config.num_experts
diff --git a/tests/entrypoints/offline_mode/__init__.py b/tests/entrypoints/llm/offline_mode/__init__.py
similarity index 100%
rename from tests/entrypoints/offline_mode/__init__.py
rename to tests/entrypoints/llm/offline_mode/__init__.py
diff --git a/tests/entrypoints/offline_mode/test_offline_mode.py b/tests/entrypoints/llm/offline_mode/test_offline_mode.py
similarity index 100%
rename from tests/entrypoints/offline_mode/test_offline_mode.py
rename to tests/entrypoints/llm/offline_mode/test_offline_mode.py
diff --git a/tests/entrypoints/serve/lora/test_serving_models.py b/tests/entrypoints/serve/lora/test_serving_models.py
index ce9fdcc2bfb..0cab3fd42cf 100644
--- a/tests/entrypoints/serve/lora/test_serving_models.py
+++ b/tests/entrypoints/serve/lora/test_serving_models.py
@@ -6,6 +6,7 @@ from unittest.mock import MagicMock
 
 import pytest
 
+from vllm import PoolingParams
 from vllm.config import ModelConfig
 from vllm.engine.protocol import EngineClient
 from vllm.entrypoints.openai.engine.protocol import (
@@ -13,10 +14,13 @@ from vllm.entrypoints.openai.engine.protocol import (
 )
 from vllm.entrypoints.openai.models.protocol import BaseModelPath
 from vllm.entrypoints.openai.models.serving import OpenAIServingModels
+from vllm.entrypoints.pooling.base.serving import PoolingServingBase
+from vllm.entrypoints.pooling.typing import PoolingServeContext
 from vllm.entrypoints.serve.lora.protocol import (
     LoadLoRAAdapterRequest,
     UnloadLoRAAdapterRequest,
 )
+from vllm.exceptions import VLLMNotFoundError
 from vllm.lora.request import LoRARequest
 
 MODEL_NAME = "hmellor/tiny-random-LlamaForCausalLM"
@@ -130,3 +134,60 @@ async def test_unload_lora_adapter_not_found():
     assert isinstance(response, ErrorResponse)
     assert response.error.type == "NotFoundError"
     assert response.error.code == HTTPStatus.NOT_FOUND
+
+
+class _ConcretePoolingServing(PoolingServingBase):
+    """Minimal concrete subclass used only in these unit tests."""
+
+    request_id_prefix = "test"
+
+    def get_io_processor(self, request):
+        raise NotImplementedError
+
+    def _build_response(self, ctx):
+        raise NotImplementedError
+
+
+def _make_pooling_serving(lora_name: str) -> _ConcretePoolingServing:
+    lora_request = LoRARequest(
+        lora_name=lora_name, lora_int_id=1, lora_path="/path/to/lora"
+    )
+    mock_models = MagicMock()
+    mock_models.lora_requests = {lora_name: lora_request}
+    mock_models.is_base_model.side_effect = lambda name: name == MODEL_NAME
+
+    serving = object.__new__(_ConcretePoolingServing)
+    serving.models = mock_models
+    return serving
+
+
+def _make_pooling_ctx(model_name: str) -> PoolingServeContext:
+    mock_request = MagicMock()
+    mock_request.model = model_name
+    return PoolingServeContext(
+        request=mock_request,
+        model_name=MODEL_NAME,
+        request_id="test-id",
+        pooling_params=PoolingParams(),
+    )
+
+
+def test_pooling_maybe_get_adapters_lora_name_sets_lora_request():
+    """LoRA adapter name must populate ctx.lora_request without raising."""
+    lora_name = "bot-embed-lora"
+    serving = _make_pooling_serving(lora_name)
+    ctx = _make_pooling_ctx(lora_name)
+
+    serving._maybe_get_adapters(ctx)
+
+    assert ctx.lora_request is not None
+    assert ctx.lora_request.lora_name == lora_name
+
+
+def test_pooling_maybe_get_adapters_unknown_model_raises():
+    """An unrecognised model name must still raise VLLMNotFoundError."""
+    serving = _make_pooling_serving("some-lora")
+    ctx = _make_pooling_ctx("unknown-model")
+
+    with pytest.raises(VLLMNotFoundError):
+        serving._maybe_get_adapters(ctx)
diff --git a/tests/entrypoints/sagemaker/__init__.py b/tests/entrypoints/serve/sagemaker/__init__.py
similarity index 100%
rename from tests/entrypoints/sagemaker/__init__.py
rename to tests/entrypoints/serve/sagemaker/__init__.py
diff --git a/tests/entrypoints/sagemaker/conftest.py b/tests/entrypoints/serve/sagemaker/conftest.py
similarity index 97%
rename from tests/entrypoints/sagemaker/conftest.py
rename to tests/entrypoints/serve/sagemaker/conftest.py
index 1c34d738fa7..d36c20ccd9a 100644
--- a/tests/entrypoints/sagemaker/conftest.py
+++ b/tests/entrypoints/serve/sagemaker/conftest.py
@@ -6,7 +6,7 @@
 import pytest
 import pytest_asyncio
 
-from ...utils import RemoteOpenAIServer
+from tests.utils import RemoteOpenAIServer
 
 # Model name constants used across tests
 MODEL_NAME_SMOLLM = "HuggingFaceTB/SmolLM2-135M-Instruct"
diff --git a/tests/entrypoints/sagemaker/test_sagemaker_handler_overrides.py b/tests/entrypoints/serve/sagemaker/test_sagemaker_handler_overrides.py
similarity index 99%
rename from tests/entrypoints/sagemaker/test_sagemaker_handler_overrides.py
rename to tests/entrypoints/serve/sagemaker/test_sagemaker_handler_overrides.py
index 0d4f8e88582..ebc51056bb3 100644
--- a/tests/entrypoints/sagemaker/test_sagemaker_handler_overrides.py
+++ b/tests/entrypoints/serve/sagemaker/test_sagemaker_handler_overrides.py
@@ -22,7 +22,8 @@ import tempfile
 import pytest
 import requests
 
-from ...utils import RemoteOpenAIServer
+from tests.utils import RemoteOpenAIServer
+
 from .conftest import (
     MODEL_NAME_SMOLLM,
 )
diff --git a/tests/entrypoints/sagemaker/test_sagemaker_lora_adapters.py b/tests/entrypoints/serve/sagemaker/test_sagemaker_lora_adapters.py
similarity index 99%
rename from tests/entrypoints/sagemaker/test_sagemaker_lora_adapters.py
rename to tests/entrypoints/serve/sagemaker/test_sagemaker_lora_adapters.py
index 01b3e650222..4a7d8640366 100644
--- a/tests/entrypoints/sagemaker/test_sagemaker_lora_adapters.py
+++ b/tests/entrypoints/serve/sagemaker/test_sagemaker_lora_adapters.py
@@ -4,7 +4,8 @@ import openai  # use the official async_client for correctness check
 import pytest
 import requests
 
-from ...utils import RemoteOpenAIServer
+from tests.utils import RemoteOpenAIServer
+
 from .conftest import MODEL_NAME_SMOLLM
 
 
diff --git a/tests/entrypoints/sagemaker/test_sagemaker_middleware_integration.py b/tests/entrypoints/serve/sagemaker/test_sagemaker_middleware_integration.py
similarity index 99%
rename from tests/entrypoints/sagemaker/test_sagemaker_middleware_integration.py
rename to tests/entrypoints/serve/sagemaker/test_sagemaker_middleware_integration.py
index f1ed0c7e289..bc7574d6503 100644
--- a/tests/entrypoints/sagemaker/test_sagemaker_middleware_integration.py
+++ b/tests/entrypoints/serve/sagemaker/test_sagemaker_middleware_integration.py
@@ -12,7 +12,8 @@ import tempfile
 import pytest
 import requests
 
-from ...utils import RemoteOpenAIServer
+from tests.utils import RemoteOpenAIServer
+
 from .conftest import (
     MODEL_NAME_SMOLLM,
 )
diff --git a/tests/entrypoints/sagemaker/test_sagemaker_stateful_sessions.py b/tests/entrypoints/serve/sagemaker/test_sagemaker_stateful_sessions.py
similarity index 99%
rename from tests/entrypoints/sagemaker/test_sagemaker_stateful_sessions.py
rename to tests/entrypoints/serve/sagemaker/test_sagemaker_stateful_sessions.py
index 6206000385b..7267b4265cc 100644
--- a/tests/entrypoints/sagemaker/test_sagemaker_stateful_sessions.py
+++ b/tests/entrypoints/serve/sagemaker/test_sagemaker_stateful_sessions.py
@@ -6,7 +6,8 @@ import openai  # use the official client for correctness check
 import pytest
 import requests
 
-from ...utils import RemoteOpenAIServer
+from tests.utils import RemoteOpenAIServer
+
 from .conftest import (
     HEADER_SAGEMAKER_CLOSED_SESSION_ID,
     HEADER_SAGEMAKER_NEW_SESSION_ID,
diff --git a/tests/entrypoints/serve/utils/__init__.py b/tests/entrypoints/serve/utils/__init__.py
new file mode 100644
index 00000000000..e69de29bb2d
diff --git a/tests/entrypoints/test_utils.py b/tests/entrypoints/serve/utils/test_api_utils.py
similarity index 98%
rename from tests/entrypoints/test_utils.py
rename to tests/entrypoints/serve/utils/test_api_utils.py
index ff65066ffd2..2dc6f76da6d 100644
--- a/tests/entrypoints/test_utils.py
+++ b/tests/entrypoints/serve/utils/test_api_utils.py
@@ -4,7 +4,7 @@
 import pytest
 
 from vllm.entrypoints.openai.engine.protocol import StreamOptions
-from vllm.entrypoints.utils import (
+from vllm.entrypoints.serve.utils.api_utils import (
     get_max_tokens,
     sanitize_message,
     should_include_usage,
diff --git a/tests/entrypoints/openai/test_fingerprint.py b/tests/entrypoints/serve/utils/test_fingerprint.py
similarity index 97%
rename from tests/entrypoints/openai/test_fingerprint.py
rename to tests/entrypoints/serve/utils/test_fingerprint.py
index b78ed38636c..46ec6255f4e 100644
--- a/tests/entrypoints/openai/test_fingerprint.py
+++ b/tests/entrypoints/serve/utils/test_fingerprint.py
@@ -6,7 +6,7 @@ from types import SimpleNamespace
 
 import pytest
 
-from vllm.entrypoints.openai import fingerprint as fp
+from vllm.entrypoints.serve.utils import fingerprint as fp
 
 
 def _cfg(tp=1, pp=1, dp=1, ep=False, digest="a3b21f94deadbeef"):
diff --git a/tests/entrypoints/serve/utils/test_request_logger.py b/tests/entrypoints/serve/utils/test_request_logger.py
new file mode 100644
index 00000000000..c17f2471e48
--- /dev/null
+++ b/tests/entrypoints/serve/utils/test_request_logger.py
@@ -0,0 +1,248 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+from unittest.mock import MagicMock, patch
+
+from vllm.entrypoints.serve.utils.request_logger import RequestLogger
+
+
+def test_request_logger_log_outputs():
+    """Test the new log_outputs functionality."""
+    # Create a mock logger to capture log calls
+    mock_logger = MagicMock()
+
+    with patch("vllm.entrypoints.serve.utils.request_logger.logger", mock_logger):
+        request_logger = RequestLogger(max_log_len=None)
+
+        # Test basic output logging
+        request_logger.log_outputs(
+            request_id="test-123",
+            outputs="Hello, world!",
+            output_token_ids=[1, 2, 3, 4],
+            finish_reason="stop",
+            is_streaming=False,
+            delta=False,
+        )
+
+        mock_logger.info.assert_called_once()
+        call_args = mock_logger.info.call_args.args
+        assert "Generated response %s%s" in call_args[0]
+        assert call_args[1] == "test-123"
+        assert call_args[3] == "Hello, world!"
+        assert call_args[4] == [1, 2, 3, 4]
+        assert call_args[5] == "stop"
+
+
+def test_request_logger_log_outputs_streaming_delta():
+    """Test log_outputs with streaming delta mode."""
+    mock_logger = MagicMock()
+
+    with patch("vllm.entrypoints.serve.utils.request_logger.logger", mock_logger):
+        request_logger = RequestLogger(max_log_len=None)
+
+        # Test streaming delta logging
+        request_logger.log_outputs(
+            request_id="test-456",
+            outputs="Hello",
+            output_token_ids=[1],
+            finish_reason=None,
+            is_streaming=True,
+            delta=True,
+        )
+
+        mock_logger.info.assert_called_once()
+        call_args = mock_logger.info.call_args.args
+        assert "Generated response %s%s" in call_args[0]
+        assert call_args[1] == "test-456"
+        assert call_args[2] == " (streaming delta)"
+        assert call_args[3] == "Hello"
+        assert call_args[4] == [1]
+        assert call_args[5] is None
+
+
+def test_request_logger_log_outputs_streaming_complete():
+    """Test log_outputs with streaming complete mode."""
+    mock_logger = MagicMock()
+
+    with patch("vllm.entrypoints.serve.utils.request_logger.logger", mock_logger):
+        request_logger = RequestLogger(max_log_len=None)
+
+        # Test streaming complete logging
+        request_logger.log_outputs(
+            request_id="test-789",
+            outputs="Complete response",
+            output_token_ids=[1, 2, 3],
+            finish_reason="length",
+            is_streaming=True,
+            delta=False,
+        )
+
+        mock_logger.info.assert_called_once()
+        call_args = mock_logger.info.call_args.args
+        assert "Generated response %s%s" in call_args[0]
+        assert call_args[1] == "test-789"
+        assert call_args[2] == " (streaming complete)"
+        assert call_args[3] == "Complete response"
+        assert call_args[4] == [1, 2, 3]
+        assert call_args[5] == "length"
+
+
+def test_request_logger_log_outputs_with_truncation():
+    """Test log_outputs respects max_log_len setting."""
+    mock_logger = MagicMock()
+
+    with patch("vllm.entrypoints.serve.utils.request_logger.logger", mock_logger):
+        # Set max_log_len to 10
+        request_logger = RequestLogger(max_log_len=10)
+
+        # Test output truncation
+        long_output = "This is a very long output that should be truncated"
+        long_token_ids = list(range(20))  # 20 tokens
+
+        request_logger.log_outputs(
+            request_id="test-truncate",
+            outputs=long_output,
+            output_token_ids=long_token_ids,
+            finish_reason="stop",
+            is_streaming=False,
+            delta=False,
+        )
+
+        mock_logger.info.assert_called_once()
+        call_args = mock_logger.info.call_args
+
+        # Check that output was truncated to first 10 characters
+        logged_output = call_args[0][3]
+        assert logged_output == "This is a "
+        assert len(logged_output) == 10
+
+        # Check that token IDs were truncated to first 10 tokens
+        logged_token_ids = call_args[0][4]
+        assert logged_token_ids == list(range(10))
+        assert len(logged_token_ids) == 10
+
+
+def test_request_logger_log_outputs_none_values():
+    """Test log_outputs handles None values correctly."""
+    mock_logger = MagicMock()
+
+    with patch("vllm.entrypoints.serve.utils.request_logger.logger", mock_logger):
+        request_logger = RequestLogger(max_log_len=None)
+
+        # Test with None output_token_ids
+        request_logger.log_outputs(
+            request_id="test-none",
+            outputs="Test output",
+            output_token_ids=None,
+            finish_reason="stop",
+            is_streaming=False,
+            delta=False,
+        )
+
+        mock_logger.info.assert_called_once()
+        call_args = mock_logger.info.call_args.args
+        assert "Generated response %s%s" in call_args[0]
+        assert call_args[1] == "test-none"
+        assert call_args[3] == "Test output"
+        assert call_args[4] is None
+        assert call_args[5] == "stop"
+
+
+def test_request_logger_log_outputs_empty_output():
+    """Test log_outputs handles empty output correctly."""
+    mock_logger = MagicMock()
+
+    with patch("vllm.entrypoints.serve.utils.request_logger.logger", mock_logger):
+        request_logger = RequestLogger(max_log_len=5)
+
+        # Test with empty output
+        request_logger.log_outputs(
+            request_id="test-empty",
+            outputs="",
+            output_token_ids=[],
+            finish_reason="stop",
+            is_streaming=False,
+            delta=False,
+        )
+
+        mock_logger.info.assert_called_once()
+        call_args = mock_logger.info.call_args.args
+        assert "Generated response %s%s" in call_args[0]
+        assert call_args[1] == "test-empty"
+        assert call_args[3] == ""
+        assert call_args[4] == []
+        assert call_args[5] == "stop"
+
+
+def test_request_logger_log_outputs_integration():
+    """Test that log_outputs can be called alongside log_inputs."""
+    mock_logger = MagicMock()
+
+    with patch("vllm.entrypoints.serve.utils.request_logger.logger", mock_logger):
+        request_logger = RequestLogger(max_log_len=None)
+
+        # Test that both methods can be called without interference
+        request_logger.log_inputs(
+            request_id="test-integration",
+            prompt="Test prompt",
+            prompt_token_ids=[1, 2, 3],
+            prompt_embeds=None,
+            params=None,
+            lora_request=None,
+        )
+
+        request_logger.log_outputs(
+            request_id="test-integration",
+            outputs="Test output",
+            output_token_ids=[4, 5, 6],
+            finish_reason="stop",
+            is_streaming=False,
+            delta=False,
+        )
+
+        # Should have been called twice - once for inputs, once for outputs
+        assert mock_logger.info.call_count == 2
+
+        # Check that the calls were made with correct patterns
+        input_call = mock_logger.info.call_args_list[0][0]
+        output_call = mock_logger.info.call_args_list[1][0]
+
+        assert "Received request %s" in input_call[0]
+        assert input_call[1] == "test-integration"
+
+        assert "Generated response %s%s" in output_call[0]
+        assert output_call[1] == "test-integration"
+
+
+def test_streaming_complete_logs_full_text_content():
+    """Test that streaming complete logging includes
+    full accumulated text, not just token count."""
+    mock_logger = MagicMock()
+
+    with patch("vllm.entrypoints.serve.utils.request_logger.logger", mock_logger):
+        request_logger = RequestLogger(max_log_len=None)
+
+        # Test with actual content instead of token count format
+        full_response = "This is a complete response from streaming"
+        request_logger.log_outputs(
+            request_id="test-streaming-full-text",
+            outputs=full_response,
+            output_token_ids=None,
+            finish_reason="streaming_complete",
+            is_streaming=True,
+            delta=False,
+        )
+
+        mock_logger.info.assert_called_once()
+        call_args = mock_logger.info.call_args.args
+
+        # Verify the logged output is the full text, not a token count format
+        logged_output = call_args[3]
+        assert logged_output == full_response
+        assert "tokens>" not in logged_output
+        assert "streaming_complete" not in logged_output
+
+        # Verify other parameters
+        assert call_args[1] == "test-streaming-full-text"
+        assert call_args[2] == " (streaming complete)"
+        assert call_args[5] == "streaming_complete"
diff --git a/tests/entrypoints/test_ssl_cert_refresher.py b/tests/entrypoints/serve/utils/test_ssl_cert_refresher.py
similarity index 96%
rename from tests/entrypoints/test_ssl_cert_refresher.py
rename to tests/entrypoints/serve/utils/test_ssl_cert_refresher.py
index b56fbd9fee7..57a856ce118 100644
--- a/tests/entrypoints/test_ssl_cert_refresher.py
+++ b/tests/entrypoints/serve/utils/test_ssl_cert_refresher.py
@@ -7,7 +7,7 @@ from ssl import SSLContext
 
 import pytest
 
-from vllm.entrypoints.ssl import SSLCertRefresher
+from vllm.entrypoints.serve.utils.ssl import SSLCertRefresher
 
 
 class MockSSLContext(SSLContext):
diff --git a/tests/evals/gsm8k/configs/DeepSeek-V2-Lite-Instruct-FP8.yaml b/tests/evals/gsm8k/configs/DeepSeek-V2-Lite-Instruct-FP8.yaml
index 72fa7e8a38c..dde67727bc6 100644
--- a/tests/evals/gsm8k/configs/DeepSeek-V2-Lite-Instruct-FP8.yaml
+++ b/tests/evals/gsm8k/configs/DeepSeek-V2-Lite-Instruct-FP8.yaml
@@ -2,4 +2,5 @@ model_name: "RedHatAI/DeepSeek-Coder-V2-Lite-Instruct-FP8"
 accuracy_threshold: 0.72
 num_questions: 1319
 num_fewshot: 5
+rocm_request_timeout_seconds: 1800
 server_args: "--enforce-eager --max-model-len 4096"
diff --git a/tests/evals/gsm8k/configs/Qwen1.5-MoE-W4A16-CT.yaml b/tests/evals/gsm8k/configs/Qwen1.5-MoE-W4A16-CT.yaml
index 4a1b1948aca..027b4ba5622 100644
--- a/tests/evals/gsm8k/configs/Qwen1.5-MoE-W4A16-CT.yaml
+++ b/tests/evals/gsm8k/configs/Qwen1.5-MoE-W4A16-CT.yaml
@@ -2,4 +2,5 @@ model_name: "nm-testing/Qwen1.5-MoE-A2.7B-Chat-quantized.w4a16"
 accuracy_threshold: 0.45
 num_questions: 1319
 num_fewshot: 5
+rocm_request_timeout_seconds: 1800
 server_args: "--enforce-eager --max-model-len 4096"
diff --git a/tests/evals/gsm8k/gsm8k_eval.py b/tests/evals/gsm8k/gsm8k_eval.py
index 647c149ef5f..ff0718cd2aa 100644
--- a/tests/evals/gsm8k/gsm8k_eval.py
+++ b/tests/evals/gsm8k/gsm8k_eval.py
@@ -106,7 +106,7 @@ async def call_vllm_api(
             completion_tokens = result.get("usage", {}).get("completion_tokens", 0)
             return text, completion_tokens
     except Exception as e:
-        print(f"Error calling vLLM API: {e}")
+        print(f"Error calling vLLM API ({type(e).__name__}): {e}")
         return "", 0
 
 
@@ -177,6 +177,7 @@ def evaluate_gsm8k(
     port: int = 8000,
     temperature: float = 0.0,
     seed: int | None = 42,
+    request_timeout_seconds: float = 600,
 ) -> dict[str, float | int]:
     """
     Evaluate GSM8K accuracy using vLLM serve endpoint.
@@ -205,9 +206,8 @@ def evaluate_gsm8k(
             output_tokens[i] = tokens
             return answer, tokens
 
-        async with aiohttp.ClientSession(
-            timeout=aiohttp.ClientTimeout(total=600)
-        ) as session:
+        timeout = aiohttp.ClientTimeout(total=request_timeout_seconds)
+        async with aiohttp.ClientSession(timeout=timeout) as session:
             tasks = [get_answer(session, i) for i in range(num_questions)]
             await tqdm.gather(*tasks, desc="Evaluating")
 
diff --git a/tests/evals/gsm8k/test_gsm8k_correctness.py b/tests/evals/gsm8k/test_gsm8k_correctness.py
index 57513e18aba..e7a254e760f 100644
--- a/tests/evals/gsm8k/test_gsm8k_correctness.py
+++ b/tests/evals/gsm8k/test_gsm8k_correctness.py
@@ -39,11 +39,18 @@ def run_gsm8k_eval(eval_config: dict, server_url: str) -> dict:
         host = f"http://{host}"
 
     # Run GSM8K evaluation
+    request_timeout_seconds = eval_config.get("request_timeout_seconds", 600)
+    if current_platform.is_rocm():
+        request_timeout_seconds = eval_config.get(
+            "rocm_request_timeout_seconds", request_timeout_seconds
+        )
+
     results = evaluate_gsm8k(
         num_questions=eval_config["num_questions"],
         num_shots=eval_config["num_fewshot"],
         host=host,
         port=port,
+        request_timeout_seconds=request_timeout_seconds,
     )
 
     return results
@@ -90,6 +97,12 @@ def test_gsm8k_correctness(config_filename):
     print(f"Expected metric threshold: {eval_config['accuracy_threshold']}")
     print(f"Number of questions: {eval_config['num_questions']}")
     print(f"Number of few-shot examples: {eval_config['num_fewshot']}")
+    request_timeout_seconds = eval_config.get("request_timeout_seconds", 600)
+    if current_platform.is_rocm():
+        request_timeout_seconds = eval_config.get(
+            "rocm_request_timeout_seconds", request_timeout_seconds
+        )
+    print(f"Request timeout: {request_timeout_seconds}s")
     print(f"Server args: {' '.join(server_args)}")
     print(f"Environment variables: {env_dict}")
 
diff --git a/tests/kernels/attention/test_rocm_aiter_unified_attn.py b/tests/kernels/attention/test_rocm_aiter_unified_attn.py
new file mode 100644
index 00000000000..9e33f24ea28
--- /dev/null
+++ b/tests/kernels/attention/test_rocm_aiter_unified_attn.py
@@ -0,0 +1,339 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""ROCm kernel correctness tests for AITER unified attention.
+
+Compares ``aiter.ops.triton.unified_attention`` against ``ref_paged_attn`` under
+decode, prefill, and mixed batches with varied shapes.
+"""
+
+from typing import Any, Literal
+
+import pytest
+import torch
+
+from tests.kernels.attention.test_triton_unified_attention import ref_paged_attn
+from vllm.platforms import current_platform
+from vllm.utils.torch_utils import set_random_seed
+
+_SKIP_NON_MI3XX = True
+if current_platform.is_rocm():
+    from vllm.platforms.rocm import on_mi3xx
+
+    _SKIP_NON_MI3XX = not on_mi3xx()
+
+pytestmark = [
+    pytest.mark.skipif(not current_platform.is_rocm(), reason="ROCm-specific tests"),
+    pytest.mark.skipif(_SKIP_NON_MI3XX, reason="MI300/MI350 ROCm only"),
+]
+
+NUM_Q_HEADS = 8
+NUM_KV_HEADS = 8
+HEAD_SIZES = [128, 256]
+BLOCK_SIZES = [16, 64]
+DTYPES = [torch.bfloat16, torch.float16]
+FP8_DTYPE = current_platform.fp8_dtype()
+
+# (query_len, kv_len) per sequence
+MIXED_SEQ_LENS = [
+    [(1, 128), (5, 18), (129, 463)],
+    [(10, 256), (5, 64), (32, 128)],
+    [(1, 1024), (5, 18), (129, 1328)],
+]
+DECODE_SEQ_LENS = [
+    [(1, 128), (1, 256), (1, 384), (1, 512)],
+    [(1, 1024), (1, 1536), (1, 2048)],
+]
+PREFILL_SEQ_LENS = [
+    [(256, 256), (128, 512)],
+    [(64, 128), (32, 256), (16, 512)],
+    [(256, 1024), (128, 2048)],
+]
+
+DEFAULT_ATOL, DEFAULT_RTOL = 1.5e-2, 1e-2
+FP8_ATOL, FP8_RTOL = 1.5e-1, 1.5e-1
+# Non-unity scale so q_descale handling is exercised explicitly.
+Q_SCALE = 0.75
+K_SCALE, V_SCALE = 0.5, 0.25
+
+Fp8Variant = Literal["fp8_kv", "fp8_query", "fp8_query_kv"]
+
+FP8_VARIANTS = [
+    pytest.param("fp8_kv", id="fp8_kv"),
+    pytest.param("fp8_query", id="fp8_query"),
+    pytest.param("fp8_query_kv", id="fp8_query_kv"),
+]
+
+FP8_SEQ_LENS = [
+    MIXED_SEQ_LENS[0],
+    DECODE_SEQ_LENS[0],
+    DECODE_SEQ_LENS[1],
+    PREFILL_SEQ_LENS[0],
+    PREFILL_SEQ_LENS[2],
+]
+
+
+def _require_aiter() -> None:
+    from vllm._aiter_ops import is_aiter_found_and_supported
+
+    if not is_aiter_found_and_supported():
+        pytest.skip("aiter is required on supported ROCm hardware for this test")
+
+
+def _make_case(
+    *,
+    seq_lens: list[tuple[int, int]],
+    head_size: int,
+    block_size: int,
+    dtype: torch.dtype,
+    num_blocks: int = 2048,
+    kv_cache_dtype: torch.dtype | None = None,
+    k_scale: float = 1.0,
+    v_scale: float = 1.0,
+    q_dtype: torch.dtype | None = None,
+    q_scale: float = Q_SCALE,
+) -> dict[str, Any]:
+    torch.set_default_device("cuda")
+
+    query_lens = [q for q, _ in seq_lens]
+    kv_lens = [k for _, k in seq_lens]
+    num_seqs = len(seq_lens)
+    max_query_len = max(query_lens)
+    max_kv_len = max(kv_lens)
+    scale = head_size**-0.5
+
+    query = torch.randn(sum(query_lens), NUM_Q_HEADS, head_size, dtype=dtype)
+    if kv_cache_dtype is None:
+        key_cache = torch.randn(
+            num_blocks, block_size, NUM_KV_HEADS, head_size, dtype=dtype
+        )
+        value_cache = torch.randn_like(key_cache)
+    else:
+        key_cache = torch.clamp(
+            torch.randn(num_blocks, block_size, NUM_KV_HEADS, head_size),
+            -1.0,
+            1.0,
+        ).to(kv_cache_dtype)
+        value_cache = torch.clamp(
+            torch.randn(num_blocks, block_size, NUM_KV_HEADS, head_size),
+            -1.0,
+            1.0,
+        ).to(kv_cache_dtype)
+
+    cu_seqlens_q = torch.tensor([0] + query_lens, dtype=torch.int32).cumsum(
+        dim=0, dtype=torch.int32
+    )
+    seq_lens_tensor = torch.tensor(kv_lens, dtype=torch.int32)
+
+    max_num_blocks = (max_kv_len + block_size - 1) // block_size
+    block_tables = torch.randint(
+        0, num_blocks, (num_seqs, max_num_blocks), dtype=torch.int32
+    )
+
+    descale_shape = (num_seqs, NUM_KV_HEADS)
+    k_descale = torch.full(descale_shape, k_scale, dtype=torch.float32, device="cuda")
+    v_descale = torch.full(descale_shape, v_scale, dtype=torch.float32, device="cuda")
+
+    kernel_query = query
+    q_descale = None
+    if q_dtype is not None:
+        q_descale = torch.tensor(q_scale, dtype=torch.float32, device="cuda")
+        kernel_query = (query / q_scale).to(q_dtype)
+
+    return {
+        "query": query,
+        "kernel_query": kernel_query,
+        "key_cache": key_cache,
+        "value_cache": value_cache,
+        "block_tables": block_tables,
+        "query_lens": query_lens,
+        "kv_lens": kv_lens,
+        "seq_lens_tensor": seq_lens_tensor,
+        "cu_seqlens_q": cu_seqlens_q,
+        "q_descale": q_descale,
+        "k_descale": k_descale,
+        "v_descale": v_descale,
+        "scale": scale,
+        "max_query_len": max_query_len,
+        "max_kv_len": max_kv_len,
+        "query_dtype": dtype,
+        "k_scale": k_scale,
+        "v_scale": v_scale,
+    }
+
+
+def _make_fp8_case(
+    *,
+    seq_lens: list[tuple[int, int]],
+    head_size: int,
+    block_size: int,
+    variant: Fp8Variant,
+) -> dict[str, Any]:
+    use_fp8_kv = variant in ("fp8_kv", "fp8_query_kv")
+    use_fp8_query = variant in ("fp8_query", "fp8_query_kv")
+    return _make_case(
+        seq_lens=seq_lens,
+        head_size=head_size,
+        block_size=block_size,
+        dtype=torch.bfloat16,
+        kv_cache_dtype=FP8_DTYPE if use_fp8_kv else None,
+        k_scale=K_SCALE if use_fp8_kv else 1.0,
+        v_scale=V_SCALE if use_fp8_kv else 1.0,
+        q_dtype=FP8_DTYPE if use_fp8_query else None,
+    )
+
+
+def _run_aiter_unified_attention(case: dict[str, Any]) -> torch.Tensor:
+    from aiter.ops.triton.unified_attention import unified_attention
+
+    kernel_query = case["kernel_query"]
+    # Kernel writes high-precision output even when Q is FP8 (matches vLLM usage).
+    output = torch.empty_like(case["query"])
+    unified_attention(
+        q=kernel_query,
+        k=case["key_cache"],
+        v=case["value_cache"],
+        out=output,
+        cu_seqlens_q=case["cu_seqlens_q"],
+        max_seqlen_q=case["max_query_len"],
+        seqused_k=case["seq_lens_tensor"],
+        max_seqlen_k=case["max_kv_len"],
+        softmax_scale=case["scale"],
+        causal=True,
+        alibi_slopes=None,
+        window_size=(-1, -1),
+        block_table=case["block_tables"],
+        softcap=0,
+        q_descale=case["q_descale"],
+        k_descale=case["k_descale"],
+        v_descale=case["v_descale"],
+        sinks=None,
+        output_scale=None,
+    )
+    return output
+
+
+def _ref_output(case: dict[str, Any]) -> torch.Tensor:
+    key_cache = case["key_cache"]
+    value_cache = case["value_cache"]
+    if key_cache.dtype != case["query_dtype"]:
+        key_cache = key_cache.to(case["query_dtype"]) * case["k_scale"]
+        value_cache = value_cache.to(case["query_dtype"]) * case["v_scale"]
+
+    return ref_paged_attn(
+        query=case["query"],
+        key_cache=key_cache,
+        value_cache=value_cache,
+        query_lens=case["query_lens"],
+        kv_lens=case["kv_lens"],
+        block_tables=case["block_tables"],
+        scale=case["scale"],
+    )
+
+
+def _assert_matches_reference(
+    case: dict[str, Any],
+    *,
+    atol: float = DEFAULT_ATOL,
+    rtol: float = DEFAULT_RTOL,
+) -> None:
+    output = _run_aiter_unified_attention(case)
+    output_ref = _ref_output(case)
+    torch.testing.assert_close(output, output_ref, atol=atol, rtol=rtol)
+
+
+@pytest.mark.parametrize("seq_lens", MIXED_SEQ_LENS)
+@pytest.mark.parametrize("head_size", HEAD_SIZES)
+@pytest.mark.parametrize("block_size", BLOCK_SIZES)
+@pytest.mark.parametrize("dtype", DTYPES)
+@torch.inference_mode()
+def test_aiter_unified_attn_mixed_batch(
+    seq_lens: list[tuple[int, int]],
+    head_size: int,
+    block_size: int,
+    dtype: torch.dtype,
+) -> None:
+    """Decode + prefill sequences in one batch (native dtypes)."""
+    _require_aiter()
+    set_random_seed(0)
+
+    case = _make_case(
+        seq_lens=seq_lens,
+        head_size=head_size,
+        block_size=block_size,
+        dtype=dtype,
+    )
+    _assert_matches_reference(case)
+
+
+@pytest.mark.parametrize("seq_lens", DECODE_SEQ_LENS)
+@pytest.mark.parametrize("head_size", HEAD_SIZES)
+@pytest.mark.parametrize("block_size", BLOCK_SIZES)
+@pytest.mark.parametrize("dtype", [torch.bfloat16])
+@torch.inference_mode()
+def test_aiter_unified_attn_decode(
+    seq_lens: list[tuple[int, int]],
+    head_size: int,
+    block_size: int,
+    dtype: torch.dtype,
+) -> None:
+    """Single-token decode (native dtypes)."""
+    _require_aiter()
+    set_random_seed(0)
+
+    case = _make_case(
+        seq_lens=seq_lens,
+        head_size=head_size,
+        block_size=block_size,
+        dtype=dtype,
+    )
+    _assert_matches_reference(case)
+
+
+@pytest.mark.parametrize("seq_lens", PREFILL_SEQ_LENS)
+@pytest.mark.parametrize("head_size", [128])
+@pytest.mark.parametrize("block_size", [16])
+@torch.inference_mode()
+def test_aiter_unified_attn_prefill(
+    seq_lens: list[tuple[int, int]],
+    head_size: int,
+    block_size: int,
+) -> None:
+    """Prefill-only batches with query_len > 1 (native dtypes)."""
+    _require_aiter()
+    set_random_seed(0)
+
+    case = _make_case(
+        seq_lens=seq_lens,
+        head_size=head_size,
+        block_size=block_size,
+        dtype=torch.bfloat16,
+    )
+    _assert_matches_reference(case)
+
+
+@pytest.mark.skipif(
+    not current_platform.supports_fp8(),
+    reason="FP8 not supported on this hardware",
+)
+@pytest.mark.parametrize("variant", FP8_VARIANTS)
+@pytest.mark.parametrize("seq_lens", FP8_SEQ_LENS)
+@pytest.mark.parametrize("head_size", [128])
+@pytest.mark.parametrize("block_size", [16, 64])
+@torch.inference_mode()
+def test_aiter_unified_attn_fp8(
+    variant: Fp8Variant,
+    seq_lens: list[tuple[int, int]],
+    head_size: int,
+    block_size: int,
+) -> None:
+    """FP8 KV cache, FP8 query, or both; compared at bf16 reference precision."""
+    _require_aiter()
+    set_random_seed(0)
+
+    case = _make_fp8_case(
+        seq_lens=seq_lens,
+        head_size=head_size,
+        block_size=block_size,
+        variant=variant,
+    )
+    _assert_matches_reference(case, atol=FP8_ATOL, rtol=FP8_RTOL)
diff --git a/tests/kernels/moe/test_cutlass_moe.py b/tests/kernels/moe/test_cutlass_moe.py
index 1380281bb2e..e3315142a9b 100644
--- a/tests/kernels/moe/test_cutlass_moe.py
+++ b/tests/kernels/moe/test_cutlass_moe.py
@@ -205,7 +205,10 @@ def run_with_expert_maps(
         w2 = kwargs["w2"]
         a = kwargs["hidden_states"]
         moe_config = make_dummy_moe_config(
-            num_experts=w2.shape[0],
+            max_num_tokens=kwargs.get("hidden_states").shape[0],
+            experts_per_token=kwargs.get("topk_ids").shape[1],
+            num_experts=num_experts,
+            num_local_experts=num_local_experts,
             hidden_dim=w2.shape[1],
             intermediate_size_per_partition=w2.shape[2],
             in_dtype=a.dtype,
@@ -258,23 +261,27 @@ def run_8_bit(
         a1_scale=None,
     )
 
+    num_experts = moe_tensors.w1.size(0)  # type: ignore[attr-defined]
+    with_ep = num_local_experts is not None or num_local_experts == num_experts
+
     kwargs = {
         "hidden_states": moe_tensors.a,
         "w1": moe_tensors.w1_q,  # type: ignore[union-attr]
         "w2": moe_tensors.w2_q,  # type: ignore[union-attr]
         "topk_weights": topk_weights,
         "topk_ids": topk_ids,
-        "global_num_experts": moe_tensors.w1_q.shape[0],  # type: ignore[union-attr]
+        "global_num_experts": num_experts,
         "activation": MoEActivation.SILU,
         "expert_map": None,
         "apply_router_weight_on_input": False,
     }
 
-    num_experts = moe_tensors.w1.size(0)  # type: ignore[attr-defined]
-    with_ep = num_local_experts is not None or num_local_experts == num_experts
     if not with_ep:
         moe_config = make_dummy_moe_config(
-            num_experts=moe_tensors.w2_q.shape[0],  # type: ignore[union-attr]
+            max_num_tokens=moe_tensors.a.shape[0],
+            experts_per_token=topk_ids.shape[1],
+            num_experts=num_experts,
+            num_local_experts=num_local_experts,
             hidden_dim=moe_tensors.w2_q.shape[1],  # type: ignore[union-attr]
             intermediate_size_per_partition=moe_tensors.w2_q.shape[2],  # type: ignore[union-attr]
             in_dtype=moe_tensors.a.dtype,
@@ -581,6 +588,7 @@ def test_run_cutlass_moe_fp8(
             per_out_channel,
             False,
             topk_weights,
+            None,
         )
 
         workspace13.random_()
diff --git a/tests/kernels/moe/test_moe_layer.py b/tests/kernels/moe/test_moe_layer.py
index e0f73cd657e..188f4448137 100644
--- a/tests/kernels/moe/test_moe_layer.py
+++ b/tests/kernels/moe/test_moe_layer.py
@@ -1287,10 +1287,12 @@ def _test_body_eplb(
 
     expert_weights = [list(eplb_moe_layer.get_expert_weights())]
 
+    expert_buffer = [torch.empty_like(w) for w in expert_weights[0]]
     communicator = create_eplb_communicator(
         group_coordinator=get_eplb_group(),
         backend=vllm_config.parallel_config.eplb_config.communicator,
-        expert_weights=expert_weights[0],
+        expert_weights=expert_weights,
+        expert_buffer=expert_buffer,
     )
 
     # Rearrange expert weights across EP ranks
@@ -1298,6 +1300,7 @@ def _test_body_eplb(
         old_global_expert_indices=initial_indices.unsqueeze(0),
         new_global_expert_indices=shuffled_indices.unsqueeze(0),
         expert_weights=expert_weights,
+        expert_buffer=expert_buffer,
         ep_group=cpu_group,
         communicator=communicator,
     )
diff --git a/tests/kernels/moe/utils.py b/tests/kernels/moe/utils.py
index 3503ce4cdeb..ebb99576756 100644
--- a/tests/kernels/moe/utils.py
+++ b/tests/kernels/moe/utils.py
@@ -49,10 +49,12 @@ def shuffle_weight(w: torch.Tensor) -> torch.Tensor:
 
 def make_dummy_moe_config(
     num_experts: int = 1,
+    num_local_experts: int | None = None,
     experts_per_token: int = 1,
     hidden_dim: int = 1,
     intermediate_size_per_partition: int = 1,
     in_dtype: torch.dtype = torch.bfloat16,
+    max_num_tokens: int = 512,
 ) -> FusedMoEConfig:
     """
     This is a dummy config for the mk constructor interface
@@ -66,14 +68,16 @@ def make_dummy_moe_config(
         experts_per_token=experts_per_token,
         hidden_dim=hidden_dim,
         intermediate_size_per_partition=intermediate_size_per_partition,
-        num_local_experts=num_experts,
+        num_local_experts=num_local_experts
+        if num_local_experts is not None
+        else num_experts,
         num_logical_experts=num_experts,
         moe_parallel_config=FusedMoEParallelConfig.make_no_parallel(),
         activation=MoEActivation.SILU,
         in_dtype=in_dtype,
         device="cuda",
         routing_method=RoutingMethodType.TopK,
-        max_num_tokens=512,
+        max_num_tokens=max_num_tokens,
     )
 
 
diff --git a/tests/kernels/quantization/test_quantized_embedding.py b/tests/kernels/quantization/test_quantized_embedding.py
new file mode 100644
index 00000000000..0e4af0a0c1a
--- /dev/null
+++ b/tests/kernels/quantization/test_quantized_embedding.py
@@ -0,0 +1,67 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Tests for the Triton dequant-gather kernel used by
+``CompressedTensorsEmbeddingWNA16Int`` (quantized embedding lookup)."""
+
+import pytest
+import torch
+from compressed_tensors.compressors.pack_quantized.helpers import unpack_from_int32
+
+from vllm.model_executor.layers.quantization.compressed_tensors.compressed_tensors_embedding import (  # noqa: E501
+    _dequant_gather_triton,
+)
+from vllm.platforms import current_platform
+
+
+def _dequant_gather_torch(
+    ids: torch.Tensor,
+    weight_packed: torch.Tensor,
+    weight_scale: torch.Tensor,
+    hidden: int,
+    num_bits: int,
+) -> torch.Tensor:
+    """Reference: gather packed rows by id, unpack int32-packed INT, dequant."""
+    n = ids.shape[0]
+    int8 = unpack_from_int32(weight_packed[ids], num_bits, torch.Size([n, hidden]))
+    scale_rows = weight_scale[ids]
+    w = int8.to(scale_rows.dtype)
+    if scale_rows.shape[1] == 1:
+        return w * scale_rows
+    ng = scale_rows.shape[1]
+    return (w.view(n, ng, hidden // ng) * scale_rows.unsqueeze(-1)).view(n, hidden)
+
+
+@pytest.mark.skipif(
+    not current_platform.is_cuda(), reason="Triton dequant kernel requires CUDA"
+)
+@pytest.mark.parametrize("num_bits", [2, 4, 8])
+@pytest.mark.parametrize("group_size", [0, 256])  # 0 -> channel
+@pytest.mark.parametrize("dtype", [torch.float32, torch.bfloat16])
+@pytest.mark.parametrize("num_ids", [1, 17, 4096])
+def test_dequant_gather(num_bits, group_size, dtype, num_ids):
+    torch.manual_seed(0)
+    device = "cuda"
+    vocab, hidden = 1000, 2048
+    pack_factor = 32 // num_bits
+
+    # Random full-range int32 packed weights (covers the sign bit -> exercises the
+    # arithmetic-shift + mask unpack path).
+    weight_packed = torch.randint(
+        -(2**31),
+        2**31,
+        (vocab, hidden // pack_factor),
+        dtype=torch.int32,
+        device=device,
+    )
+
+    num_groups = 1 if group_size == 0 else hidden // group_size
+    weight_scale = torch.rand(vocab, num_groups, dtype=dtype, device=device) + 0.01
+
+    ids = torch.randint(0, vocab, (num_ids,), dtype=torch.long, device=device)
+
+    out = _dequant_gather_triton(ids, weight_packed, weight_scale, hidden, num_bits)
+    ref = _dequant_gather_torch(ids, weight_packed, weight_scale, hidden, num_bits)
+
+    assert out.shape == (num_ids, hidden)
+    assert out.dtype == dtype
+    torch.testing.assert_close(out, ref)
diff --git a/tests/kernels/test_compressor_kv_cache.py b/tests/kernels/test_compressor_kv_cache.py
index c6daab2d86b..74dc01472a8 100644
--- a/tests/kernels/test_compressor_kv_cache.py
+++ b/tests/kernels/test_compressor_kv_cache.py
@@ -468,6 +468,7 @@ def _reference_kv_compress_norm_rope(
     use_fp4: bool = False,
     rms_eps: float = 1e-6,
     fp8_max: float = 448.0,
+    return_full_cache: bool = False,
 ):
     """Compress → RMSNorm → GPT-J RoPE → quantize.
 
@@ -521,6 +522,12 @@ def _reference_kv_compress_norm_rope(
         results.append(torch.cat([nope, rope]).to(state_cache.dtype))
     result = torch.stack(results)
 
+    if return_full_cache:
+        # Contiguous 512-wide bf16 row (nope unrotated + rope rotated), matching
+        # the FlashInfer full-cache layout before any per-tensor fp8 quant. The
+        # kernel rounds the fp32 result to bf16 once at the store.
+        return result.to(torch.bfloat16)
+
     if use_fp4:
         return quantize_to_mxfp4(result)
     else:
@@ -667,3 +674,145 @@ def test_fused_kv_insert_indexer(num_tokens: int, kv_block_size: int, use_fp4: b
             assert torch.equal(actual_scale, scale[i : i + 1]), (
                 f"token {i}: scale {actual_scale.item()} != {scale[i].item()}"
             )
+
+
+@pytest.mark.parametrize("compress_ratio", [4, 128])
+@pytest.mark.parametrize("store_fp8", [False, True])
+def test_cutedsl_full_cache_store(compress_ratio: int, store_fp8: bool):
+    """CuTeDSL compressor full-cache (FlashInfer) store parity for head=512.
+
+    Exercises the contiguous bf16 / per-tensor fp8 store branch of both the C4
+    fused kernel and the C128 split kernel against the PyTorch reference.
+    """
+    cutedsl = pytest.importorskip("cutlass")  # noqa: F841
+    from vllm.models.deepseek_v4.nvidia.ops.sparse_attn_compress_cutedsl import (
+        fused_kv_compress_norm_rope_insert_sparse_attn_cutedsl,
+        split_kv_compress_norm_rope_insert_sparse_attn_cutedsl,
+    )
+
+    HEAD_DIM = 512
+    ROPE_DIM = 64
+    RMS_EPS = 1e-6
+    FP8_MAX = 448.0
+    # C128 compress (Block8 kernel) requires state-cache block_size=8; C4 uses 16.
+    BLOCK_SIZE = 8 if compress_ratio == 128 else 16
+    KV_BLOCK_SIZE = 64
+    device = "cuda"
+    torch.manual_seed(7)
+
+    overlap = 1 if compress_ratio == 4 else 0
+    coff = 1 + overlap
+    num_tokens = 8
+
+    num_pages = (compress_ratio * num_tokens - 1) // BLOCK_SIZE + 2
+    # The production CompressorStateCache is fp32.
+    state_cache = torch.randn(
+        num_pages, BLOCK_SIZE, 2 * coff * HEAD_DIM, dtype=torch.float32, device=device
+    )
+    block_table = torch.arange(num_pages, dtype=torch.int32, device=device).unsqueeze(0)
+    token_to_req = torch.zeros(num_tokens, dtype=torch.int32, device=device)
+    slot_mapping = torch.arange(num_tokens, dtype=torch.int64, device=device)
+    positions = torch.arange(
+        compress_ratio - 1,
+        compress_ratio * num_tokens,
+        compress_ratio,
+        dtype=torch.int64,
+        device=device,
+    )
+    rms_weight = torch.randn(HEAD_DIM, dtype=torch.bfloat16, device=device)
+    cos_sin_cache = torch.randn(
+        compress_ratio * num_tokens, ROPE_DIM, dtype=torch.float32, device=device
+    )
+
+    dtype = torch.float8_e4m3fn if store_fp8 else torch.bfloat16
+    kv_n_blocks = (num_tokens + KV_BLOCK_SIZE - 1) // KV_BLOCK_SIZE + 1
+    k_cache = torch.zeros(
+        kv_n_blocks, KV_BLOCK_SIZE, HEAD_DIM, dtype=dtype, device=device
+    )
+    fp8_scale = torch.tensor(
+        [0.5 if store_fp8 else 1.0], dtype=torch.float32, device=device
+    )
+
+    if compress_ratio == 4:
+        fused_kv_compress_norm_rope_insert_sparse_attn_cutedsl(
+            state_cache,
+            token_to_req,
+            positions,
+            slot_mapping,
+            block_table,
+            BLOCK_SIZE,
+            rms_weight,
+            RMS_EPS,
+            cos_sin_cache,
+            k_cache,
+            slot_mapping,
+            KV_BLOCK_SIZE,
+            k_cache.stride(0),
+            head_size=HEAD_DIM,
+            state_width=coff * HEAD_DIM,
+            rope_head_dim=ROPE_DIM,
+            fp8_max=FP8_MAX,
+            quant_block=64,
+            token_stride=576,
+            scale_dim=8,
+            compress_ratio=compress_ratio,
+            overlap=True,
+            store_full_kv=True,
+            store_full_fp8=store_fp8,
+            fp8_scale=fp8_scale,
+        )
+    else:
+        compressed_kv = torch.empty(
+            (num_tokens, HEAD_DIM), dtype=torch.float32, device=device
+        )
+        split_kv_compress_norm_rope_insert_sparse_attn_cutedsl(
+            state_cache,
+            token_to_req,
+            positions,
+            slot_mapping,
+            block_table,
+            BLOCK_SIZE,
+            compressed_kv,
+            rms_weight,
+            RMS_EPS,
+            cos_sin_cache,
+            k_cache,
+            slot_mapping,
+            KV_BLOCK_SIZE,
+            k_cache.stride(0),
+            head_size=HEAD_DIM,
+            state_width=coff * HEAD_DIM,
+            rope_head_dim=ROPE_DIM,
+            fp8_max=FP8_MAX,
+            quant_block=64,
+            token_stride=576,
+            scale_dim=8,
+            compress_ratio=compress_ratio,
+            overlap=bool(overlap),
+            store_full_kv=True,
+            store_full_fp8=store_fp8,
+            fp8_scale=fp8_scale,
+        )
+
+    ref = _reference_kv_compress_norm_rope(
+        state_cache,
+        block_table,
+        positions,
+        rms_weight,
+        cos_sin_cache,
+        compress_ratio,
+        overlap,
+        rms_eps=RMS_EPS,
+        return_full_cache=True,
+    )  # [num_tokens, HEAD_DIM] bf16
+
+    actual = torch.stack(
+        [k_cache[i // KV_BLOCK_SIZE, i % KV_BLOCK_SIZE] for i in range(num_tokens)]
+    )
+    if store_fp8:
+        ref_fp8 = torch.clamp(ref.float() / fp8_scale, -FP8_MAX, FP8_MAX).to(
+            torch.float8_e4m3fn
+        )
+        torch.testing.assert_close(actual.float(), ref_fp8.float(), rtol=0.0, atol=0.3)
+    else:
+        torch.testing.assert_close(actual.float(), ref.float(), rtol=3e-2, atol=3e-2)
diff --git a/tests/kernels/test_fused_deepseek_v4_qnorm_rope_kv_insert.py b/tests/kernels/test_fused_deepseek_v4_qnorm_rope_kv_insert.py
index a49ea498e5e..e568ce57638 100644
--- a/tests/kernels/test_fused_deepseek_v4_qnorm_rope_kv_insert.py
+++ b/tests/kernels/test_fused_deepseek_v4_qnorm_rope_kv_insert.py
@@ -67,7 +67,7 @@ def apply_rope_gptj_last_k(
     head_dim = x.shape[-1]
     nope_dim = head_dim - rope_dim
 
-    cs = cos_sin_cache[positions].to(torch.float32)
+    cs = cos_sin_cache[positions.long()].to(torch.float32)
     cos = cs[..., :half]
     sin = cs[..., half:]
 
@@ -114,6 +114,18 @@ def _op_available() -> bool:
     return hasattr(torch.ops._C, "fused_deepseek_v4_qnorm_rope_kv_rope_quant_insert")
 
 
+def _full_cache_fp8_op_available() -> bool:
+    return hasattr(
+        torch.ops._C, "fused_deepseek_v4_qnorm_rope_kv_rope_full_cache_fp8_insert"
+    )
+
+
+def _full_cache_bf16_op_available() -> bool:
+    return hasattr(
+        torch.ops._C, "fused_deepseek_v4_qnorm_rope_kv_rope_full_cache_bf16_insert"
+    )
+
+
 pytestmark = pytest.mark.skipif(
     not torch.cuda.is_available() or not _op_available(),
     reason="CUDA not available or fused DeepseekV4 op not built in",
@@ -415,3 +427,238 @@ def test_combined_q_and_kv(
             "padded head slots must be exact zero"
         )
     torch.testing.assert_close(k_cache_fused, k_cache_ref, rtol=0, atol=0)
+
+
+# ── Full-cache (FlashInfer) path parity ──────────────────────────────────────
+
+
+def _call_full_cache_fp8_fused(
+    q,
+    kv,
+    q_fp8,
+    k_cache,
+    slot_mapping,
+    positions,
+    cos_sin_cache,
+    fp8_scale,
+    q_fp8_scale_inv,
+    eps,
+    bs,
+):
+    torch.ops._C.fused_deepseek_v4_qnorm_rope_kv_rope_full_cache_fp8_insert(
+        q,
+        kv,
+        q_fp8,
+        k_cache,
+        slot_mapping,
+        positions.long(),
+        cos_sin_cache,
+        fp8_scale,
+        q_fp8_scale_inv,
+        eps,
+        bs,
+    )
+
+
+def _call_full_cache_bf16_fused(
+    q,
+    kv,
+    k_cache,
+    slot_mapping,
+    positions,
+    cos_sin_cache,
+    eps,
+    bs,
+):
+    torch.ops._C.fused_deepseek_v4_qnorm_rope_kv_rope_full_cache_bf16_insert(
+        q,
+        kv,
+        k_cache,
+        slot_mapping,
+        positions.long(),
+        cos_sin_cache,
+        eps,
+        bs,
+    )
+
+
+def _fp8_full_cache_reference(
+    q,
+    kv,
+    k_cache,
+    q_fp8,
+    slot_mapping,
+    positions,
+    cos_sin_cache,
+    eps,
+    block_size,
+    fp8_scale,
+    q_fp8_scale_inv,
+):
+    q_ref = rmsnorm_no_weight(q, eps)
+    q_ref = apply_rope_gptj_last_k(q_ref, positions, cos_sin_cache)
+    q_fp8.copy_(
+        torch.clamp(q_ref.float() * q_fp8_scale_inv, -FP8_MAX, FP8_MAX).to(
+            torch.float8_e4m3fn
+        )
+    )
+
+    kv_ref = apply_rope_gptj_last_k(kv, positions, cos_sin_cache)
+    valid = slot_mapping >= 0
+    slots = slot_mapping[valid]
+    block_idx = slots // block_size
+    pos_in_block = slots % block_size
+    k_cache[block_idx, pos_in_block] = torch.clamp(
+        kv_ref[valid].float() / fp8_scale, -FP8_MAX, FP8_MAX
+    ).to(torch.float8_e4m3fn)
+
+
+def _bf16_full_cache_reference(
+    q,
+    kv,
+    k_cache,
+    slot_mapping,
+    positions,
+    cos_sin_cache,
+    eps,
+    block_size,
+):
+    q_ref = rmsnorm_no_weight(q, eps)
+    # Kernel keeps RMSNorm+RoPE in fp32 and rounds to bf16 once at the store.
+    q_ref = apply_rope_gptj_last_k(q_ref, positions, cos_sin_cache).to(q.dtype)
+
+    kv_ref = apply_rope_gptj_last_k(kv, positions, cos_sin_cache)
+    valid = slot_mapping >= 0
+    slots = slot_mapping[valid]
+    block_idx = slots // block_size
+    pos_in_block = slots % block_size
+    k_cache[block_idx, pos_in_block] = kv_ref[valid]
+    return q_ref
+
+
+@pytest.mark.skipif(
+    not _full_cache_fp8_op_available(),
+    reason="full-cache per-tensor FP8 DeepseekV4 op not built in",
+)
+@pytest.mark.parametrize("num_tokens", [4, 17])
+@pytest.mark.parametrize("n_heads", [8, 17])
+@pytest.mark.parametrize("positions_dtype", [torch.int32, torch.int64])
+def test_full_cache_per_tensor_fp8_matches_reference(
+    num_tokens: int,
+    n_heads: int,
+    positions_dtype: torch.dtype,
+):
+    torch.manual_seed(4)
+    device = "cuda"
+    dtype = torch.bfloat16
+    eps = 1e-6
+    block_size = 16
+    max_pos = 4096
+
+    q = torch.randn(num_tokens, n_heads, HEAD_DIM, dtype=dtype, device=device)
+    kv = torch.randn(num_tokens, HEAD_DIM, dtype=dtype, device=device)
+    positions = torch.arange(num_tokens, dtype=positions_dtype, device=device)
+    cos_sin_cache = make_cos_sin_cache(max_pos, ROPE_DIM, torch.float32, device)
+
+    num_blocks = (num_tokens + block_size - 1) // block_size + 1
+    slot_mapping = torch.arange(num_tokens, dtype=torch.int64, device=device)
+    fp8_scale = torch.tensor([1.0], dtype=torch.float32, device=device)
+    q_fp8_scale_inv = torch.tensor([1.0], dtype=torch.float32, device=device)
+
+    q_fp8_ref = torch.empty_like(q, dtype=torch.float8_e4m3fn)
+    q_fp8_fused = torch.empty_like(q, dtype=torch.float8_e4m3fn)
+    k_cache_ref = torch.zeros(
+        num_blocks, block_size, HEAD_DIM, dtype=torch.float8_e4m3fn, device=device
+    )
+    k_cache_fused = torch.zeros_like(k_cache_ref)
+
+    _fp8_full_cache_reference(
+        q,
+        kv,
+        k_cache_ref,
+        q_fp8_ref,
+        slot_mapping,
+        positions,
+        cos_sin_cache,
+        eps,
+        block_size,
+        fp8_scale,
+        q_fp8_scale_inv,
+    )
+    _call_full_cache_fp8_fused(
+        q.clone(),
+        kv,
+        q_fp8_fused,
+        k_cache_fused,
+        slot_mapping,
+        positions,
+        cos_sin_cache,
+        fp8_scale,
+        q_fp8_scale_inv,
+        eps,
+        block_size,
+    )
+
+    torch.testing.assert_close(
+        q_fp8_fused.float(), q_fp8_ref.float(), rtol=0, atol=0.25
+    )
+    torch.testing.assert_close(
+        k_cache_fused.float(), k_cache_ref.float(), rtol=0, atol=0.25
+    )
+
+
+@pytest.mark.skipif(
+    not _full_cache_bf16_op_available(),
+    reason="full-cache BF16 DeepseekV4 op not built in",
+)
+@pytest.mark.parametrize("num_tokens", [4, 17])
+@pytest.mark.parametrize("n_heads", [8, 17])
+@pytest.mark.parametrize("positions_dtype", [torch.int32, torch.int64])
+def test_full_cache_bf16_matches_reference(
+    num_tokens: int,
+    n_heads: int,
+    positions_dtype: torch.dtype,
+):
+    torch.manual_seed(5)
+    device = "cuda"
+    dtype = torch.bfloat16
+    eps = 1e-6
+    block_size = 16
+    max_pos = 4096
+
+    q = torch.randn(num_tokens, n_heads, HEAD_DIM, dtype=dtype, device=device)
+    kv = torch.randn(num_tokens, HEAD_DIM, dtype=dtype, device=device)
+    positions = torch.arange(num_tokens, dtype=positions_dtype, device=device)
+    cos_sin_cache = make_cos_sin_cache(max_pos, ROPE_DIM, torch.float32, device)
+
+    num_blocks = (num_tokens + block_size - 1) // block_size + 1
+    slot_mapping = torch.arange(num_tokens, dtype=torch.int64, device=device)
+
+    q_fused = q.clone()
+    k_cache_ref = torch.zeros(
+        num_blocks, block_size, HEAD_DIM, dtype=torch.bfloat16, device=device
+    )
+    k_cache_fused = torch.zeros_like(k_cache_ref)
+    q_ref = _bf16_full_cache_reference(
+        q,
+        kv,
+        k_cache_ref,
+        slot_mapping,
+        positions,
+        cos_sin_cache,
+        eps,
+        block_size,
+    )
+    _call_full_cache_bf16_fused(
+        q_fused,
+        kv,
+        k_cache_fused,
+        slot_mapping,
+        positions,
+        cos_sin_cache,
+        eps,
+        block_size,
+    )
+
+    torch.testing.assert_close(q_fused, q_ref, rtol=1e-2, atol=1e-2)
+    torch.testing.assert_close(k_cache_fused, k_cache_ref, rtol=0, atol=0)
diff --git a/tests/model_executor/layers/test_pooler_heads.py b/tests/model_executor/layers/test_pooler_heads.py
new file mode 100644
index 00000000000..99097636f94
--- /dev/null
+++ b/tests/model_executor/layers/test_pooler_heads.py
@@ -0,0 +1,481 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Unit tests for sequence and token pooler head classes."""
+
+import torch
+import torch.nn as nn
+
+from vllm.model_executor.layers.pooler.activations import PoolerNormalize
+from vllm.model_executor.layers.pooler.seqwise.heads import (
+    ClassifierPoolerHead,
+    EmbeddingPoolerHead,
+)
+from vllm.model_executor.layers.pooler.tokwise.heads import (
+    TokenClassifierPoolerHead,
+    TokenEmbeddingPoolerHead,
+)
+from vllm.pooling_params import PoolingParams
+from vllm.v1.pool.metadata import PoolingMetadata, PoolingStates
+
+_HIDDEN = 16
+_BATCH = 3
+
+
+def _make_params(
+    n: int,
+    *,
+    task: str = "embed",
+    dimensions: int | None = None,
+    use_activation: bool | None = None,
+) -> list[PoolingParams]:
+    return [
+        PoolingParams(task=task, dimensions=dimensions, use_activation=use_activation)
+        for _ in range(n)
+    ]
+
+
+def _make_metadata(pooling_params: list[PoolingParams]) -> PoolingMetadata:
+    n = len(pooling_params)
+    return PoolingMetadata(
+        prompt_lens=torch.ones(n, dtype=torch.long),
+        prompt_token_ids=None,
+        prompt_token_ids_cpu=None,
+        pooling_params=pooling_params,
+        pooling_states=[PoolingStates() for _ in range(n)],
+    )
+
+
+def _linear(in_f: int, out_f: int) -> nn.Linear:
+    torch.manual_seed(42)
+    return nn.Linear(in_f, out_f, bias=False)
+
+
+# ---------------------------------------------------------------------------
+# EmbeddingPoolerHead
+# ---------------------------------------------------------------------------
+class TestEmbeddingPoolerHead:
+    def test_supported_tasks(self):
+        head = EmbeddingPoolerHead()
+        assert head.get_supported_tasks() == {"embed"}
+
+    def test_passthrough(self):
+        head = EmbeddingPoolerHead()
+        x = torch.randn(_BATCH, _HIDDEN)
+        meta = _make_metadata(_make_params(_BATCH))
+        out = head(x, meta)
+        assert torch.equal(out, x)
+
+    def test_head_dtype(self):
+        head = EmbeddingPoolerHead(head_dtype=torch.float16)
+        x = torch.randn(_BATCH, _HIDDEN)
+        meta = _make_metadata(_make_params(_BATCH))
+        out = head(x, meta)
+        assert out.dtype == torch.float16
+
+    def test_projector(self):
+        proj = _linear(_HIDDEN, 8)
+        head = EmbeddingPoolerHead(projector=proj)
+        x = torch.randn(_BATCH, _HIDDEN)
+        meta = _make_metadata(_make_params(_BATCH))
+        out = head(x, meta)
+        assert out.shape == (_BATCH, 8)
+        assert torch.allclose(out, proj(x))
+
+    def test_matryoshka_uniform(self):
+        head = EmbeddingPoolerHead()
+        x = torch.randn(_BATCH, _HIDDEN)
+        params = _make_params(_BATCH, dimensions=4)
+        meta = _make_metadata(params)
+        out = head(x, meta)
+        assert out.shape == (_BATCH, 4)
+        assert torch.equal(out, x[..., :4])
+
+    def test_matryoshka_mixed(self):
+        head = EmbeddingPoolerHead()
+        x = torch.randn(2, _HIDDEN)
+        params = [
+            PoolingParams(task="embed", dimensions=4),
+            PoolingParams(task="embed", dimensions=8),
+        ]
+        meta = _make_metadata(params)
+        out = head(x, meta)
+        assert isinstance(out, list)
+        assert len(out) == 2
+        assert out[0].shape[-1] == 4
+        assert out[1].shape[-1] == 8
+
+    def test_matryoshka_mixed_with_none(self):
+        head = EmbeddingPoolerHead()
+        x = torch.randn(2, _HIDDEN)
+        params = [
+            PoolingParams(task="embed", dimensions=4),
+            PoolingParams(task="embed", dimensions=None),
+        ]
+        meta = _make_metadata(params)
+        out = head(x, meta)
+        assert isinstance(out, list)
+        assert out[0].shape[-1] == 4
+        assert torch.equal(out[1], x[1])
+
+    def test_activation_uniform_true(self):
+        head = EmbeddingPoolerHead(activation=PoolerNormalize())
+        x = torch.randn(_BATCH, _HIDDEN)
+        params = _make_params(_BATCH, use_activation=True)
+        meta = _make_metadata(params)
+        out = head(x, meta)
+        norms = torch.linalg.norm(out, dim=-1)
+        assert torch.allclose(norms, torch.ones(_BATCH), atol=1e-5)
+
+    def test_activation_uniform_false(self):
+        head = EmbeddingPoolerHead(activation=PoolerNormalize())
+        x = torch.randn(_BATCH, _HIDDEN)
+        params = _make_params(_BATCH, use_activation=False)
+        meta = _make_metadata(params)
+        out = head(x, meta)
+        assert torch.equal(out, x)
+
+    def test_activation_mixed_flags(self):
+        head = EmbeddingPoolerHead(activation=PoolerNormalize())
+        x = torch.randn(2, _HIDDEN)
+        params = [
+            PoolingParams(task="embed", use_activation=True),
+            PoolingParams(task="embed", use_activation=False),
+        ]
+        meta = _make_metadata(params)
+        out = head(x, meta)
+        assert isinstance(out, list)
+        norm_0 = torch.linalg.norm(out[0], dim=-1)
+        assert torch.allclose(norm_0, torch.ones(1), atol=1e-5)
+        assert torch.equal(out[1], x[1])
+
+    def test_list_input_gets_stacked(self):
+        head = EmbeddingPoolerHead()
+        tensors = [torch.randn(_HIDDEN) for _ in range(_BATCH)]
+        meta = _make_metadata(_make_params(_BATCH))
+        out = head(tensors, meta)
+        assert out.shape == (_BATCH, _HIDDEN)
+        expected = torch.stack(tensors)
+        assert torch.equal(out, expected)
+
+    def test_projector_then_matryoshka(self):
+        proj = _linear(_HIDDEN, 8)
+        head = EmbeddingPoolerHead(projector=proj)
+        x = torch.randn(_BATCH, _HIDDEN)
+        params = _make_params(_BATCH, dimensions=4)
+        meta = _make_metadata(params)
+        out = head(x, meta)
+        assert out.shape == (_BATCH, 4)
+        assert torch.equal(out, proj(x)[..., :4])
+
+    def test_matryoshka_then_activation(self):
+        head = EmbeddingPoolerHead(activation=PoolerNormalize())
+        x = torch.randn(_BATCH, _HIDDEN)
+        params = _make_params(_BATCH, dimensions=4, use_activation=True)
+        meta = _make_metadata(params)
+        out = head(x, meta)
+        assert out.shape == (_BATCH, 4)
+        norms = torch.linalg.norm(out, dim=-1)
+        assert torch.allclose(norms, torch.ones(_BATCH), atol=1e-5)
+
+    def test_empty_batch(self):
+        head = EmbeddingPoolerHead()
+        x = torch.randn(0, _HIDDEN)
+        meta = _make_metadata([])
+        out = head(x, meta)
+        assert out.shape == (0, _HIDDEN)
+
+
+# ---------------------------------------------------------------------------
+# ClassifierPoolerHead
+# ---------------------------------------------------------------------------
+class TestClassifierPoolerHead:
+    def test_supported_tasks(self):
+        head = ClassifierPoolerHead()
+        assert head.get_supported_tasks() == {"classify"}
+
+    def test_passthrough(self):
+        head = ClassifierPoolerHead()
+        x = torch.randn(_BATCH, _HIDDEN)
+        meta = _make_metadata(_make_params(_BATCH, task="classify"))
+        out = head(x, meta)
+        assert torch.equal(out, x)
+
+    def test_head_dtype(self):
+        head = ClassifierPoolerHead(head_dtype=torch.float16)
+        x = torch.randn(_BATCH, _HIDDEN)
+        meta = _make_metadata(_make_params(_BATCH, task="classify"))
+        out = head(x, meta)
+        assert out.dtype == torch.float16
+
+    def test_classifier(self):
+        clf = _linear(_HIDDEN, 3)
+        head = ClassifierPoolerHead(classifier=clf)
+        x = torch.randn(_BATCH, _HIDDEN)
+        meta = _make_metadata(_make_params(_BATCH, task="classify"))
+        out = head(x, meta)
+        assert out.shape == (_BATCH, 3)
+        assert torch.allclose(out, clf(x))
+
+    def test_logit_mean(self):
+        head = ClassifierPoolerHead(logit_mean=2.0)
+        x = torch.randn(_BATCH, _HIDDEN)
+        meta = _make_metadata(_make_params(_BATCH, task="classify"))
+        out = head(x, meta)
+        assert torch.allclose(out, x - 2.0)
+
+    def test_logit_sigma(self):
+        head = ClassifierPoolerHead(logit_sigma=0.5)
+        x = torch.randn(_BATCH, _HIDDEN)
+        meta = _make_metadata(_make_params(_BATCH, task="classify"))
+        out = head(x, meta)
+        assert torch.allclose(out, x / 0.5)
+
+    def test_platt_scaling_combined(self):
+        head = ClassifierPoolerHead(logit_mean=1.0, logit_sigma=2.0)
+        x = torch.randn(_BATCH, _HIDDEN)
+        meta = _make_metadata(_make_params(_BATCH, task="classify"))
+        out = head(x, meta)
+        assert torch.allclose(out, (x - 1.0) / 2.0)
+
+    def test_activation_uniform_true(self):
+        head = ClassifierPoolerHead(activation=PoolerNormalize())
+        x = torch.randn(_BATCH, _HIDDEN)
+        params = _make_params(_BATCH, task="classify", use_activation=True)
+        meta = _make_metadata(params)
+        out = head(x, meta)
+        norms = torch.linalg.norm(out, dim=-1)
+        assert torch.allclose(norms, torch.ones(_BATCH), atol=1e-5)
+
+    def test_activation_uniform_false(self):
+        head = ClassifierPoolerHead(activation=PoolerNormalize())
+        x = torch.randn(_BATCH, _HIDDEN)
+        params = _make_params(_BATCH, task="classify", use_activation=False)
+        meta = _make_metadata(params)
+        out = head(x, meta)
+        assert torch.equal(out, x)
+
+    def test_activation_mixed_flags(self):
+        head = ClassifierPoolerHead(activation=PoolerNormalize())
+        x = torch.randn(2, _HIDDEN)
+        params = [
+            PoolingParams(task="classify", use_activation=True),
+            PoolingParams(task="classify", use_activation=False),
+        ]
+        meta = _make_metadata(params)
+        out = head(x, meta)
+        assert isinstance(out, list)
+        norm_0 = torch.linalg.norm(out[0], dim=-1)
+        assert torch.allclose(norm_0, torch.ones(1), atol=1e-5)
+        assert torch.equal(out[1], x[1])
+
+    def test_list_input_gets_stacked(self):
+        head = ClassifierPoolerHead()
+        tensors = [torch.randn(_HIDDEN) for _ in range(_BATCH)]
+        meta = _make_metadata(_make_params(_BATCH, task="classify"))
+        out = head(tensors, meta)
+        assert out.shape == (_BATCH, _HIDDEN)
+        expected = torch.stack(tensors)
+        assert torch.equal(out, expected)
+
+    def test_classifier_then_platt_scaling(self):
+        clf = _linear(_HIDDEN, 3)
+        head = ClassifierPoolerHead(classifier=clf, logit_mean=1.0, logit_sigma=2.0)
+        x = torch.randn(_BATCH, _HIDDEN)
+        meta = _make_metadata(_make_params(_BATCH, task="classify"))
+        out = head(x, meta)
+        expected = (clf(x) - 1.0) / 2.0
+        assert torch.allclose(out, expected)
+
+    def test_empty_batch(self):
+        head = ClassifierPoolerHead()
+        x = torch.randn(0, _HIDDEN)
+        meta = _make_metadata([])
+        out = head(x, meta)
+        assert out.shape == (0, _HIDDEN)
+
+
+# ---------------------------------------------------------------------------
+# TokenEmbeddingPoolerHead
+# ---------------------------------------------------------------------------
+class TestTokenEmbeddingPoolerHead:
+    def test_supported_tasks(self):
+        head = TokenEmbeddingPoolerHead()
+        assert head.get_supported_tasks() == {"token_embed"}
+
+    def test_passthrough(self):
+        head = TokenEmbeddingPoolerHead()
+        x = torch.randn(5, _HIDDEN)
+        param = PoolingParams(task="token_embed")
+        out = head.forward_chunk(x, param)
+        assert torch.equal(out, x)
+
+    def test_none_chunked_prefill(self):
+        head = TokenEmbeddingPoolerHead()
+        param = PoolingParams(task="token_embed")
+        out = head.forward_chunk(None, param)
+        assert out is None
+
+    def test_head_dtype(self):
+        head = TokenEmbeddingPoolerHead(head_dtype=torch.float16)
+        x = torch.randn(5, _HIDDEN)
+        param = PoolingParams(task="token_embed")
+        out = head.forward_chunk(x, param)
+        assert out.dtype == torch.float16
+
+    def test_projector(self):
+        proj = _linear(_HIDDEN, 8)
+        head = TokenEmbeddingPoolerHead(projector=proj)
+        x = torch.randn(5, _HIDDEN)
+        param = PoolingParams(task="token_embed")
+        out = head.forward_chunk(x, param)
+        assert out.shape == (5, 8)
+        assert torch.allclose(out, proj(x))
+
+    def test_matryoshka_truncation(self):
+        head = TokenEmbeddingPoolerHead()
+        x = torch.randn(5, _HIDDEN)
+        param = PoolingParams(task="token_embed", dimensions=4)
+        out = head.forward_chunk(x, param)
+        assert out.shape == (5, 4)
+        assert torch.equal(out, x[..., :4])
+
+    def test_activation_true(self):
+        head = TokenEmbeddingPoolerHead(activation=PoolerNormalize())
+        x = torch.randn(5, _HIDDEN)
+        param = PoolingParams(task="token_embed", use_activation=True)
+        out = head.forward_chunk(x, param)
+        norms = torch.linalg.norm(out, dim=-1)
+        assert torch.allclose(norms, torch.ones(5), atol=1e-5)
+
+    def test_activation_false(self):
+        head = TokenEmbeddingPoolerHead(activation=PoolerNormalize())
+        x = torch.randn(5, _HIDDEN)
+        param = PoolingParams(task="token_embed", use_activation=False)
+        out = head.forward_chunk(x, param)
+        assert torch.equal(out, x)
+
+    def test_projector_then_matryoshka(self):
+        proj = _linear(_HIDDEN, 8)
+        head = TokenEmbeddingPoolerHead(projector=proj)
+        x = torch.randn(5, _HIDDEN)
+        param = PoolingParams(task="token_embed", dimensions=4)
+        out = head.forward_chunk(x, param)
+        assert out.shape == (5, 4)
+        assert torch.equal(out, proj(x)[..., :4])
+
+    def test_matryoshka_then_activation(self):
+        head = TokenEmbeddingPoolerHead(activation=PoolerNormalize())
+        x = torch.randn(5, _HIDDEN)
+        param = PoolingParams(task="token_embed", dimensions=4, use_activation=True)
+        out = head.forward_chunk(x, param)
+        assert out.shape == (5, 4)
+        norms = torch.linalg.norm(out, dim=-1)
+        assert torch.allclose(norms, torch.ones(5), atol=1e-5)
+
+    def test_forward_mixed_batch_chunked_prefill(self):
+        head = TokenEmbeddingPoolerHead()
+        pooled_data = [torch.randn(5, _HIDDEN), None, torch.randn(3, _HIDDEN)]
+        params = _make_params(3, task="token_embed")
+        meta = _make_metadata(params)
+        out = head(pooled_data, meta)
+        assert len(out) == 3
+        assert torch.equal(out[0], pooled_data[0])
+        assert out[1] is None
+        assert torch.equal(out[2], pooled_data[2])
+
+    def test_forward_empty_batch(self):
+        head = TokenEmbeddingPoolerHead()
+        meta = _make_metadata([])
+        out = head([], meta)
+        assert out == []
+
+
+# ---------------------------------------------------------------------------
+# TokenClassifierPoolerHead
+# ---------------------------------------------------------------------------
+class TestTokenClassifierPoolerHead:
+    def test_supported_tasks(self):
+        head = TokenClassifierPoolerHead()
+        assert head.get_supported_tasks() == {"token_classify"}
+
+    def test_passthrough(self):
+        head = TokenClassifierPoolerHead()
+        x = torch.randn(5, _HIDDEN)
+        param = PoolingParams(task="token_classify")
+        out = head.forward_chunk(x, param)
+        assert torch.equal(out, x)
+
+    def test_none_chunked_prefill(self):
+        head = TokenClassifierPoolerHead()
+        param = PoolingParams(task="token_classify")
+        out = head.forward_chunk(None, param)
+        assert out is None
+
+    def test_head_dtype(self):
+        head = TokenClassifierPoolerHead(head_dtype=torch.float16)
+        x = torch.randn(5, _HIDDEN)
+        param = PoolingParams(task="token_classify")
+        out = head.forward_chunk(x, param)
+        assert out.dtype == torch.float16
+
+    def test_classifier(self):
+        clf = _linear(_HIDDEN, 3)
+        head = TokenClassifierPoolerHead(classifier=clf)
+        x = torch.randn(5, _HIDDEN)
+        param = PoolingParams(task="token_classify")
+        out = head.forward_chunk(x, param)
+        assert out.shape == (5, 3)
+        assert torch.allclose(out, clf(x))
+
+    def test_logit_mean(self):
+        head = TokenClassifierPoolerHead(logit_mean=2.0)
+        x = torch.randn(5, _HIDDEN)
+        param = PoolingParams(task="token_classify")
+        out = head.forward_chunk(x, param)
+        assert torch.allclose(out, x - 2.0)
+
+    def test_logit_sigma(self):
+        head = TokenClassifierPoolerHead(logit_sigma=0.5)
+        x = torch.randn(5, _HIDDEN)
+        param = PoolingParams(task="token_classify")
+        out = head.forward_chunk(x, param)
+        assert torch.allclose(out, x / 0.5)
+
+    def test_platt_scaling_combined(self):
+        head = TokenClassifierPoolerHead(logit_mean=1.0, logit_sigma=2.0)
+        x = torch.randn(5, _HIDDEN)
+        param = PoolingParams(task="token_classify")
+        out = head.forward_chunk(x, param)
+        assert torch.allclose(out, (x - 1.0) / 2.0)
+
+    def test_activation_true(self):
+        head = TokenClassifierPoolerHead(activation=PoolerNormalize())
+        x = torch.randn(5, _HIDDEN)
+        param = PoolingParams(task="token_classify", use_activation=True)
+        out = head.forward_chunk(x, param)
+        norms = torch.linalg.norm(out, dim=-1)
+        assert torch.allclose(norms, torch.ones(5), atol=1e-5)
+
+    def test_activation_false(self):
+        head = TokenClassifierPoolerHead(activation=PoolerNormalize())
+        x = torch.randn(5, _HIDDEN)
+        param = PoolingParams(task="token_classify", use_activation=False)
+        out = head.forward_chunk(x, param)
+        assert torch.equal(out, x)
+
+    def test_forward_mixed_batch_chunked_prefill(self):
+        head = TokenClassifierPoolerHead()
+        pooled_data = [torch.randn(5, _HIDDEN), None, torch.randn(3, _HIDDEN)]
+        params = _make_params(3, task="token_classify")
+        meta = _make_metadata(params)
+        out = head(pooled_data, meta)
+        assert len(out) == 3
+        assert torch.equal(out[0], pooled_data[0])
+        assert out[1] is None
+        assert torch.equal(out[2], pooled_data[2])
+
+    def test_forward_empty_batch(self):
+        head = TokenClassifierPoolerHead()
+        meta = _make_metadata([])
+        out = head([], meta)
+        assert out == []
diff --git a/tests/models/language/generation/test_hybrid.py b/tests/models/language/generation/test_hybrid.py
index e410daf2fcd..7d22278cf1f 100644
--- a/tests/models/language/generation/test_hybrid.py
+++ b/tests/models/language/generation/test_hybrid.py
@@ -2,11 +2,12 @@
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 
 from collections.abc import Callable
+from contextlib import contextmanager, nullcontext
 
 import pytest
 
 from tests.models.registry import HF_EXAMPLE_MODELS
-from tests.utils import multi_gpu_test
+from tests.utils import multi_gpu_test, wait_for_gpu_memory_to_clear
 from vllm import LLM
 from vllm.engine.arg_utils import EngineArgs
 from vllm.platforms import current_platform
@@ -404,6 +405,30 @@ def _get_vllm_runner_params(
     }
 
 
+def _wait_for_rocm_memory_to_settle() -> None:
+    if not current_platform.is_rocm():
+        return
+
+    num_gpus = current_platform.device_count()
+    if num_gpus == 0:
+        return
+
+    wait_for_gpu_memory_to_clear(
+        devices=list(range(num_gpus)),
+        threshold_ratio=0.01,
+        timeout_s=120,
+    )
+
+
+@contextmanager
+def _owned_vLLM_runner(vllm_runner, kwargs):
+    try:
+        with vllm_runner(**kwargs) as runner:
+            yield runner
+    finally:
+        _wait_for_rocm_memory_to_settle()
+
+
 def _get_vLLM_output(
     vllm_runner,
     kwargs,
@@ -413,17 +438,21 @@ def _get_vLLM_output(
     num_repetitions=1,
     vllm_model=None,
 ):
-    outs = []
-    if vllm_model is None:
-        vllm_model = vllm_runner(**kwargs)
-    for _ in range(num_repetitions):
-        if num_logprobs < 0:
-            vllm_output = vllm_model.generate_greedy(prompts, max_tokens)
-        else:
-            vllm_output = vllm_model.generate_greedy_logprobs(
-                prompts, max_tokens, num_logprobs
-            )
-        outs.append(vllm_output)
+    runner_context = (
+        _owned_vLLM_runner(vllm_runner, kwargs)
+        if vllm_model is None
+        else nullcontext(vllm_model)
+    )
+    with runner_context as runner:
+        outs = []
+        for _ in range(num_repetitions):
+            if num_logprobs < 0:
+                vllm_output = runner.generate_greedy(prompts, max_tokens)
+            else:
+                vllm_output = runner.generate_greedy_logprobs(
+                    prompts, max_tokens, num_logprobs
+                )
+            outs.append(vllm_output)
 
     return outs, vllm_model
 
@@ -772,38 +801,44 @@ def test_apc_multiple_prompts_partial_cached_outputs(
 
     # Cache only part of all the prompts
     vllm_runner_kwargs["enable_prefix_caching"] = True
-    vllm_outputs_partial_cache, vllm_model = _get_vLLM_output(
-        vllm_runner, vllm_runner_kwargs, generated_prompts[:3], max_tokens, num_logprobs
-    )
-
-    compare_operator(
-        outputs_0_lst=vllm_outputs_no_cache[0][:3],
-        outputs_1_lst=vllm_outputs_partial_cache[0],
-        name_0="vllm_no_cache",
-        name_1="vllm_partial_cache",
-    )
-
-    vllm_outputs_cache_rep, _ = _get_vLLM_output(
-        vllm_runner,
-        vllm_runner_kwargs,
-        generated_prompts,
-        max_tokens,
-        num_logprobs,
-        n_repetitions,
-        vllm_model=vllm_model,
-    )
-
-    for r_idx, vllm_outputs_cache_itn in enumerate(vllm_outputs_cache_rep):
-        # In the first repetition, the caches are filled
-        # In the second repetition, these caches are reused
+    with _owned_vLLM_runner(vllm_runner, vllm_runner_kwargs) as vllm_model:
+        vllm_outputs_partial_cache, _ = _get_vLLM_output(
+            vllm_runner,
+            vllm_runner_kwargs,
+            generated_prompts[:3],
+            max_tokens,
+            num_logprobs,
+            vllm_model=vllm_model,
+        )
 
         compare_operator(
-            outputs_0_lst=vllm_outputs_no_cache[0],
-            outputs_1_lst=vllm_outputs_cache_itn,
+            outputs_0_lst=vllm_outputs_no_cache[0][:3],
+            outputs_1_lst=vllm_outputs_partial_cache[0],
             name_0="vllm_no_cache",
-            name_1=f"vllm_cache_it_{r_idx + 1}",
+            name_1="vllm_partial_cache",
         )
 
+        vllm_outputs_cache_rep, _ = _get_vLLM_output(
+            vllm_runner,
+            vllm_runner_kwargs,
+            generated_prompts,
+            max_tokens,
+            num_logprobs,
+            n_repetitions,
+            vllm_model=vllm_model,
+        )
+
+        for r_idx, vllm_outputs_cache_itn in enumerate(vllm_outputs_cache_rep):
+            # In the first repetition, the caches are filled
+            # In the second repetition, these caches are reused
+
+            compare_operator(
+                outputs_0_lst=vllm_outputs_no_cache[0],
+                outputs_1_lst=vllm_outputs_cache_itn,
+                name_0="vllm_no_cache",
+                name_1=f"vllm_cache_it_{r_idx + 1}",
+            )
+
 
 # Test that outputs match whether prefix caching is enabled or not for mamba.
 @pytest.mark.parametrize("model", ["tiiuae/falcon-mamba-7b"])
@@ -826,7 +861,7 @@ def test_same_mamba_output_apc_on_vs_off(
 
     # No prefix caching
     kwargs_no_apc = {**base_kwargs, "enable_prefix_caching": False}
-    with vllm_runner(**kwargs_no_apc) as vllm_model:
+    with _owned_vLLM_runner(vllm_runner, kwargs_no_apc) as vllm_model:
         outputs_no_apc, _ = _get_vLLM_output(
             vllm_runner,
             kwargs_no_apc,
@@ -841,7 +876,7 @@ def test_same_mamba_output_apc_on_vs_off(
         "enable_prefix_caching": True,
         "mamba_block_size": 16,
     }
-    with vllm_runner(**kwargs_with_apc) as vllm_model:
+    with _owned_vLLM_runner(vllm_runner, kwargs_with_apc) as vllm_model:
         outputs_with_apc, _ = _get_vLLM_output(
             vllm_runner,
             kwargs_with_apc,
diff --git a/tests/models/multimodal/generation/test_granite_speech.py b/tests/models/multimodal/generation/test_granite_speech.py
index 038a15d057c..3019f5f22d4 100644
--- a/tests/models/multimodal/generation/test_granite_speech.py
+++ b/tests/models/multimodal/generation/test_granite_speech.py
@@ -30,11 +30,14 @@ def vllm_to_hf_output(
 
 MODEL_NAME = "ibm-granite/granite-speech-3.3-2b"
 MODEL_NAME_4_0 = "ibm-granite/granite-4.0-1b-speech"
+# "plus" variant of granite speech (uses GraniteSpeechPlusForConditionalGeneration).
+MODEL_NAME_4_1_PLUS = "ibm-granite/granite-speech-4.1-2b-plus"
 # Audio lora co-exists directly in the 3.3 model directory,
-# the 4.0 model has adapters merged into the weights.
+# the 4.0 and 4.1-plus models have adapters merged into the weights.
 models: dict[str, str | None] = {
     MODEL_NAME: MODEL_NAME,
     MODEL_NAME_4_0: None,
+    MODEL_NAME_4_1_PLUS: None,
 }
 
 
diff --git a/tests/models/multimodal/generation/test_vit_cudagraph.py b/tests/models/multimodal/generation/test_vit_cudagraph.py
index 18630e3559a..cbdc5e878ae 100644
--- a/tests/models/multimodal/generation/test_vit_cudagraph.py
+++ b/tests/models/multimodal/generation/test_vit_cudagraph.py
@@ -43,6 +43,10 @@ def qwen_vl_chat_template(content: str) -> str:
     return f"<|im_start|>user\n{content}<|im_end|>\n<|im_start|>assistant\n"
 
 
+def internvl_chat_template(content: str) -> str:
+    return f"<|im_start|>user\n{content}<|im_end|>\n<|im_start|>assistant\n"
+
+
 def step3_vl_chat_template(content: str) -> str:
     return (
         "<｜begin▁of▁sentence｜> You are a helpful assistant.<|BOT|>user\n "
@@ -51,6 +55,17 @@ def step3_vl_chat_template(content: str) -> str:
 
 
 MODEL_CONFIGS: dict[str, VitCudagraphTestConfig] = {
+    "internvl": VitCudagraphTestConfig(
+        model="OpenGVLab/InternVL3-1B",
+        num_video_frames=8,
+        image_prompt=internvl_chat_template("<image>\nWhat is in this image?"),
+        video_prompt=internvl_chat_template(
+            "<video>\nDescribe this video in one sentence."
+        ),
+        needs_video_metadata=False,
+        vllm_runner_kwargs={"trust_remote_code": True},
+        marks=[pytest.mark.core_model],
+    ),
     "qwen2_5_vl": VitCudagraphTestConfig(
         model="Qwen/Qwen2.5-VL-3B-Instruct",
         image_prompt=qwen_vl_chat_template(
diff --git a/tests/models/registry.py b/tests/models/registry.py
index 298ba63d014..576e3086d42 100644
--- a/tests/models/registry.py
+++ b/tests/models/registry.py
@@ -938,6 +938,10 @@ _MULTIMODAL_EXAMPLE_MODELS = {
         "ibm-granite/granite-speech-3.3-2b",
         extras={"4.0-1b": "ibm-granite/granite-4.0-1b-speech"},
     ),
+    "GraniteSpeechPlusForConditionalGeneration": _HfExamplesInfo(
+        "ibm-granite/granite-speech-4.1-2b-plus",
+        min_transformers_version="5.8.0",
+    ),
     "GLM4VForCausalLM": _HfExamplesInfo(
         "zai-org/glm-4v-9b",
         trust_remote_code=True,
diff --git a/tests/parser/test_streaming.py b/tests/parser/test_streaming.py
index 2ba2392f8e9..dbc64e75593 100644
--- a/tests/parser/test_streaming.py
+++ b/tests/parser/test_streaming.py
@@ -36,11 +36,24 @@ def tokenizer():
     return get_tokenizer("Qwen/Qwen3-32B")
 
 
+TOOLS = [
+    {
+        "type": "function",
+        "function": {
+            "name": "get_weather",
+            "parameters": {"type": "object", "properties": {}},
+        },
+    }
+]
+
+
 @pytest.fixture
 def request_obj():
     return ChatCompletionRequest(
         model="test-model",
         messages=[{"role": "user", "content": "hi"}],
+        tools=TOOLS,
+        tool_choice="auto",
     )
 
 
@@ -328,3 +341,27 @@ def test_parse_delta_finished_appends_remaining_args(tokenizer, request_obj):
         tc.function.arguments for tc in tool_calls if tc.function.arguments
     )
     assert tool_args.endswith(remainder)
+
+
+def test_parse_delta_tool_choice_none(tokenizer, request_obj):
+    parser = make_parser(tokenizer, reasoning=False, tool=True)
+    request = request_obj.model_copy(update={"tool_choice": "none"})
+    results = stream_text(parser, tokenizer, MODEL_OUTPUT, request, prompt_token_ids=[])
+    reasoning, content, tool_calls = collect_fields(results)
+
+    assert reasoning == ""
+    assert len(tool_calls) == 0
+    assert "<tool_call>" in content
+    assert "get_weather" in content
+
+
+def test_parse_delta_tool_choice_none_with_reasoning(tokenizer, request_obj):
+    parser = make_parser(tokenizer, reasoning=True, tool=True)
+    request = request_obj.model_copy(update={"tool_choice": "none"})
+    results = stream_text(parser, tokenizer, MODEL_OUTPUT, request, prompt_token_ids=[])
+    reasoning, content, tool_calls = collect_fields(results)
+
+    assert "let me think about this" in reasoning
+    assert len(tool_calls) == 0
+    assert "<tool_call>" in content
+    assert "get_weather" in content
diff --git a/tests/quantization/test_compressed_tensors.py b/tests/quantization/test_compressed_tensors.py
index 2165361da67..d4267a23169 100644
--- a/tests/quantization/test_compressed_tensors.py
+++ b/tests/quantization/test_compressed_tensors.py
@@ -26,7 +26,6 @@ from vllm.model_executor.layers.quantization.compressed_tensors.compressed_tenso
     CompressedTensorsW4A4Fp4,
     CompressedTensorsW4A4Mxfp4,
     CompressedTensorsW4A8Fp8,
-    CompressedTensorsW4A16Fp4,
     CompressedTensorsW8A8Fp8,
     CompressedTensorsW8A8Int8,
     CompressedTensorsW8A8Mxfp8,
@@ -37,9 +36,6 @@ from vllm.model_executor.layers.quantization.compressed_tensors.utils import (
     find_matched_target,
 )
 from vllm.model_executor.layers.quantization.input_quant_fp8 import QuantFP8
-from vllm.model_executor.layers.quantization.utils.nvfp4_utils import (
-    cutlass_fp4_supported,
-)
 from vllm.model_executor.layers.vocab_parallel_embedding import ParallelLMHead
 from vllm.platforms import current_platform
 from vllm.v1.attention.backends.fa_utils import get_flash_attn_version
@@ -376,13 +372,12 @@ def test_compressed_tensors_kv_cache_fp8_per_attn_head(vllm_runner):
 @pytest.mark.parametrize(
     "args",
     [
-        # TODO: Enable once model is available again
-        # ("nm-testing/TinyLlama-1.1B-Chat-v1.0-NVFP4A16", CompressedTensorsW4A16Fp4),
-        ("nm-testing/TinyLlama-1.1B-Chat-v1.0-NVFP4", CompressedTensorsW4A4Fp4),
+        ("nm-testing/TinyLlama-1.1B-Chat-v1.0-NVFP4A16", True),
+        ("nm-testing/TinyLlama-1.1B-Chat-v1.0-NVFP4", False),
     ],
 )
 def test_compressed_tensors_nvfp4(vllm_runner, args):
-    model, scheme = args
+    model, use_a16 = args
     with vllm_runner(model, enforce_eager=True) as llm:
 
         def check_model(model):
@@ -390,15 +385,8 @@ def test_compressed_tensors_nvfp4(vllm_runner, args):
 
             qkv_proj = layer.self_attn.qkv_proj
             assert isinstance(qkv_proj.quant_method, CompressedTensorsLinearMethod)
-            if (
-                isinstance(qkv_proj.scheme, scheme)
-                or isinstance(qkv_proj.scheme, CompressedTensorsW4A16Fp4)
-                and not cutlass_fp4_supported()
-            ):
-                assert True
-            else:
-                raise AssertionError("FP4 Scheme Mismatch")
-
+            assert isinstance(qkv_proj.scheme, CompressedTensorsW4A4Fp4)
+            assert qkv_proj.scheme.use_a16 == use_a16
             assert qkv_proj.scheme.group_size == 16
 
         llm.apply_model(check_model)
diff --git a/tests/test_logger.py b/tests/test_logger.py
index b4f44f52d4d..2ff100151b2 100644
--- a/tests/test_logger.py
+++ b/tests/test_logger.py
@@ -10,12 +10,11 @@ from dataclasses import dataclass
 from json.decoder import JSONDecodeError
 from tempfile import NamedTemporaryFile
 from typing import Any
-from unittest.mock import MagicMock, patch
+from unittest.mock import patch
 from uuid import uuid4
 
 import pytest
 
-from vllm.entrypoints.logger import RequestLogger
 from vllm.logger import (
     _DATE_FORMAT,
     _FORMAT,
@@ -269,248 +268,6 @@ def test_prepare_object_to_dump():
     assert prepare_object_to_dump(CustomClass(1, "b")) == "CustomClass(a=1, b='b')"
 
 
-def test_request_logger_log_outputs():
-    """Test the new log_outputs functionality."""
-    # Create a mock logger to capture log calls
-    mock_logger = MagicMock()
-
-    with patch("vllm.entrypoints.logger.logger", mock_logger):
-        request_logger = RequestLogger(max_log_len=None)
-
-        # Test basic output logging
-        request_logger.log_outputs(
-            request_id="test-123",
-            outputs="Hello, world!",
-            output_token_ids=[1, 2, 3, 4],
-            finish_reason="stop",
-            is_streaming=False,
-            delta=False,
-        )
-
-        mock_logger.info.assert_called_once()
-        call_args = mock_logger.info.call_args.args
-        assert "Generated response %s%s" in call_args[0]
-        assert call_args[1] == "test-123"
-        assert call_args[3] == "Hello, world!"
-        assert call_args[4] == [1, 2, 3, 4]
-        assert call_args[5] == "stop"
-
-
-def test_request_logger_log_outputs_streaming_delta():
-    """Test log_outputs with streaming delta mode."""
-    mock_logger = MagicMock()
-
-    with patch("vllm.entrypoints.logger.logger", mock_logger):
-        request_logger = RequestLogger(max_log_len=None)
-
-        # Test streaming delta logging
-        request_logger.log_outputs(
-            request_id="test-456",
-            outputs="Hello",
-            output_token_ids=[1],
-            finish_reason=None,
-            is_streaming=True,
-            delta=True,
-        )
-
-        mock_logger.info.assert_called_once()
-        call_args = mock_logger.info.call_args.args
-        assert "Generated response %s%s" in call_args[0]
-        assert call_args[1] == "test-456"
-        assert call_args[2] == " (streaming delta)"
-        assert call_args[3] == "Hello"
-        assert call_args[4] == [1]
-        assert call_args[5] is None
-
-
-def test_request_logger_log_outputs_streaming_complete():
-    """Test log_outputs with streaming complete mode."""
-    mock_logger = MagicMock()
-
-    with patch("vllm.entrypoints.logger.logger", mock_logger):
-        request_logger = RequestLogger(max_log_len=None)
-
-        # Test streaming complete logging
-        request_logger.log_outputs(
-            request_id="test-789",
-            outputs="Complete response",
-            output_token_ids=[1, 2, 3],
-            finish_reason="length",
-            is_streaming=True,
-            delta=False,
-        )
-
-        mock_logger.info.assert_called_once()
-        call_args = mock_logger.info.call_args.args
-        assert "Generated response %s%s" in call_args[0]
-        assert call_args[1] == "test-789"
-        assert call_args[2] == " (streaming complete)"
-        assert call_args[3] == "Complete response"
-        assert call_args[4] == [1, 2, 3]
-        assert call_args[5] == "length"
-
-
-def test_request_logger_log_outputs_with_truncation():
-    """Test log_outputs respects max_log_len setting."""
-    mock_logger = MagicMock()
-
-    with patch("vllm.entrypoints.logger.logger", mock_logger):
-        # Set max_log_len to 10
-        request_logger = RequestLogger(max_log_len=10)
-
-        # Test output truncation
-        long_output = "This is a very long output that should be truncated"
-        long_token_ids = list(range(20))  # 20 tokens
-
-        request_logger.log_outputs(
-            request_id="test-truncate",
-            outputs=long_output,
-            output_token_ids=long_token_ids,
-            finish_reason="stop",
-            is_streaming=False,
-            delta=False,
-        )
-
-        mock_logger.info.assert_called_once()
-        call_args = mock_logger.info.call_args
-
-        # Check that output was truncated to first 10 characters
-        logged_output = call_args[0][3]
-        assert logged_output == "This is a "
-        assert len(logged_output) == 10
-
-        # Check that token IDs were truncated to first 10 tokens
-        logged_token_ids = call_args[0][4]
-        assert logged_token_ids == list(range(10))
-        assert len(logged_token_ids) == 10
-
-
-def test_request_logger_log_outputs_none_values():
-    """Test log_outputs handles None values correctly."""
-    mock_logger = MagicMock()
-
-    with patch("vllm.entrypoints.logger.logger", mock_logger):
-        request_logger = RequestLogger(max_log_len=None)
-
-        # Test with None output_token_ids
-        request_logger.log_outputs(
-            request_id="test-none",
-            outputs="Test output",
-            output_token_ids=None,
-            finish_reason="stop",
-            is_streaming=False,
-            delta=False,
-        )
-
-        mock_logger.info.assert_called_once()
-        call_args = mock_logger.info.call_args.args
-        assert "Generated response %s%s" in call_args[0]
-        assert call_args[1] == "test-none"
-        assert call_args[3] == "Test output"
-        assert call_args[4] is None
-        assert call_args[5] == "stop"
-
-
-def test_request_logger_log_outputs_empty_output():
-    """Test log_outputs handles empty output correctly."""
-    mock_logger = MagicMock()
-
-    with patch("vllm.entrypoints.logger.logger", mock_logger):
-        request_logger = RequestLogger(max_log_len=5)
-
-        # Test with empty output
-        request_logger.log_outputs(
-            request_id="test-empty",
-            outputs="",
-            output_token_ids=[],
-            finish_reason="stop",
-            is_streaming=False,
-            delta=False,
-        )
-
-        mock_logger.info.assert_called_once()
-        call_args = mock_logger.info.call_args.args
-        assert "Generated response %s%s" in call_args[0]
-        assert call_args[1] == "test-empty"
-        assert call_args[3] == ""
-        assert call_args[4] == []
-        assert call_args[5] == "stop"
-
-
-def test_request_logger_log_outputs_integration():
-    """Test that log_outputs can be called alongside log_inputs."""
-    mock_logger = MagicMock()
-
-    with patch("vllm.entrypoints.logger.logger", mock_logger):
-        request_logger = RequestLogger(max_log_len=None)
-
-        # Test that both methods can be called without interference
-        request_logger.log_inputs(
-            request_id="test-integration",
-            prompt="Test prompt",
-            prompt_token_ids=[1, 2, 3],
-            prompt_embeds=None,
-            params=None,
-            lora_request=None,
-        )
-
-        request_logger.log_outputs(
-            request_id="test-integration",
-            outputs="Test output",
-            output_token_ids=[4, 5, 6],
-            finish_reason="stop",
-            is_streaming=False,
-            delta=False,
-        )
-
-        # Should have been called twice - once for inputs, once for outputs
-        assert mock_logger.info.call_count == 2
-
-        # Check that the calls were made with correct patterns
-        input_call = mock_logger.info.call_args_list[0][0]
-        output_call = mock_logger.info.call_args_list[1][0]
-
-        assert "Received request %s" in input_call[0]
-        assert input_call[1] == "test-integration"
-
-        assert "Generated response %s%s" in output_call[0]
-        assert output_call[1] == "test-integration"
-
-
-def test_streaming_complete_logs_full_text_content():
-    """Test that streaming complete logging includes
-    full accumulated text, not just token count."""
-    mock_logger = MagicMock()
-
-    with patch("vllm.entrypoints.logger.logger", mock_logger):
-        request_logger = RequestLogger(max_log_len=None)
-
-        # Test with actual content instead of token count format
-        full_response = "This is a complete response from streaming"
-        request_logger.log_outputs(
-            request_id="test-streaming-full-text",
-            outputs=full_response,
-            output_token_ids=None,
-            finish_reason="streaming_complete",
-            is_streaming=True,
-            delta=False,
-        )
-
-        mock_logger.info.assert_called_once()
-        call_args = mock_logger.info.call_args.args
-
-        # Verify the logged output is the full text, not a token count format
-        logged_output = call_args[3]
-        assert logged_output == full_response
-        assert "tokens>" not in logged_output
-        assert "streaming_complete" not in logged_output
-
-        # Verify other parameters
-        assert call_args[1] == "test-streaming-full-text"
-        assert call_args[2] == " (streaming complete)"
-        assert call_args[5] == "streaming_complete"
-
-
 # Add vllm prefix to make sure logs go through the vllm logger
 test_logger = init_logger("vllm.test_logger")
 
diff --git a/tests/v1/attention/test_attention_backends_selection.py b/tests/v1/attention/test_attention_backends_selection.py
index 4242cc5ff2e..e3d2e9dc457 100644
--- a/tests/v1/attention/test_attention_backends_selection.py
+++ b/tests/v1/attention/test_attention_backends_selection.py
@@ -54,15 +54,14 @@ from vllm.v1.attention.backends.short_conv_attn import ShortConvAttentionBackend
         (
             MiniMaxText01LinearAttention,
             dict(
-                hidden_size=128,
-                hidden_inner_size=256,
-                num_heads=8,
-                head_dim=32,
-                max_position=2048,
-                block_size=64,
-                num_hidden_layer=12,
-                layer_idx=0,
-                linear_layer_idx=0,
+                config=SimpleNamespace(
+                    hidden_size=256,
+                    num_attention_heads=8,
+                    head_dim=32,
+                    num_hidden_layers=12,
+                    block=64,
+                ),
+                prefix="layers.0.self_attn",
             ),
             LinearAttentionBackend,
             MambaAttentionBackendEnum.LINEAR,
@@ -88,6 +87,8 @@ def test_mamba_layers_get_attn_backend(
     expected_mamba_type,
 ):
     """Test that Mamba-like layers return the correct attention backend."""
+    if layer_class is MiniMaxText01LinearAttention:
+        init_kwargs["vllm_config"] = default_vllm_config
     layer = layer_class(**init_kwargs)
 
     backend_class = layer.get_attn_backend()
diff --git a/tests/v1/core/test_kv_cache_utils.py b/tests/v1/core/test_kv_cache_utils.py
index 68ad7bc42ef..c2eb576d895 100644
--- a/tests/v1/core/test_kv_cache_utils.py
+++ b/tests/v1/core/test_kv_cache_utils.py
@@ -358,6 +358,43 @@ def test_free_kv_cache_block_queue_append_n():
     )
 
 
+def test_free_kv_cache_block_queue_prepend_n():
+    # Seed the queue with one block so prepend has an existing head to splice
+    # in front of (fake_head->b0->fake_tail).
+    blocks = [KVCacheBlock(block_id=i) for i in range(6)]
+    queue = FreeKVCacheBlockQueue(blocks[0:1])
+
+    # Prepend 0 blocks is a no-op.
+    queue.prepend_n([])
+    assert queue.num_free_blocks == 1
+    assert queue.fake_free_list_head.next_free_block is blocks[0]
+
+    # Prepend 2 blocks; they land in front of the existing head, in order.
+    # fake_head->b4->b5->b0->fake_tail
+    queue.prepend_n(blocks[4:6])
+    assert queue.num_free_blocks == 3
+    assert queue.fake_free_list_head.next_free_block is blocks[4]
+    assert blocks[4].prev_free_block is queue.fake_free_list_head
+    assert blocks[4].next_free_block is blocks[5]
+    assert blocks[5].prev_free_block is blocks[4]
+    assert blocks[5].next_free_block is blocks[0]
+    assert blocks[0].prev_free_block is blocks[5]
+    assert blocks[0].next_free_block is queue.fake_free_list_tail
+    assert queue.fake_free_list_tail.prev_free_block is blocks[0]
+
+    # A second prepend goes ahead of everything previously prepended.
+    # fake_head->b1->b2->b4->b5->b0->fake_tail
+    queue.prepend_n(blocks[1:3])
+    assert queue.num_free_blocks == 5
+    assert queue.fake_free_list_head.next_free_block is blocks[1]
+    assert blocks[1].next_free_block is blocks[2]
+    assert blocks[2].next_free_block is blocks[4]
+
+    # The popleft order reflects the front-to-back queue order.
+    assert [queue.popleft().block_id for _ in range(5)] == [1, 2, 4, 5, 0]
+    assert queue.num_free_blocks == 0
+
+
 def test_free_kv_cache_block_queue_popleft_n():
     blocks = [KVCacheBlock(block_id=i) for i in range(6)]
     # Create an empty FreeKVCacheBlockQueue with these blocks
diff --git a/tests/v1/core/test_prefix_caching.py b/tests/v1/core/test_prefix_caching.py
index 91c5f37b417..f682940756a 100644
--- a/tests/v1/core/test_prefix_caching.py
+++ b/tests/v1/core/test_prefix_caching.py
@@ -39,6 +39,7 @@ from vllm.v1.kv_cache_interface import (
     KVCacheGroupSpec,
     KVCacheSpecKind,
     MambaSpec,
+    MLAAttentionSpec,
     SlidingWindowSpec,
 )
 
@@ -2875,6 +2876,350 @@ def test_hybrid_cache_blocks_clamped_to_lcm():
     )
 
 
+def test_hybrid_local_kv_retention_interval_aligns_in_manager(monkeypatch):
+    """Verify fixed intervals retain sparse tails plus the latest replay tail."""
+    monkeypatch.setenv("VLLM_PREFIX_CACHE_RETENTION_INTERVAL", "64")
+    block_size = 8
+    kv_cache_config = KVCacheConfig(
+        num_blocks=100,
+        kv_cache_tensors=[],
+        kv_cache_groups=[
+            KVCacheGroupSpec(
+                ["layer1"],
+                FullAttentionSpec(
+                    block_size=4 * block_size,
+                    num_kv_heads=1,
+                    head_size=1,
+                    dtype=torch.float16,
+                ),
+            ),
+            KVCacheGroupSpec(
+                ["layer2"],
+                SlidingWindowSpec(
+                    block_size=block_size,
+                    num_kv_heads=1,
+                    head_size=1,
+                    dtype=torch.float32,
+                    sliding_window=block_size,
+                ),
+            ),
+        ],
+    )
+    manager = make_kv_cache_manager(
+        kv_cache_config=kv_cache_config,
+        max_model_len=8192,
+        enable_caching=True,
+        hash_block_size=block_size,
+    )
+
+    # The SWA manager uses the configured 64-token interval (a multiple of the
+    # 32-token lcm_block_size) as its retention segment. For this 128-token
+    # prompt, the retained SWA tails are the 64-token interval boundary, the
+    # 96-token replay boundary, and the 128-token interval boundary.
+    token_ids = [i for i in range(16) for _ in range(block_size)]
+    req = make_request("0", token_ids, block_size, sha256)
+    computed_blocks, _ = manager.get_computed_blocks(req)
+    blocks = manager.allocate_slots(
+        req,
+        len(token_ids),
+        len(computed_blocks.blocks[0]) * block_size,
+        computed_blocks,
+    )
+    assert blocks is not None
+
+    pool = manager.block_pool
+    expected_swa_cached = {7, 11, 15}
+    for i in range(16):
+        cached = pool.get_cached_block(req.block_hashes[i], kv_cache_group_ids=[1])
+        if i in expected_swa_cached:
+            assert cached is not None, f"SWA hash {i} should be cached"
+        else:
+            assert cached is None, f"SWA hash {i} should not be cached"
+
+
+@pytest.mark.parametrize(
+    "interval, expected_match",
+    [
+        # scheduler_block_size is 32 (= lcm(4*8, 8)); 33 is not a multiple of it.
+        ("33", "multiple of scheduler_block_size"),
+        # A negative multiple (-32 % 32 == 0) must still be rejected explicitly,
+        # otherwise it would pass the modulo check and silently degrade to dense.
+        ("-32", "non-negative"),
+    ],
+)
+def test_hybrid_local_kv_retention_interval_rejects_invalid(
+    monkeypatch, interval, expected_match
+):
+    """A retention interval that is negative or not a multiple of
+    scheduler_block_size errors out at construction time."""
+    monkeypatch.setenv("VLLM_PREFIX_CACHE_RETENTION_INTERVAL", interval)
+    block_size = 8
+    kv_cache_config = KVCacheConfig(
+        num_blocks=100,
+        kv_cache_tensors=[],
+        kv_cache_groups=[
+            KVCacheGroupSpec(
+                ["layer1"],
+                FullAttentionSpec(
+                    block_size=4 * block_size,
+                    num_kv_heads=1,
+                    head_size=1,
+                    dtype=torch.float16,
+                ),
+            ),
+            KVCacheGroupSpec(
+                ["layer2"],
+                SlidingWindowSpec(
+                    block_size=block_size,
+                    num_kv_heads=1,
+                    head_size=1,
+                    dtype=torch.float32,
+                    sliding_window=block_size,
+                ),
+            ),
+        ],
+    )
+    with pytest.raises(ValueError, match=expected_match):
+        make_kv_cache_manager(
+            kv_cache_config=kv_cache_config,
+            max_model_len=8192,
+            enable_caching=True,
+            hash_block_size=block_size,
+        )
+
+
+def test_hybrid_local_kv_retention_interval_survives_recycling(monkeypatch):
+    """Verify retained local checkpoints are reused after block recycling."""
+    monkeypatch.setenv("VLLM_PREFIX_CACHE_RETENTION_INTERVAL", "1024")
+    hash_block_size = 4
+    kv_cache_config = KVCacheConfig(
+        num_blocks=800,
+        kv_cache_tensors=[],
+        kv_cache_groups=[
+            KVCacheGroupSpec(
+                ["full"],
+                MLAAttentionSpec(
+                    block_size=64 * hash_block_size,
+                    num_kv_heads=1,
+                    head_size=1,
+                    dtype=torch.uint8,
+                    compress_ratio=4,
+                ),
+            ),
+            KVCacheGroupSpec(
+                ["swa"],
+                SlidingWindowSpec(
+                    block_size=16 * hash_block_size,
+                    num_kv_heads=1,
+                    head_size=1,
+                    dtype=torch.float32,
+                    sliding_window=512,
+                ),
+            ),
+            KVCacheGroupSpec(
+                ["c128"],
+                SlidingWindowSpec(
+                    block_size=2 * hash_block_size,
+                    num_kv_heads=1,
+                    head_size=1,
+                    dtype=torch.float32,
+                    sliding_window=128,
+                ),
+            ),
+            KVCacheGroupSpec(
+                ["c4"],
+                SlidingWindowSpec(
+                    block_size=hash_block_size,
+                    num_kv_heads=1,
+                    head_size=1,
+                    dtype=torch.float32,
+                    sliding_window=8,
+                ),
+            ),
+        ],
+    )
+    manager = make_kv_cache_manager(
+        kv_cache_config=kv_cache_config,
+        max_model_len=4096,
+        enable_caching=True,
+        hash_block_size=hash_block_size,
+    )
+
+    def fill_request(request_id: str, token_offset: int) -> list[int]:
+        token_ids = [
+            token_offset + i for i in range(1024) for _ in range(hash_block_size)
+        ]
+        fill_req = make_request(request_id, token_ids, hash_block_size, sha256)
+        while fill_req.num_computed_tokens < len(token_ids):
+            num_new_tokens = min(512, len(token_ids) - fill_req.num_computed_tokens)
+            blocks = manager.allocate_slots(fill_req, num_new_tokens)
+            assert blocks is not None
+            fill_req.num_computed_tokens += num_new_tokens
+        manager.free(fill_req)
+        return token_ids
+
+    token_ids = fill_request("fill_0", 0)
+    replay_req = make_request("replay", token_ids[:1800], hash_block_size, sha256)
+    computed_blocks, num_computed_tokens = manager.get_computed_blocks(replay_req)
+    assert num_computed_tokens == 1024
+    assert [len(blocks) for blocks in computed_blocks.blocks] == [4, 16, 128, 256]
+
+    fill_request("fill_1", 100_000)
+    replay_req = make_request("replay_again", token_ids[:1800], hash_block_size, sha256)
+    computed_blocks, num_computed_tokens = manager.get_computed_blocks(replay_req)
+    assert num_computed_tokens == 1024
+    assert [len(blocks) for blocks in computed_blocks.blocks] == [4, 16, 128, 256]
+
+
+def test_hybrid_local_kv_retention_latest_only_reuses_replay_boundary(monkeypatch):
+    """Verify latest-only retention reuses only the replayable prompt boundary."""
+    monkeypatch.setenv("VLLM_PREFIX_CACHE_RETENTION_INTERVAL", "0")
+    block_size = 8
+    kv_cache_config = KVCacheConfig(
+        num_blocks=100,
+        kv_cache_tensors=[],
+        kv_cache_groups=[
+            KVCacheGroupSpec(
+                ["layer1"],
+                FullAttentionSpec(
+                    block_size=4 * block_size,
+                    num_kv_heads=1,
+                    head_size=1,
+                    dtype=torch.float16,
+                ),
+            ),
+            KVCacheGroupSpec(
+                ["layer2"],
+                SlidingWindowSpec(
+                    block_size=block_size,
+                    num_kv_heads=1,
+                    head_size=1,
+                    dtype=torch.float32,
+                    sliding_window=block_size,
+                ),
+            ),
+        ],
+    )
+    manager = make_kv_cache_manager(
+        kv_cache_config=kv_cache_config,
+        max_model_len=8192,
+        enable_caching=True,
+        hash_block_size=block_size,
+    )
+
+    token_ids = [i for i in range(16) for _ in range(block_size)]
+    req0 = make_request("0", token_ids, block_size, sha256)
+    computed_blocks, _ = manager.get_computed_blocks(req0)
+    blocks = manager.allocate_slots(
+        req0,
+        len(token_ids),
+        len(computed_blocks.blocks[0]) * block_size,
+        computed_blocks,
+    )
+    assert blocks is not None
+
+    pool = manager.block_pool
+    expected_swa_cached = {11}
+    for i in range(16):
+        cached = pool.get_cached_block(req0.block_hashes[i], kv_cache_group_ids=[1])
+        if i in expected_swa_cached:
+            assert cached is not None, f"SWA hash {i} should be cached"
+        else:
+            assert cached is None, f"SWA hash {i} should not be cached"
+
+    manager.free(req0)
+    retained_swa_block = pool.get_cached_block(req0.block_hashes[11], [1])
+    assert retained_swa_block is not None
+    assert retained_swa_block[0].ref_cnt == 0
+
+    req1 = make_request("1", token_ids, block_size, sha256)
+    computed_blocks, num_computed_tokens = manager.get_computed_blocks(req1)
+    # Full prompt hits intentionally recompute the final block for logits, so
+    # the longest usable hit is the previous LCM boundary: 96 tokens.
+    assert num_computed_tokens == 12 * block_size
+    assert len(computed_blocks.blocks[1]) == 12
+
+    shorter_req = make_request("2", token_ids[: 12 * block_size], block_size, sha256)
+    computed_blocks, num_computed_tokens = manager.get_computed_blocks(shorter_req)
+    assert num_computed_tokens == 0
+    assert len(computed_blocks.blocks[1]) == 0
+
+
+def test_hybrid_local_kv_retention_mtp_reuses_latest_boundary(monkeypatch):
+    """Verify MTP/EAGLE SWA retention keeps the extra proof block.
+
+    EAGLE/MTP lookup matches one additional local block after the returned
+    prefix and then drops it. Sparse retention must therefore cache the normal
+    local tail at the latest replay boundary plus one extra SWA block.
+    """
+    monkeypatch.setenv("VLLM_PREFIX_CACHE_RETENTION_INTERVAL", "0")
+    block_size = 8
+    kv_cache_config = KVCacheConfig(
+        num_blocks=100,
+        kv_cache_tensors=[],
+        kv_cache_groups=[
+            KVCacheGroupSpec(
+                ["full"],
+                FullAttentionSpec(
+                    block_size=4 * block_size,
+                    num_kv_heads=1,
+                    head_size=1,
+                    dtype=torch.float16,
+                ),
+            ),
+            KVCacheGroupSpec(
+                ["swa_mtp"],
+                SlidingWindowSpec(
+                    block_size=block_size,
+                    num_kv_heads=1,
+                    head_size=1,
+                    dtype=torch.float32,
+                    sliding_window=block_size,
+                ),
+                is_eagle_group=True,
+            ),
+        ],
+    )
+    manager = make_kv_cache_manager(
+        kv_cache_config=kv_cache_config,
+        max_model_len=8192,
+        enable_caching=True,
+        hash_block_size=block_size,
+        use_eagle=True,
+    )
+
+    # 127 tokens: latest replay boundary is floor((127 - 1) / 32) * 32 = 96.
+    # The EAGLE/MTP SWA lookup group must cache the local tail ending at
+    # 104 tokens, and that tail is two 8-token blocks wide: hashes 11 and 12.
+    token_ids = [i for i in range(15) for _ in range(block_size)] + [15] * 7
+    req0 = make_request("0", token_ids, block_size, sha256)
+    computed_blocks, num_computed_tokens = manager.get_computed_blocks(req0)
+    assert num_computed_tokens == 0
+    blocks = manager.allocate_slots(
+        req0,
+        len(token_ids),
+        num_computed_tokens,
+        computed_blocks,
+    )
+    assert blocks is not None
+
+    pool = manager.block_pool
+    expected_swa_cached = {11, 12}
+    for i in range(15):
+        cached = pool.get_cached_block(req0.block_hashes[i], kv_cache_group_ids=[1])
+        if i in expected_swa_cached:
+            assert cached is not None, f"SWA hash {i} should be cached"
+        else:
+            assert cached is None, f"SWA hash {i} should not be cached"
+
+    manager.free(req0)
+
+    req1 = make_request("1", token_ids, block_size, sha256)
+    computed_blocks, num_computed_tokens = manager.get_computed_blocks(req1)
+    assert num_computed_tokens == 12 * block_size
+    assert [len(blocks) for blocks in computed_blocks.blocks] == [3, 12]
+
+
 def test_block_lookup_cache_single_block_per_key():
     cache = BlockHashToBlockMap()
     key0 = BlockHashWithGroupId(b"hash0")
@@ -3058,3 +3403,215 @@ def test_can_fit_full_sequence_full_attention_still_gates_oversized():
     req = make_request("oversized", list(range(prompt_len)), block_size, sha256)
 
     assert manager.allocate_slots(req, block_size, full_sequence_must_fit=True) is None
+
+
+def test_swa_free_split_keeps_cached_tail_ahead_of_scratch(monkeypatch):
+    """Default path (no retention): freeing an SWA request must place its
+    uncached scratch blocks at the front of the free queue (recycled first)
+    and keep its cached checkpoint blocks at the back (retained for prefix
+    hits). This split is always-on, independent of the retention interval."""
+    monkeypatch.delenv("VLLM_PREFIX_CACHE_RETENTION_INTERVAL", raising=False)
+    block_size = 8
+    kv_cache_config = KVCacheConfig(
+        num_blocks=100,
+        kv_cache_tensors=[],
+        kv_cache_groups=[
+            KVCacheGroupSpec(
+                ["layer1"],
+                FullAttentionSpec(
+                    block_size=4 * block_size,
+                    num_kv_heads=1,
+                    head_size=1,
+                    dtype=torch.float16,
+                ),
+            ),
+            KVCacheGroupSpec(
+                ["layer2"],
+                SlidingWindowSpec(
+                    block_size=block_size,
+                    num_kv_heads=1,
+                    head_size=1,
+                    dtype=torch.float32,
+                    sliding_window=block_size,
+                ),
+            ),
+        ],
+    )
+    manager = make_kv_cache_manager(
+        kv_cache_config=kv_cache_config,
+        max_model_len=8192,
+        enable_caching=True,
+        hash_block_size=block_size,
+    )
+
+    token_ids = [i for i in range(16) for _ in range(block_size)]
+    req = make_request("0", token_ids, block_size, sha256)
+    computed_blocks, _ = manager.get_computed_blocks(req)
+    blocks = manager.allocate_slots(
+        req,
+        len(token_ids),
+        len(computed_blocks.blocks[0]) * block_size,
+        computed_blocks,
+    )
+    assert blocks is not None
+
+    swa_manager = manager.coordinator.single_type_managers[1]
+    null_block = manager.block_pool.null_block
+    cached_ids: set[int] = set()
+    uncached_ids: set[int] = set()
+    cached_hash_indices: list[int] = []
+    for i, block in enumerate(swa_manager.req_to_blocks[req.request_id]):
+        if block is null_block:
+            continue
+        if block.block_hash is None:
+            uncached_ids.add(block.block_id)
+        else:
+            cached_ids.add(block.block_id)
+            cached_hash_indices.append(i)
+    # The dense default mask caches only the per-segment tails, so a 16-block
+    # SWA prompt must produce a mix of retained and scratch blocks.
+    assert cached_ids, "expected some retained (cached) SWA tail blocks"
+    assert uncached_ids, "expected some scratch (uncached) SWA blocks"
+
+    manager.free(req)
+
+    order = [
+        b.block_id for b in manager.block_pool.free_block_queue.get_all_free_blocks()
+    ]
+    pos = {bid: i for i, bid in enumerate(order)}
+    # Every scratch block is recycled before every retained block.
+    assert max(pos[bid] for bid in uncached_ids) < min(pos[bid] for bid in cached_ids)
+    # The retained tails survive the free and still serve a prefix-cache hit.
+    for i in cached_hash_indices:
+        assert (
+            manager.block_pool.get_cached_block(
+                req.block_hashes[i], kv_cache_group_ids=[1]
+            )
+            is not None
+        )
+
+
+def _make_pure_swa_manager(block_size, sliding_window, num_blocks=100, **kwargs):
+    """Single sliding-window group (UnitaryKVCacheCoordinator)."""
+    kv_cache_config = KVCacheConfig(
+        num_blocks=num_blocks,
+        kv_cache_tensors=[],
+        kv_cache_groups=[
+            KVCacheGroupSpec(
+                ["layer"],
+                SlidingWindowSpec(
+                    block_size=block_size,
+                    num_kv_heads=1,
+                    head_size=1,
+                    dtype=torch.float32,
+                    sliding_window=sliding_window,
+                ),
+            ),
+        ],
+    )
+    return make_kv_cache_manager(
+        kv_cache_config=kv_cache_config,
+        max_model_len=8192,
+        enable_caching=True,
+        hash_block_size=block_size,
+        **kwargs,
+    )
+
+
+def test_pure_swa_retention_interval_caches_sparse_tails(monkeypatch):
+    """Sparse retention must work for a pure-SWA single-group model, not just
+    hybrid models: only the per-interval tails plus the latest replay tail are
+    cached, and a replay still hits the latest replayable boundary."""
+    monkeypatch.setenv("VLLM_PREFIX_CACHE_RETENTION_INTERVAL", "64")
+    block_size = 16
+    manager = _make_pure_swa_manager(block_size, sliding_window=block_size)
+    assert type(manager.coordinator).__name__ == "UnitaryKVCacheCoordinator"
+
+    token_ids = [i for i in range(16) for _ in range(block_size)]
+    req = make_request("0", token_ids, block_size, sha256)
+    computed_blocks, _ = manager.get_computed_blocks(req)
+    blocks = manager.allocate_slots(
+        req,
+        len(token_ids),
+        len(computed_blocks.blocks[0]) * block_size,
+        computed_blocks,
+    )
+    assert blocks is not None
+
+    pool = manager.block_pool
+    cached = {
+        i
+        for i in range(16)
+        if pool.get_cached_block(req.block_hashes[i], kv_cache_group_ids=[0])
+        is not None
+    }
+    # per_segment = 64 / 16 = 4, need = cdiv(16-1, 16) = 1 -> segment tails at
+    # i%4==3 -> {3,7,11,15}; latest replay boundary (255//16*16 = 240) -> tail
+    # block 14. Crucially this is a strict subset of all 16 blocks: retention
+    # is actually sparse for pure SWA (not silently dense).
+    assert cached == {3, 7, 11, 14, 15}
+
+    # A replay of the same prompt hits the latest replayable boundary (240).
+    replay = make_request("1", token_ids, block_size, sha256)
+    _, num_computed = manager.get_computed_blocks(replay)
+    assert num_computed == 240
+
+
+def test_pure_swa_retention_latest_only(monkeypatch):
+    """`=0` on a pure-SWA model keeps only the latest replay tail."""
+    monkeypatch.setenv("VLLM_PREFIX_CACHE_RETENTION_INTERVAL", "0")
+    block_size = 16
+    manager = _make_pure_swa_manager(block_size, sliding_window=block_size)
+
+    token_ids = [i for i in range(16) for _ in range(block_size)]
+    req = make_request("0", token_ids, block_size, sha256)
+    computed_blocks, _ = manager.get_computed_blocks(req)
+    blocks = manager.allocate_slots(
+        req,
+        len(token_ids),
+        len(computed_blocks.blocks[0]) * block_size,
+        computed_blocks,
+    )
+    assert blocks is not None
+
+    pool = manager.block_pool
+    cached = {
+        i
+        for i in range(16)
+        if pool.get_cached_block(req.block_hashes[i], kv_cache_group_ids=[0])
+        is not None
+    }
+    # No segment tails (interval 0); only the latest replay tail (block 14).
+    assert cached == {14}
+
+    replay = make_request("1", token_ids, block_size, sha256)
+    _, num_computed = manager.get_computed_blocks(replay)
+    assert num_computed == 240
+
+
+def test_pure_swa_retention_dense_default_caches_all(monkeypatch):
+    """With retention unset, a pure-SWA model must keep the dense behavior:
+    every block boundary is a potential hit, so all blocks are cached."""
+    monkeypatch.delenv("VLLM_PREFIX_CACHE_RETENTION_INTERVAL", raising=False)
+    block_size = 16
+    manager = _make_pure_swa_manager(block_size, sliding_window=block_size)
+
+    token_ids = [i for i in range(16) for _ in range(block_size)]
+    req = make_request("0", token_ids, block_size, sha256)
+    computed_blocks, _ = manager.get_computed_blocks(req)
+    blocks = manager.allocate_slots(
+        req,
+        len(token_ids),
+        len(computed_blocks.blocks[0]) * block_size,
+        computed_blocks,
+    )
+    assert blocks is not None
+
+    pool = manager.block_pool
+    cached = {
+        i
+        for i in range(16)
+        if pool.get_cached_block(req.block_hashes[i], kv_cache_group_ids=[0])
+        is not None
+    }
+    assert cached == set(range(16))
diff --git a/tests/v1/determinism/test_rms_norm_batch_invariant.py b/tests/v1/determinism/test_rms_norm_batch_invariant.py
index 2e9f7788127..7fbf8f04610 100644
--- a/tests/v1/determinism/test_rms_norm_batch_invariant.py
+++ b/tests/v1/determinism/test_rms_norm_batch_invariant.py
@@ -11,7 +11,9 @@ import pytest
 import torch
 from utils import skip_unsupported
 
-from vllm.model_executor.layers.batch_invariant import rms_norm as triton_rms_norm
+from vllm.model_executor.layers.batch_invariant import (
+    rms_norm_batch_invariant,
+)
 from vllm.model_executor.layers.layernorm import RMSNorm
 from vllm.platforms import current_platform
 
@@ -51,7 +53,7 @@ def test_rms_norm_batch_invariant_vs_standard(
     standard_output = rms_norm_layer.forward_cuda(input_tensor)
 
     # Batch-invariant implementation (Triton)
-    triton_output = triton_rms_norm(input_tensor, weight, eps=eps)
+    triton_output = rms_norm_batch_invariant(input_tensor, weight, eps=eps)
 
     # Compare outputs
     # Use looser tolerance for bfloat16 due to its lower precision
@@ -125,7 +127,7 @@ def test_fused_add_rms_norm_batch_invariant_residual_path(
     )
 
     merged_single = x_single + residual_single
-    ref_out = triton_rms_norm(merged_single, weight, eps=eps)
+    ref_out = rms_norm_batch_invariant(merged_single, weight, eps=eps)
 
     torch.testing.assert_close(
         residual_out_single,
@@ -193,7 +195,7 @@ def test_rms_norm_3d_input(
     standard_output = rms_norm_layer.forward_cuda(input_tensor)
 
     # Batch-invariant implementation
-    triton_output = triton_rms_norm(input_tensor, weight, eps=eps)
+    triton_output = rms_norm_batch_invariant(input_tensor, weight, eps=eps)
 
     # Use looser tolerance for bfloat16
     rtol, atol = 1e-1, 1e-1  # 10% tolerance for bfloat16
@@ -242,7 +244,7 @@ def test_rms_norm_numerical_stability(default_vllm_config):
         standard_output = rms_norm_layer.forward_cuda(input_tensor)
 
         # Batch-invariant implementation
-        triton_output = triton_rms_norm(input_tensor, weight, eps=eps)
+        triton_output = rms_norm_batch_invariant(input_tensor, weight, eps=eps)
 
         # Check for NaN or Inf
         assert not torch.isnan(standard_output).any(), (
@@ -289,7 +291,7 @@ def test_rms_norm_formula(default_vllm_config):
     expected_output = input_tensor * torch.rsqrt(variance + eps) * weight
 
     # Batch-invariant implementation
-    triton_output = triton_rms_norm(input_tensor, weight, eps=eps)
+    triton_output = rms_norm_batch_invariant(input_tensor, weight, eps=eps)
 
     # Compare against formula
     torch.testing.assert_close(
@@ -325,7 +327,7 @@ def test_rms_norm_different_hidden_sizes(default_vllm_config, hidden_size: int):
     standard_output = rms_norm_layer.forward_cuda(input_tensor)
 
     # Batch-invariant implementation
-    triton_output = triton_rms_norm(input_tensor, weight, eps=eps)
+    triton_output = rms_norm_batch_invariant(input_tensor, weight, eps=eps)
 
     # Use looser tolerance for bfloat16
     rtol, atol = 1e-1, 1e-1  # 10% tolerance for bfloat16
@@ -360,7 +362,7 @@ def test_rms_norm_determinism(default_vllm_config):
     # Run multiple times
     outputs = []
     for _ in range(5):
-        output = triton_rms_norm(input_tensor.clone(), weight, eps=eps)
+        output = rms_norm_batch_invariant(input_tensor.clone(), weight, eps=eps)
         outputs.append(output)
 
     # All outputs should be identical
@@ -395,7 +397,7 @@ if __name__ == "__main__":
     standard_output = rms_norm_layer.forward_cuda(input_tensor)
 
     # Batch-invariant implementation
-    triton_output = triton_rms_norm(input_tensor, weight, eps=eps)
+    triton_output = rms_norm_batch_invariant(input_tensor, weight, eps=eps)
 
     # Compare
     max_diff = (triton_output - standard_output).abs().max().item()
diff --git a/tests/v1/kv_connector/unit/test_bidirectional_kv_transfer.py b/tests/v1/kv_connector/unit/test_bidirectional_kv_transfer.py
index dc76d61178d..ef092dfb49f 100644
--- a/tests/v1/kv_connector/unit/test_bidirectional_kv_transfer.py
+++ b/tests/v1/kv_connector/unit/test_bidirectional_kv_transfer.py
@@ -98,7 +98,6 @@ def _make_connector_with_fake_worker(
     )
     worker = connector.connector_worker
     assert isinstance(worker.nixl_wrapper, FakeNixlWrapper)
-    worker.nixl_wrapper.set_cycles_before_xfer_done(cycles_before_done)
     worker.kv_cache_layout = "HND"
     if do_handshake:
         remote_agents = worker._nixl_handshake(
diff --git a/tests/v1/kv_connector/unit/test_config.py b/tests/v1/kv_connector/unit/test_config.py
index 33c9abd09e6..019b8d1504a 100644
--- a/tests/v1/kv_connector/unit/test_config.py
+++ b/tests/v1/kv_connector/unit/test_config.py
@@ -6,25 +6,56 @@
 import pytest
 
 from vllm.config import CacheConfig, KVTransferConfig, ParallelConfig, VllmConfig
+from vllm.distributed.kv_transfer.kv_connector.factory import KVConnectorFactory
 
 pytestmark = pytest.mark.cpu_test
 
 
+class _StubLMCacheMPConnector:
+    """Stand-in for LMCacheMPConnector used in config-translation tests.
+
+    The real connector module hard-imports the optional ``lmcache`` package
+    at module load time, which is not installed in the cpu_test image. This
+    test only asserts on the connector *name* and the ``extra_config`` dict
+    produced by ``VllmConfig``, never instantiates the connector, so a bare
+    placeholder class is sufficient. Not subclassing ``SupportsHMA`` mirrors
+    the real connector's HMA support (it does not support HMA either)."""
+
+
+@pytest.fixture
+def stub_lmcache_mp_connector(monkeypatch):
+    """Replace the lazy loader so VllmConfig.__post_init__ does not import
+    ``lmcache_mp_connector`` (and thus ``lmcache``) during config tests."""
+    monkeypatch.setitem(
+        KVConnectorFactory._registry,
+        "LMCacheMPConnector",
+        lambda: _StubLMCacheMPConnector,
+    )
+
+
 @pytest.mark.parametrize(
     "kv_offloading_backend,kv_offloading_size,tp,pp,expected_backend,expected_bytes",
     [
         ("native", 4.0, 1, 1, "OffloadingConnector", 4.0 * (1 << 30)),
         # bytes per rank: 8.0 GiB / (2 * 2) = 2.0 GiB
         ("native", 8.0, 2, 2, "OffloadingConnector", 8.0 * (1 << 30)),
-        ("lmcache", 4.0, 1, 1, "LMCacheConnectorV1", 4.0),
-        # size per rank: 8.0 GiB / (2 * 2) = 2.0 GiB
-        ("lmcache", 8.0, 2, 2, "LMCacheConnectorV1", 2.0),
+        # ``lmcache`` backend now defaults to LMCacheMPConnector. The KV
+        # storage capacity is owned by the standalone LMCache server, so
+        # ``kv_offloading_size`` is intentionally not propagated.
+        ("lmcache", 4.0, 1, 1, "LMCacheMPConnector", None),
+        ("lmcache", 8.0, 2, 2, "LMCacheMPConnector", None),
         # When kv_offloading_size is None, offloading is disabled (backend is ignored)
         ("native", None, 1, 1, None, None),
     ],
 )
 def test_kv_connector(
-    kv_offloading_backend, kv_offloading_size, tp, pp, expected_backend, expected_bytes
+    stub_lmcache_mp_connector,
+    kv_offloading_backend,
+    kv_offloading_size,
+    tp,
+    pp,
+    expected_backend,
+    expected_bytes,
 ):
     kv_transfer_config = (
         KVTransferConfig(kv_connector_extra_config={"existing_key": "existing_value"})
@@ -59,10 +90,12 @@ def test_kv_connector(
         # Existing config should be preserved
         assert kv_connector_extra_config["existing_key"] == "existing_value"
     elif kv_offloading_backend == "lmcache":
-        assert kv_connector_extra_config["lmcache.local_cpu"] is True
-        assert kv_connector_extra_config["lmcache.max_local_cpu_size"] == expected_bytes
-        # Existing config should be replaced
-        assert "existing_key" not in kv_connector_extra_config
+        # MP mode does not push lmcache.local_cpu / max_local_cpu_size into
+        # extra config (the LMCache server owns capacity). Pre-existing
+        # extra config entries are preserved as-is.
+        assert "lmcache.local_cpu" not in kv_connector_extra_config
+        assert "lmcache.max_local_cpu_size" not in kv_connector_extra_config
+        assert kv_connector_extra_config["existing_key"] == "existing_value"
 
 
 def _build_config(
diff --git a/tests/v1/kv_connector/unit/test_nixl_connector.py b/tests/v1/kv_connector/unit/test_nixl_connector.py
index f07a8352e73..1a7c35cacb8 100644
--- a/tests/v1/kv_connector/unit/test_nixl_connector.py
+++ b/tests/v1/kv_connector/unit/test_nixl_connector.py
@@ -197,13 +197,6 @@ class FakeNixlWrapper:
     def get_xfer_telemetry(self, handle: int) -> dict:
         return get_default_xfer_telemetry()
 
-    ############################################################
-    # Follow are for changing the behavior during testing.
-    ############################################################
-
-    def set_cycles_before_xfer_done(self, cycles: int):
-        """Set the number of cycles before a transfer is considered done."""
-
 
 @contextlib.contextmanager
 def _make_fake_nixl_pkg():
@@ -578,10 +571,7 @@ class TestNixlHandshake:
         """Test case where multiple xfers are initiated to the same engine.
 
         This test triggers the connector to load remote KV for the same
-        `request_id`. The transfer is not done immediately due to
-        `set_cycles_before_xfer_done`, so there is a state where there are
-        multiple transfer states for the same `request_id`, and `get_finished`
-        should handle it correctly (wait for all transfers to be done).
+        `request_id`.
         """
         vllm_config = create_vllm_config()
 
@@ -598,7 +588,6 @@ class TestNixlHandshake:
         )
         assert isinstance(connector.connector_worker.nixl_wrapper, FakeNixlWrapper)
         worker = connector.connector_worker
-        worker.nixl_wrapper.set_cycles_before_xfer_done(3)
         # simulate handshake
         worker.dst_xfer_side_handles = {
             FakeNixlConnectorWorker.REMOTE_ENGINE_ID: {0: 1}
@@ -1304,7 +1293,6 @@ def test_scheduler_kv_connector_stats_aggregation():
     # Worker stats with transfer metrics
     worker_stats = NixlKVConnectorStats()
     worker_stats.record_transfer(get_default_xfer_telemetry())
-    worker_stats.data["remote_tokens"] = []
 
     # Scheduler stats with custom metric (needs dummy transfer to avoid being skipped)
     scheduler_stats = NixlKVConnectorStats()
@@ -1314,7 +1302,6 @@ def test_scheduler_kv_connector_stats_aggregation():
             "post_duration": [0],
             "bytes_transferred": [0],
             "num_descriptors": [0],
-            "remote_tokens": [128],
         }
     )
 
@@ -1355,7 +1342,6 @@ def test_scheduler_kv_connector_stats_aggregation():
     ).scheduler_stats.kv_connector_stats
     nixl_stats = final_stats["NixlConnector"]
     assert nixl_stats.num_successful_transfers == 2
-    assert nixl_stats.data["remote_tokens"] == [128]
 
 
 @pytest.mark.parametrize("distributed_executor_backend", ["ray", None])
diff --git a/tests/v1/kv_connector/unit/test_nixl_connector_hma.py b/tests/v1/kv_connector/unit/test_nixl_connector_hma.py
index 8d54353f82a..80088809469 100644
--- a/tests/v1/kv_connector/unit/test_nixl_connector_hma.py
+++ b/tests/v1/kv_connector/unit/test_nixl_connector_hma.py
@@ -275,6 +275,83 @@ def test_apply_prefix_caching_mamba_hybrid(
     )
 
 
+@pytest.mark.cpu_test
+@pytest.mark.parametrize(
+    "local_physical_per_logical,remote_physical_per_logical,"
+    "local_block_ids,remote_block_ids,"
+    "expected_local,expected_remote",
+    [
+        # SSM prefix caching: remote has 3 placeholder + 1 real block,
+        # local has only the 1 real block. FA blocks are equal (no trim).
+        pytest.param(
+            10,
+            10,
+            [list(range(10)), [42]],
+            [list(range(10)), [40, 41, 42, 43]],
+            [list(range(10)), [42]],
+            [list(range(10)), [43]],
+            id="ssm_prefix_trim_only",
+        ),
+        # FA partial prefix cache hit with homogeneous TP: local has 4 FA
+        # blocks (prefix cached), remote has full 10. SSM equal (no trim).
+        pytest.param(
+            10,
+            10,
+            [list(range(6, 10)), [42]],
+            [list(range(10)), [42]],
+            [list(range(6, 10)), [42]],
+            [list(range(6, 10)), [42]],
+            id="fa_prefix_hit_homo_tp",
+        ),
+        # Both: FA partial prefix hit + SSM placeholder trim.
+        # local FA=[6..9] (4 blocks, prefix cached), remote FA=[0..9]
+        # local SSM=[99], remote SSM=[10, 20, 99] (2 placeholders + real)
+        pytest.param(
+            10,
+            10,
+            [[6, 7, 8, 9], [99]],
+            [list(range(10)), [10, 20, 99]],
+            [[6, 7, 8, 9], [99]],
+            [[6, 7, 8, 9], [99]],
+            id="fa_prefix_hit_and_ssm_trim",
+        ),
+    ],
+)
+def test_apply_prefix_caching_ssm_prefix_cache_hit(
+    local_physical_per_logical,
+    remote_physical_per_logical,
+    local_block_ids,
+    remote_block_ids,
+    expected_local,
+    expected_remote,
+):
+    """_apply_prefix_caching end-trims SSM remote blocks to match the single
+    local block (placeholders dropped) and end-trims FA remote blocks on
+    partial prefix cache hits when physical_per_logical matches.
+    """
+    from vllm.distributed.kv_transfer.kv_connector.v1.nixl.worker import (
+        NixlConnectorWorker,
+    )
+    from vllm.v1.kv_cache_interface import FullAttentionSpec, MambaSpec
+
+    worker = object.__new__(NixlConnectorWorker)
+    worker._has_mamba = True
+    worker._physical_blocks_per_logical_kv_block = local_physical_per_logical
+    worker._group_spec_types = (FullAttentionSpec, MambaSpec)
+    worker.kv_cache_config = make_kv_cache_config(block_size=16, mamba_enabled=True)
+
+    aligned_local, aligned_remote = worker._apply_prefix_caching(
+        local_block_ids, remote_block_ids, remote_physical_per_logical
+    )
+
+    assert aligned_local == expected_local, (
+        f"Expected local {expected_local}, got {aligned_local}"
+    )
+    assert aligned_remote == expected_remote, (
+        f"Expected remote {expected_remote}, got {aligned_remote}"
+    )
+
+
 @pytest.mark.cpu_test
 @pytest.mark.parametrize(
     "local_physical_per_logical,remote_physical_per_logical,"
diff --git a/tests/v1/worker/test_gpu_model_runner.py b/tests/v1/worker/test_gpu_model_runner.py
index 1a1352249c3..9642bfd79f8 100644
--- a/tests/v1/worker/test_gpu_model_runner.py
+++ b/tests/v1/worker/test_gpu_model_runner.py
@@ -1072,8 +1072,8 @@ def test_init_kv_cache_with_kv_sharing_valid(default_vllm_config):
 
 
 @pytest.mark.skipif(
-    current_platform.is_rocm(),
-    reason="Attention backend FLASHINFER is not supported on ROCm.",
+    not current_platform.is_cuda(),
+    reason="Attention backend FLASHINFER is only supported on CUDA.",
 )
 def test_hybrid_attention_mamba_tensor_shapes():
     """
@@ -1508,8 +1508,8 @@ def test_is_uniform_decode() -> None:
 
 
 @pytest.mark.skipif(
-    current_platform.is_rocm(),
-    reason="Attention backend FLASHINFER is not supported on ROCm.",
+    not current_platform.is_cuda(),
+    reason="Attention backend FLASHINFER is only supported on CUDA.",
 )
 def test_mamba_cache_raises_when_max_num_seqs_exceeds_blocks():
     """Test that a ValueError is raised when max_num_seqs exceeds the
diff --git a/tools/pre_commit/generate_attention_backend_docs.py b/tools/pre_commit/generate_attention_backend_docs.py
index 1a93068537b..1f7150ce6a7 100644
--- a/tools/pre_commit/generate_attention_backend_docs.py
+++ b/tools/pre_commit/generate_attention_backend_docs.py
@@ -1562,7 +1562,9 @@ def generate_legend() -> str:
 
 
 def generate_mla_section(
-    prefill_backends: list[dict[str, Any]], decode_backends: list[dict[str, Any]]
+    prefill_backends: list[dict[str, Any]],
+    decode_backends: list[dict[str, Any]],
+    v4_decode_backends: list[dict[str, Any]] | None = None,
 ) -> str:
     """Generate the complete MLA section with prefill and decode tables."""
     lines = [
@@ -1611,6 +1613,22 @@ def generate_mla_section(
     columns = _build_columns(is_mla=True, has_versions=False)
     lines.extend(_render_table(columns, decode_backends))
 
+    if v4_decode_backends:
+        lines.extend(
+            [
+                "",
+                "### DeepSeek V4 Decode Backends",
+                "",
+                "DeepSeek V4 sparse MLA uses its own decode backends, selected via",
+                "`--attention-backend=<BACKEND>` (e.g., `FLASHMLA_SPARSE_DSV4`,",
+                "`FLASHINFER_MLA_SPARSE_DSV4`). They share the V4 sparse-index",
+                "pipeline (compressor + SWA + indexer, 256-token blocks, head 512);",
+                "default on NVIDIA is `FLASHMLA_SPARSE_DSV4`.",
+                "",
+            ]
+        )
+        lines.extend(_render_table(columns, v4_decode_backends))
+
     lines.append("")
     return "\n".join(lines)
 
@@ -1651,9 +1669,15 @@ def generate_docs() -> str:
     if fi_features:
         all_backends = _expand_flashinfer_variants(all_backends, fi_features)
 
-    # Split into MLA and non-MLA
-    mla_backends = [b for b in all_backends if b["is_mla"]]
-    non_mla_backends = [b for b in all_backends if not b["is_mla"]]
+    # DeepSeek V4 (*_DSV4) decode backends get their own subsection rather than
+    # mixing into the main MLA / standard tables (the ROCm V4 backend isn't
+    # flagged is_mla by the AST heuristic, so filter purely on the name).
+    def _is_v4(b: dict[str, Any]) -> bool:
+        return b["name"].endswith("_DSV4")
+
+    v4_decode_backends = [b for b in all_backends if _is_v4(b)]
+    mla_backends = [b for b in all_backends if b["is_mla"] and not _is_v4(b)]
+    non_mla_backends = [b for b in all_backends if not b["is_mla"] and not _is_v4(b)]
 
     # Generate documentation
     script_path = "tools/pre_commit/generate_attention_backend_docs.py"
@@ -1703,7 +1727,9 @@ def generate_docs() -> str:
         doc_lines.append("\n>\n".join(footnotes) + "\n")
 
     # Add MLA section with prefill and decode backends
-    doc_lines.append(generate_mla_section(mla_prefill_backends, mla_backends))
+    doc_lines.append(
+        generate_mla_section(mla_prefill_backends, mla_backends, v4_decode_backends)
+    )
 
     return "\n".join(doc_lines)
 
diff --git a/vllm/benchmarks/sweep/cli.py b/vllm/benchmarks/sweep/cli.py
index 75549105fa9..a30f2ab0182 100644
--- a/vllm/benchmarks/sweep/cli.py
+++ b/vllm/benchmarks/sweep/cli.py
@@ -2,7 +2,7 @@
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 import argparse
 
-from vllm.entrypoints.utils import VLLM_SUBCMD_PARSER_EPILOG
+from vllm.entrypoints.serve.utils.api_utils import VLLM_SUBCMD_PARSER_EPILOG
 
 from .plot import SweepPlotArgs
 from .plot import main as plot_main
diff --git a/vllm/compilation/passes/fusion/allreduce_rms_fusion.py b/vllm/compilation/passes/fusion/allreduce_rms_fusion.py
index 569fac667eb..324b0266b4d 100644
--- a/vllm/compilation/passes/fusion/allreduce_rms_fusion.py
+++ b/vllm/compilation/passes/fusion/allreduce_rms_fusion.py
@@ -44,6 +44,24 @@ from .matcher_utils import MatcherQuantFP8
 
 FP8_DTYPE = current_platform.fp8_dtype()
 
+_IR_RMS_NORM_OP = torch.ops.vllm_ir.rms_norm.default
+_IR_FUSED_ADD_RMS_NORM_OP = torch.ops.vllm_ir.fused_add_rms_norm.default
+
+
+def _norm_input_weight_dtype_match(match: pm.Match) -> bool:
+    """Prevent fusion when the norm input and weight dtypes differ (e.g. a Gemma
+    fp32 weight.float()+1 gamma), covering rms_norm and fused_add_rms_norm."""
+    for node in match.nodes:
+        if node.target == _IR_RMS_NORM_OP:
+            x, weight = node.args[0], node.args[1]
+        elif node.target == _IR_FUSED_ADD_RMS_NORM_OP:
+            x, weight = node.args[0], node.args[2]
+        else:
+            continue
+        if isinstance(x, fx.Node) and isinstance(weight, fx.Node):
+            return x.meta["val"].dtype == weight.meta["val"].dtype
+    return True
+
 
 # The empirical value for small batch
 PDL_ADVANCE_LAUNCH_TOKENS = 16
@@ -132,6 +150,7 @@ if flashinfer_comm is not None:
         quant_out: torch.Tensor | None = None,
         scale_out: torch.Tensor | None = None,
         scale_factor: torch.Tensor | None = None,
+        weight_bias: float = 0.0,
     ) -> None:
         num_tokens, hidden_size = allreduce_in.shape
         element_size = allreduce_in.element_size()
@@ -208,6 +227,7 @@ if flashinfer_comm is not None:
             layout_code=layout_code,
             use_oneshot=use_oneshot,
             fp32_acc=fp32_acc,
+            weight_bias=weight_bias,
             trigger_completion_at_end=num_tokens > PDL_ADVANCE_LAUNCH_TOKENS,
         )
 
@@ -225,6 +245,7 @@ if flashinfer_comm is not None:
         quant_out: torch.Tensor | None = None,
         scale_out: torch.Tensor | None = None,
         scale_factor: torch.Tensor | None = None,
+        weight_bias: float = 0.0,
     ) -> None:
         pass
 
@@ -399,14 +420,142 @@ class AllReduceFusedAddRMSNormPattern(BasePattern):
             # allreduce_in, residual
             return allreduce[1], allreduce[2]
 
+        # extra_check routes a Gemma fp32 gamma to AllReduceFusedAddGemmaRMSNormPattern.
         pm.register_replacement(
-            pattern, replacement, self.get_inputs(), pm.fwd_only, pm_pass
+            pattern,
+            replacement,
+            self.get_inputs(),
+            pm.fwd_only,
+            pm_pass,
+            extra_check=_norm_input_weight_dtype_match,
         )
 
         # Same pattern, but only return the output and not residual
         # (helpful for end of graph where residual is not used again)
         first_return_only = lambda fn: lambda a, b, c: fn(a, b, c)[0]
 
+        pm.register_replacement(
+            first_return_only(pattern),  # type: ignore[no-untyped-call]
+            first_return_only(replacement),  # type: ignore[no-untyped-call]
+            self.get_inputs(),
+            pm.fwd_only,
+            pm_pass,
+            extra_check=_norm_input_weight_dtype_match,
+        )
+
+
+class AllReduceGemmaRMSNormPattern(BasePattern):
+    """Gemma-style variant of AllReduceRMSNormPattern (no residual)."""
+
+    def __init__(
+        self,
+        epsilon: float,
+        dtype: torch.dtype,
+        device: str | None,
+        allreduce_params: FlashInferFusedAllReduceParams,
+    ) -> None:
+        super().__init__(dtype, device)
+        self.epsilon = epsilon
+        self.allreduce_params = allreduce_params
+
+    def get_inputs(self) -> list[torch.Tensor]:
+        return [self.empty(5, 16), self.empty(16)]
+
+    def register(self, pm_pass: PatternMatcherPass) -> None:
+        def pattern(
+            input: torch.Tensor, weight: torch.Tensor
+        ) -> tuple[torch.Tensor, torch.Tensor]:
+            allreduce_output = tensor_model_parallel_all_reduce(input)
+            rms = vllm.ir.ops.rms_norm(
+                allreduce_output, weight.float() + 1.0, self.epsilon
+            )
+            return rms, allreduce_output
+
+        def replacement(
+            input: torch.Tensor, weight: torch.Tensor
+        ) -> tuple[torch.Tensor, torch.Tensor]:
+            residual = torch.zeros_like(input)
+            rms_result = torch.empty_like(input)
+            assert flashinfer_comm is not None, "FlashInfer must be enabled"
+            allreduce = auto_functionalized(
+                flashinfer_trtllm_fused_allreduce_norm,
+                allreduce_in=input,
+                residual=residual,
+                norm_out=rms_result,
+                quant_out=None,
+                scale_out=None,
+                rms_gamma=weight,
+                rms_eps=self.epsilon,
+                pattern_code=flashinfer_comm.AllReduceFusionPattern.kARResidualRMSNorm,
+                weight_bias=1.0,
+                **self.allreduce_params.get_trtllm_fused_allreduce_kwargs(),
+            )
+            return allreduce[3], allreduce[1]
+
+        pm.register_replacement(
+            pattern,
+            replacement,
+            self.get_inputs(),
+            pm.fwd_only,
+            pm_pass,
+        )
+
+
+class AllReduceFusedAddGemmaRMSNormPattern(BasePattern):
+    """Gemma-style variant of AllReduceFusedAddRMSNormPattern (with residual)."""
+
+    def __init__(
+        self,
+        epsilon: float,
+        dtype: torch.dtype,
+        device: str | None,
+        allreduce_params: FlashInferFusedAllReduceParams,
+    ) -> None:
+        super().__init__(dtype, device)
+        self.epsilon = epsilon
+        self.allreduce_params = allreduce_params
+
+    def get_inputs(self) -> list[torch.Tensor]:
+        input = self.empty(5, 16)
+        residual = self.empty(5, 16)
+        weight = self.empty(16)
+        return [residual, input.to(self.dtype), weight]
+
+    def register(self, pm_pass: PatternMatcherPass) -> None:
+        def pattern(
+            residual: torch.Tensor, input: torch.Tensor, weight: torch.Tensor
+        ) -> tuple[torch.Tensor, torch.Tensor]:
+            allreduce_output = tensor_model_parallel_all_reduce(input)
+            rms, residual = vllm.ir.ops.fused_add_rms_norm(
+                allreduce_output, residual, weight.float() + 1.0, self.epsilon
+            )
+            return rms, residual
+
+        def replacement(
+            residual: torch.Tensor, input: torch.Tensor, weight: torch.Tensor
+        ) -> tuple[torch.Tensor, torch.Tensor]:
+            assert flashinfer_comm is not None, "FlashInfer must be enabled"
+            allreduce = auto_functionalized(
+                flashinfer_trtllm_fused_allreduce_norm,
+                allreduce_in=input,
+                residual=residual,
+                norm_out=None,
+                quant_out=None,
+                scale_out=None,
+                rms_gamma=weight,
+                rms_eps=self.epsilon,
+                pattern_code=flashinfer_comm.AllReduceFusionPattern.kARResidualRMSNorm,
+                weight_bias=1.0,
+                **self.allreduce_params.get_trtllm_fused_allreduce_kwargs(),
+            )
+            return allreduce[1], allreduce[2]
+
+        pm.register_replacement(
+            pattern, replacement, self.get_inputs(), pm.fwd_only, pm_pass
+        )
+
+        first_return_only = lambda fn: lambda a, b, c: fn(a, b, c)[0]
+
         pm.register_replacement(
             first_return_only(pattern),  # type: ignore[no-untyped-call]
             first_return_only(replacement),  # type: ignore[no-untyped-call]
@@ -881,6 +1030,18 @@ class AllReduceFusionPass(VllmPatternMatcherPass):
                 self.device,
                 self.allreduce_params,
             ).register(self.patterns)
+            AllReduceGemmaRMSNormPattern(
+                epsilon,
+                self.model_dtype,
+                self.device,
+                self.allreduce_params,
+            ).register(self.patterns)
+            AllReduceFusedAddGemmaRMSNormPattern(
+                epsilon,
+                self.model_dtype,
+                self.device,
+                self.allreduce_params,
+            ).register(self.patterns)
 
             # WARNING: This is a hack to clear the pattern matcher cache
             # and allow multiple values of epsilon.
diff --git a/vllm/compilation/passes/fusion/matcher_utils.py b/vllm/compilation/passes/fusion/matcher_utils.py
index 94ae2bfcb14..99b2892a770 100644
--- a/vllm/compilation/passes/fusion/matcher_utils.py
+++ b/vllm/compilation/passes/fusion/matcher_utils.py
@@ -36,10 +36,12 @@ QUANT_OPS: dict[QuantKey, OpOverload] = {
     kFp8StaticTensorSym: torch.ops._C.static_scaled_fp8_quant.default,  # noqa: E501
     kFp8DynamicTensorSym: torch.ops._C.dynamic_scaled_fp8_quant.default,  # noqa: E501
     kFp8DynamicTokenSym: torch.ops._C.dynamic_per_token_scaled_fp8_quant.default,  # noqa: E501
-    kFp8Dynamic128Sym: torch.ops._C.per_token_group_fp8_quant.default,  # noqa: E501
-    kFp8Dynamic64Sym: torch.ops._C.per_token_group_fp8_quant.default,  # noqa: E501
 }
 
+if hasattr(torch.ops._C, "per_token_group_fp8_quant"):
+    QUANT_OPS[kFp8Dynamic128Sym] = torch.ops._C.per_token_group_fp8_quant.default  # noqa: E501
+    QUANT_OPS[kFp8Dynamic64Sym] = torch.ops._C.per_token_group_fp8_quant.default  # noqa: E501
+
 if current_platform.is_cuda() and hasattr(torch.ops._C, "scaled_fp4_quant"):
     QUANT_OPS[kNvfp4Dynamic] = torch.ops._C.scaled_fp4_quant.out  # noqa: E501
 
diff --git a/vllm/compilation/passes/fusion/rms_quant_fusion.py b/vllm/compilation/passes/fusion/rms_quant_fusion.py
index c6a10078069..e85149a8793 100644
--- a/vllm/compilation/passes/fusion/rms_quant_fusion.py
+++ b/vllm/compilation/passes/fusion/rms_quant_fusion.py
@@ -84,9 +84,10 @@ QUANT_OPS: dict[QuantKey, OpOverload] = {
     kFp8StaticTensorSym: torch.ops._C.static_scaled_fp8_quant.default,  # noqa: E501
     kFp8DynamicTensorSym: torch.ops._C.dynamic_scaled_fp8_quant.default,  # noqa: E501
     kFp8DynamicTokenSym: torch.ops._C.dynamic_per_token_scaled_fp8_quant.default,  # noqa: E501
-    kFp8Dynamic128Sym: torch.ops._C.per_token_group_fp8_quant.default,  # noqa: E501
-    kFp8Dynamic64Sym: torch.ops._C.per_token_group_fp8_quant.default,  # noqa: E501
 }
+if hasattr(torch.ops._C, "per_token_group_fp8_quant"):
+    QUANT_OPS[kFp8Dynamic128Sym] = torch.ops._C.per_token_group_fp8_quant.default  # noqa: E501
+    QUANT_OPS[kFp8Dynamic64Sym] = torch.ops._C.per_token_group_fp8_quant.default  # noqa: E501
 if current_platform.is_cuda() and hasattr(torch.ops._C, "scaled_fp4_quant"):
     QUANT_OPS[kNvfp4Dynamic] = torch.ops._C.scaled_fp4_quant.out
 
diff --git a/vllm/config/parallel.py b/vllm/config/parallel.py
index f32ecef1482..f7fb8ec42a3 100644
--- a/vllm/config/parallel.py
+++ b/vllm/config/parallel.py
@@ -109,22 +109,24 @@ class EPLBConfig:
 class ParallelConfig:
     """Configuration for the distributed execution."""
 
-    pipeline_parallel_size: int = 1
+    pipeline_parallel_size: int = Field(default=1, ge=1)
     """Number of pipeline parallel groups."""
-    tensor_parallel_size: int = 1
+    tensor_parallel_size: int = Field(default=1, ge=1)
     """Number of tensor parallel groups."""
-    prefill_context_parallel_size: int = 1
+    prefill_context_parallel_size: int = Field(default=1, ge=1)
     """Number of prefill context parallel groups."""
-    data_parallel_size: int = 1
+    data_parallel_size: int = Field(default=1, ge=1)
     """Number of data parallel groups. MoE layers will be sharded according to
     the product of the tensor parallel size and data parallel size."""
-    data_parallel_size_local: int = 1
-    """Number of local data parallel groups."""
-    data_parallel_rank: int = 0
-    """Rank of the data parallel group."""
+    data_parallel_size_local: int = Field(default=1, ge=0)
+    """Number of local data parallel groups. A value of 0 is a sentinel used by
+    the engine-args layer to signal that data parallelism was specified
+    externally (see `ParallelConfig.__post_init__`)."""
+    data_parallel_rank: int = Field(default=0, ge=0)
+    """Rank of the data parallel group. The runtime check at
+    ``__post_init__`` further bounds this by ``data_parallel_size``."""
     data_parallel_rank_local: int | None = None
-    """Local rank of the data parallel group,
-    set only in SPMD mode."""
+    """Local rank of the data parallel group, set only in SPMD mode."""
     data_parallel_master_ip: str = "127.0.0.1"
     """IP of the data parallel master."""
     data_parallel_rpc_port: int = 29550
@@ -184,7 +186,7 @@ class ParallelConfig:
     - "flashinfer_nvlink_two_sided": Use flashinfer two-sided kernels for mnnvl
     - "flashinfer_nvlink_one_sided": Use flashinfer high-throughput a2a kernels"""
 
-    max_parallel_loading_workers: int | None = None
+    max_parallel_loading_workers: int | None = Field(default=None, ge=1)
     """Maximum number of parallel loading workers when loading model
     sequentially in multiple batches. To avoid RAM OOM when using tensor
     parallel and large models."""
@@ -197,15 +199,15 @@ class ParallelConfig:
 
     enable_dbo: bool = False
     """Enable dual batch overlap for the model executor."""
-    ubatch_size: int = 0
+    ubatch_size: int = Field(default=0, ge=0)
     """Number of ubatch size."""
 
-    dbo_decode_token_threshold: int = 32
+    dbo_decode_token_threshold: int = Field(default=32, ge=0)
     """The threshold for dual batch overlap for batches only containing decodes.
     If the number of tokens in the request is greater than this threshold,
     microbatching will be used. Otherwise, the request will be processed in a
     single batch."""
-    dbo_prefill_token_threshold: int = 512  # TODO(lucas): tune
+    dbo_prefill_token_threshold: int = Field(default=512, ge=0)  # TODO(lucas): tune
     """The threshold for dual batch overlap for batches that contain one or more
     prefills. If the number of tokens in the request is greater than this
     threshold, microbatching will be used. Otherwise, the request will be
@@ -260,10 +262,10 @@ class ParallelConfig:
     master_port: int = 29501
     """distributed master port for multi-node distributed 
     inference when distributed_executor_backend is mp."""
-    node_rank: int = 0
-    """distributed node rank for multi-node distributed 
+    node_rank: int = Field(default=0, ge=0)
+    """distributed node rank for multi-node distributed
     inference when distributed_executor_backend is mp."""
-    nnodes: int = 1
+    nnodes: int = Field(default=1, ge=1)
     """num of nodes for multi-node distributed
     inference when distributed_executor_backend is mp."""
     numa_bind: bool = False
@@ -318,7 +320,7 @@ class ParallelConfig:
     """Port of the coordination TCPStore. Can be set by the API server; workers
     connect as clients to exchange self-picked group ports at runtime."""
 
-    decode_context_parallel_size: int = 1
+    decode_context_parallel_size: int = Field(default=1, ge=1)
     """Number of decode context parallel groups, because the world size does
     not change by dcp, it simply reuse the GPUs of TP group, and tp_size
     needs to be divisible by dcp_size."""
diff --git a/vllm/config/vllm.py b/vllm/config/vllm.py
index e80df368b92..153228911ce 100644
--- a/vllm/config/vllm.py
+++ b/vllm/config/vllm.py
@@ -771,10 +771,6 @@ class VllmConfig:
         # If no KVTransferConfig is provided, create a default one.
         if self.kv_transfer_config is None:
             self.kv_transfer_config = KVTransferConfig()
-        num_kv_ranks = (
-            self.parallel_config.tensor_parallel_size
-            * self.parallel_config.pipeline_parallel_size
-        )
 
         if kv_offloading_backend == "native":
             if envs.VLLM_USE_SIMPLE_KV_OFFLOAD:
@@ -786,12 +782,12 @@ class VllmConfig:
                 {"cpu_bytes_to_use": kv_offloading_size * (1 << 30)}
             )
         elif kv_offloading_backend == "lmcache":
-            self.kv_transfer_config.kv_connector = "LMCacheConnectorV1"
-            kv_gb_per_rank = kv_offloading_size / num_kv_ranks
-            self.kv_transfer_config.kv_connector_extra_config = {
-                "lmcache.local_cpu": True,
-                "lmcache.max_local_cpu_size": kv_gb_per_rank,
-            }
+            # Default to LMCache multi-process (MP) mode. The actual KV
+            # storage capacity is managed by the standalone LMCache server
+            # process, so ``kv_offloading_size`` is not propagated here.
+            # ``LMCacheMPConnector`` falls back to ``tcp://localhost:5555``
+            # when host/port are not provided via extra_config.
+            self.kv_transfer_config.kv_connector = "LMCacheMPConnector"
 
         # This is the same for all backends
         self.kv_transfer_config.kv_role = "kv_both"
diff --git a/vllm/distributed/device_communicators/custom_all_reduce.py b/vllm/distributed/device_communicators/custom_all_reduce.py
index 65a19626468..c57cc74fc06 100644
--- a/vllm/distributed/device_communicators/custom_all_reduce.py
+++ b/vllm/distributed/device_communicators/custom_all_reduce.py
@@ -40,11 +40,7 @@ def _can_p2p(rank: int, world_size: int) -> bool:
     return True
 
 
-def is_weak_contiguous(inp: torch.Tensor):
-    return inp.is_contiguous() or (
-        inp.storage().nbytes() - inp.storage_offset() * inp.element_size()
-        == inp.numel() * inp.element_size()
-    )
+from vllm.distributed.utils import is_weak_contiguous  # noqa: E402
 
 
 class CustomAllreduce:
diff --git a/vllm/distributed/device_communicators/quick_all_reduce.py b/vllm/distributed/device_communicators/quick_all_reduce.py
index 9c9d39a91a9..8c7ee7452f1 100644
--- a/vllm/distributed/device_communicators/quick_all_reduce.py
+++ b/vllm/distributed/device_communicators/quick_all_reduce.py
@@ -24,11 +24,7 @@ except Exception:
     quick_ar = False
 
 
-def is_weak_contiguous(inp: torch.Tensor):
-    return inp.is_contiguous() or (
-        inp.storage().nbytes() - inp.storage_offset() * inp.element_size()
-        == inp.numel() * inp.element_size()
-    )
+from vllm.distributed.utils import is_weak_contiguous  # noqa: E402, F401
 
 
 class QuickReduceRegime(Enum):
diff --git a/vllm/distributed/elastic_ep/elastic_execute.py b/vllm/distributed/elastic_ep/elastic_execute.py
index 2cd6decb3a5..b08c17b141d 100644
--- a/vllm/distributed/elastic_ep/elastic_execute.py
+++ b/vllm/distributed/elastic_ep/elastic_execute.py
@@ -470,10 +470,14 @@ class ElasticEPScalingExecutor:
                     module._replace_quant_method(module.quant_method.old_quant_method)
             prepare_communication_buffer_for_model(self.worker.model_runner.model)
 
+        eplb_model_state.expert_buffer = [
+            torch.empty_like(w) for w in model.expert_weights[0]
+        ]
         eplb_model_state.communicator = create_eplb_communicator(
             group_coordinator=get_eplb_group(),
             backend=parallel_config.eplb_config.communicator,
-            expert_weights=model.expert_weights[0],
+            expert_weights=model.expert_weights,
+            expert_buffer=eplb_model_state.expert_buffer,
         )
 
         if (
diff --git a/vllm/distributed/eplb/async_worker.py b/vllm/distributed/eplb/async_worker.py
index 542606fe741..eb2ec260907 100644
--- a/vllm/distributed/eplb/async_worker.py
+++ b/vllm/distributed/eplb/async_worker.py
@@ -120,6 +120,7 @@ def transfer_run_periodically(
                     ep_group=eplb_group,
                     is_profile=is_profile,
                     cuda_stream=cuda_stream,
+                    layer_idx=layer_idx,
                 )
 
                 # Wait until all writes to expert_buffer have finished before making the
diff --git a/vllm/distributed/eplb/eplb_communicator.py b/vllm/distributed/eplb/eplb_communicator.py
index f8ee90b934f..9cccc05b2ce 100644
--- a/vllm/distributed/eplb/eplb_communicator.py
+++ b/vllm/distributed/eplb/eplb_communicator.py
@@ -30,6 +30,7 @@ from vllm.distributed.parallel_state import (
     is_local_first_rank,
 )
 from vllm.distributed.stateless_coordinator import StatelessGroupCoordinator
+from vllm.distributed.utils import is_weak_contiguous
 from vllm.logger import init_logger
 from vllm.platforms import current_platform
 
@@ -63,8 +64,22 @@ class EplbCommunicator(ABC):
         pass
 
     @abstractmethod
-    def execute(self, old_indices: np.ndarray | None = None) -> None:
-        pass
+    def execute(self) -> None:
+        """Complete all enqueued transfers.
+
+        Some backends perform communication here; others (e.g. NIXL)
+        issue transfers eagerly in add_recv and only wait here.
+        On return, all data is available in the destination buffers.
+        """
+
+    def set_transfer_context(  # noqa: B027
+        self, old_indices: np.ndarray, layer_idx: int
+    ) -> None:
+        """Pre-set layer context before add_recv calls.
+
+        Default is a no-op; overridden by backends (e.g. NIXL) that need
+        layer-level context to issue transfers inside add_recv.
+        """
 
     @property
     def needs_profile_buffer_reservation(self) -> bool:
@@ -125,7 +140,7 @@ class TorchDistNcclEplbCommunicator(EplbCommunicator):
                 )
             )
 
-    def execute(self, old_indices: np.ndarray | None = None) -> None:
+    def execute(self) -> None:
         if not self._p2p_ops:
             return
         try:
@@ -168,7 +183,7 @@ class TorchDistGlooStagedEplbCommunicator(EplbCommunicator):
         for tensor in tensors:
             self._ops.append(("recv", tensor, src_rank))
 
-    def execute(self, old_indices: np.ndarray | None = None) -> None:
+    def execute(self) -> None:
         if not self._ops:
             return
 
@@ -229,29 +244,47 @@ class NixlEplbCommunicator(EplbCommunicator):
     def __init__(
         self,
         cpu_group: ProcessGroup,
-        expert_weights: Sequence[torch.Tensor],
-        cuda_stream: torch.cuda.Stream | None = None,
+        all_expert_weights: Sequence[Sequence[torch.Tensor]],
+        expert_buffer: Sequence[torch.Tensor],
     ) -> None:
-        assert expert_weights, "NixlEplbCommunicator requires non-empty expert_weights."
+        assert all_expert_weights, (
+            "NixlEplbCommunicator requires non-empty all_expert_weights."
+        )
+        assert expert_buffer, "NixlEplbCommunicator requires non-empty expert_buffer."
         nixl_wrapper_cls = nixl_utils.NixlWrapper
         if nixl_wrapper_cls is None:
             raise RuntimeError("NIXL/ RIXL is unavailable.")
+
         self._cpu_group = cpu_group
-        self._cuda_stream = cuda_stream
         self._world_size = cpu_group.size()
         self._rank = cpu_group.rank()
-        # expert_id -> weight tensors to pack into the send buffer.
-        self._expert_send_map: dict[int, list[torch.Tensor]] = {}
-        # src_rank -> expert_id -> weight tensors to unpack after transfer.
-        self._recv_map: dict[int, dict[int, list[torch.Tensor]]] = {}
-        self._num_local_experts: int = expert_weights[0].shape[0]
-        self._device = expert_weights[0].device
-        for tensor in expert_weights:
-            assert tensor.device == self._device, (
-                "All local EPLB tensors are expected to be on the same device: "
-                f"expected={self._device}, got={tensor.device}"
+
+        self._all_expert_weights = all_expert_weights
+        self._expert_buffer = expert_buffer
+        self._num_local_experts: int = all_expert_weights[0][0].shape[0]
+        self._device = all_expert_weights[0][0].device
+
+        for layer_tensors in all_expert_weights:
+            for tensor in layer_tensors:
+                assert is_weak_contiguous(tensor), (
+                    "Expert weight tensors must be contiguous in memory"
+                )
+                assert tensor.device == self._device, (
+                    "All local EPLB tensors are expected to be on the same "
+                    f"device: expected={self._device}, got={tensor.device}"
+                )
+        for tensor in expert_buffer:
+            assert is_weak_contiguous(tensor), (
+                "expert_buffer tensors must be contiguous in memory"
             )
 
+        # (local_dlist, remote_dlist, xfer_handle) for in-flight READs;
+        # accumulated by add_recv, drained by execute.
+        self._xfer_entries: list[tuple[int, int, int]] = []
+        # Per-rank expert_id -> physical row; set by set_transfer_context.
+        self._expert_to_src_row: list[dict[int, int]] | None = None
+        self._layer_idx: int | None = None
+
         nixl_agent_config = nixl_utils.nixl_agent_config
         config = (
             nixl_agent_config(capture_telemetry=False)
@@ -260,15 +293,16 @@ class NixlEplbCommunicator(EplbCommunicator):
         )
         self._nixl_wrapper = nixl_wrapper_cls(self._make_agent_name(), config)
         self._nixl_memory_type = "VRAM"
-        self._registered_desc: object | None = None
+        # NIXL registration handles; deregistered in __del__.
+        self._registered_descs: list[object] = []
         self._remote_agents: dict[int, str] = {}
-        self._remote_send_meta: dict[int, tuple[int, int]] = {}
-        self._send_buffer: torch.Tensor = torch.empty(0)
-        self._recv_buffer: torch.Tensor = torch.empty(0)
-        self._expert_bytes: int = 0
+        # peer -> (layer, tensor) -> (base_ptr, bytes_per_expert, dev_id).
+        self._remote_send_meta: dict[
+            int, dict[tuple[int, int], tuple[int, int, int]]
+        ] = {}
 
         self._cuda_device_id = int(self._device.index or 0)
-        self._init_step("buffers", self._init_registered_buffers, expert_weights)
+        self._init_step("buffers", self._init_registered_buffers)
         self._init_step("agents", self._init_remote_agents)
         self._init_step("send meta", self._exchange_remote_send_meta)
         self._log_initialized()
@@ -291,19 +325,34 @@ class NixlEplbCommunicator(EplbCommunicator):
         uid = uuid.uuid4().hex[:8]
         return f"eplb-{self._rank}{pp_suffix}-{uid}"
 
+    def set_stream(self, cuda_stream: torch.cuda.Stream | None) -> None:
+        pass
+
     def add_send(
         self,
         tensors: list[torch.Tensor],
         dst_rank: int,
         expert_id: int,
     ) -> None:
-        assert dst_rank != self._rank, (
-            "EPLB communicator should not enqueue same-rank sends: "
-            f"rank={self._rank}, dst_rank={dst_rank}"
+        # No-op: NIXL READ is receiver-initiated. The sender's expert
+        # weights are pre-registered and always readable in-place.
+        pass
+
+    def set_transfer_context(self, old_indices: np.ndarray, layer_idx: int) -> None:
+        # Pre-compute expert_id -> src_row mapping for every rank so that
+        # add_recv can immediately issue NIXL READs.
+        assert not self._xfer_entries, (
+            f"set_transfer_context() called with {len(self._xfer_entries)} "
+            f"pending transfers from layer {self._layer_idx}; "
+            f"execute() was not called after previous add_recv() calls"
         )
-        # An expert sent to multiple peers is packed only once; skip duplicates.
-        if expert_id not in self._expert_send_map:
-            self._expert_send_map[expert_id] = tensors
+        self._layer_idx = layer_idx
+        n = self._num_local_experts
+        rank_experts = old_indices[: self._world_size * n].reshape(self._world_size, n)
+        self._expert_to_src_row = [
+            {int(eid): i for i, eid in enumerate(row) if eid != -1}
+            for row in rank_experts
+        ]
 
     def add_recv(
         self,
@@ -311,13 +360,44 @@ class NixlEplbCommunicator(EplbCommunicator):
         src_rank: int,
         expert_id: int,
     ) -> None:
-        assert src_rank != self._rank, (
-            "EPLB communicator should not enqueue same-rank recvs: "
-            f"rank={self._rank}, src_rank={src_rank}"
+        # Build NIXL descriptors and issue the RDMA READ immediately,
+        # overlapping the transfer with the remaining Python loop in
+        # move_to_buffer.
+        assert self._expert_to_src_row is not None and self._layer_idx is not None, (
+            "set_transfer_context() must be called before add_recv()"
         )
-        recv_experts = self._recv_map.setdefault(src_rank, {})
-        if expert_id not in recv_experts:
-            recv_experts[expert_id] = tensors
+        src_row = self._expert_to_src_row[src_rank][expert_id]
+        layer_idx = self._layer_idx
+
+        local_descs: list[tuple[int, int, int]] = []
+        remote_descs: list[tuple[int, int, int]] = []
+        for t_idx, t in enumerate(tensors):
+            send_base, send_stride, remote_dev = self._remote_send_meta[src_rank][
+                (layer_idx, t_idx)
+            ]
+            assert t.nbytes == send_stride, (
+                f"tensor {t_idx} size {t.nbytes} != remote stride {send_stride}"
+            )
+            local_descs.append(
+                (
+                    t.data_ptr(),
+                    t.nbytes,
+                    self._cuda_device_id,
+                )
+            )
+            remote_descs.append(
+                (
+                    send_base + src_row * send_stride,
+                    send_stride,
+                    remote_dev,
+                )
+            )
+
+        local_h, remote_h, xfer_h = self._create_peer_xfer(
+            src_rank, local_descs, remote_descs
+        )
+        self._nixl_wrapper.transfer(xfer_h)
+        self._xfer_entries.append((local_h, remote_h, xfer_h))
 
     def _init_remote_agents(self) -> None:
         local_metadata = self._nixl_wrapper.get_agent_metadata()
@@ -334,73 +414,60 @@ class NixlEplbCommunicator(EplbCommunicator):
                 peer_metadata
             )
 
-    def _init_registered_buffers(self, expert_weights: Sequence[torch.Tensor]) -> None:
-        total_bytes = max(sum(t.nbytes for t in expert_weights), 1)
-        assert total_bytes % self._num_local_experts == 0, (
-            f"Number of bytes in moe layer {total_bytes} is not divisible "
-            f"by number of local experts {self._num_local_experts}"
-        )
-        self._expert_bytes = total_bytes // self._num_local_experts
+    def _init_registered_buffers(self) -> None:
+        all_tensors: list[torch.Tensor] = []
+        for layer_tensors in self._all_expert_weights:
+            all_tensors.extend(layer_tensors)
+        all_tensors.extend(self._expert_buffer)
 
-        self._send_buffer = torch.empty(
-            total_bytes, device=self._device, dtype=torch.uint8
-        )
-        self._recv_buffer = torch.empty(
-            total_bytes, device=self._device, dtype=torch.uint8
-        )
-
-        descs = self._nixl_wrapper.get_reg_descs([self._send_buffer, self._recv_buffer])
+        descs = self._nixl_wrapper.get_reg_descs(all_tensors)
         self._nixl_wrapper.register_memory(descs)
-        self._registered_desc = descs
+        self._registered_descs.append(descs)
 
     def _exchange_remote_send_meta(self) -> None:
-        """Exchange send-buffer metadata so each rank can build dynamic
-        descriptors at execute time."""
-        local_meta: tuple[int, int] = (
-            self._send_buffer.data_ptr(),
-            self._cuda_device_id,
-        )
-        gathered_meta: list[tuple[int, int] | None] = [None] * self._world_size
+        """Exchange per-layer per-tensor metadata so receivers can compute
+        remote RDMA addresses at transfer time."""
+        local_meta: dict[tuple[int, int], tuple[int, int, int]] = {}
+        for layer_idx, layer_tensors in enumerate(self._all_expert_weights):
+            for t_idx, t in enumerate(layer_tensors):
+                nbytes_per_expert = t.nbytes // self._num_local_experts
+                local_meta[(layer_idx, t_idx)] = (
+                    t.data_ptr(),
+                    nbytes_per_expert,
+                    self._cuda_device_id,
+                )
+
+        # Per-rank map: (layer_idx, tensor_idx) -> (base_ptr, bytes_per_expert, dev_id).
+        # add_recv uses base_ptr + src_row * bytes_per_expert to compute
+        # the remote RDMA address for each expert.
+        gathered_meta: list[dict[tuple[int, int], tuple[int, int, int]] | None] = [
+            None
+        ] * self._world_size
         torch.distributed.all_gather_object(
             gathered_meta, local_meta, group=self._cpu_group
         )
 
+        local_keys = set(local_meta.keys())
         for peer in self._remote_agents:
             peer_meta = gathered_meta[peer]
             assert peer_meta is not None
+            peer_keys = set(peer_meta.keys())
+            if peer_keys != local_keys:
+                raise RuntimeError(
+                    f"NIXL EPLB metadata key mismatch with rank {peer}: "
+                    f"local={sorted(local_keys)}, peer={sorted(peer_keys)}"
+                )
+            for key in local_keys:
+                _, local_stride, _ = local_meta[key]
+                _, peer_stride, _ = peer_meta[key]
+                if local_stride != peer_stride:
+                    raise RuntimeError(
+                        f"NIXL EPLB nbytes_per_expert mismatch for {key} "
+                        f"with rank {peer}: "
+                        f"local={local_stride}, peer={peer_stride}"
+                    )
             self._remote_send_meta[peer] = peer_meta
 
-    @staticmethod
-    def _pack_send_buffer(
-        in_tensors: list[torch.Tensor],
-        send_buffer: torch.Tensor,
-        byte_offset: int,
-    ) -> None:
-        for tensor in in_tensors:
-            raw = tensor.reshape(-1).view(torch.uint8)
-            if raw.numel() == 0:
-                continue
-            send_buffer[byte_offset : byte_offset + raw.numel()].copy_(
-                raw, non_blocking=True
-            )
-            byte_offset += raw.numel()
-
-    @staticmethod
-    def _unpack_recv_buffer(
-        recv_buffer: torch.Tensor,
-        out_tensors: list[torch.Tensor],
-        byte_offset: int,
-    ) -> None:
-        for tensor in out_tensors:
-            num_bytes = tensor.numel() * tensor.element_size()
-            if num_bytes == 0:
-                continue
-            tensor.reshape(-1).view(torch.uint8).copy_(
-                recv_buffer[byte_offset : byte_offset + num_bytes],
-                non_blocking=True,
-            )
-            byte_offset += num_bytes
-
     def _wait_for_all_transfers(self, handles: list[int]) -> None:
         pending = set(handles)
         while pending:
@@ -456,110 +523,52 @@ class NixlEplbCommunicator(EplbCommunicator):
         )
         return (local_handle, remote_handle, xfer_handle)
 
-    def execute(self, old_indices: np.ndarray | None = None) -> None:
-        assert old_indices is not None, (
-            "NixlEplbCommunicator.execute requires old_indices"
+    def execute(self) -> None:
+        assert self._layer_idx is not None or not self._xfer_entries, (
+            "set_transfer_context() must be called before execute() "
+            "if any add_recv() calls were made"
         )
-
-        xfer_entries: list[tuple[int, int, int]] = []
         try:
-            n = self._num_local_experts
-            rank_experts = old_indices[: self._world_size * n].reshape(
-                self._world_size, n
-            )
-            # Build expert_id -> send slot mapping per rank.
-            expert_to_send_slot: list[dict[int, int]] = [
-                {int(eid): i for i, eid in enumerate(row) if eid != -1}
-                for row in rank_experts
-            ]
+            self._wait_for_all_transfers([x[2] for x in self._xfer_entries])
 
-            # Phase 1: pack each expert at its slot offset in the send buffer.
-            with torch.cuda.stream(self._cuda_stream):
-                for expert_id, tensors in self._expert_send_map.items():
-                    slot = expert_to_send_slot[self._rank][expert_id]
-                    byte_offset = slot * self._expert_bytes
-                    self._pack_send_buffer(tensors, self._send_buffer, byte_offset)
-
-            # Ensure all packed data is visible in device memory before pulls.
-            if self._cuda_stream is not None:
-                self._cuda_stream.synchronize()
-            else:
-                torch.cuda.current_stream().synchronize()
-            # READ is receiver-initiated; synchronize all ranks before transfer.
-            # We use monitored_barrier so a rank that crashes or exits early
-            # produces a diagnostic timeout instead of a silent hang.
+            # Post-READ barrier.
+            # Correctness fence for zero-copy: prevents overwrite-while-
+            # remote-read race.
             torch.distributed.monitored_barrier(
                 group=self._cpu_group,
                 timeout=timedelta(minutes=5),
             )
-
-            # Phase 2: issue one batched READ per peer.
-            recv_offsets: dict[tuple[int, int], int] = {}
-            recv_offset = 0
-            recv_base = self._recv_buffer.data_ptr()
-            for src in range(self._world_size):
-                if src == self._rank:
-                    continue
-                recv_experts = self._recv_map.get(src)
-                if not recv_experts:
-                    continue
-                expert_ids = list(recv_experts.keys())
-                remote_base, remote_dev = self._remote_send_meta[src]
-                local_descs: list[tuple[int, int, int]] = []
-                remote_descs: list[tuple[int, int, int]] = []
-                for expert_id in expert_ids:
-                    slot = expert_to_send_slot[src][expert_id]
-                    remote_off = slot * self._expert_bytes
-                    recv_offsets[(src, expert_id)] = recv_offset
-                    local_descs.append(
-                        (
-                            recv_base + recv_offset,
-                            self._expert_bytes,
-                            self._cuda_device_id,
-                        )
-                    )
-                    remote_descs.append(
-                        (remote_base + remote_off, self._expert_bytes, remote_dev)
-                    )
-                    recv_offset += self._expert_bytes
-                    assert recv_offset <= self._recv_buffer.nbytes
-                local_h, remote_h, xfer_h = self._create_peer_xfer(
-                    src, local_descs, remote_descs
-                )
-                self._nixl_wrapper.transfer(xfer_h)
-                xfer_entries.append((local_h, remote_h, xfer_h))
-
-            # Phase 3: wait for all in-flight transfers, then unpack.
-            self._wait_for_all_transfers([x[2] for x in xfer_entries])
-
-            with torch.cuda.stream(self._cuda_stream):
-                for (src, expert_id), offset in recv_offsets.items():
-                    self._unpack_recv_buffer(
-                        self._recv_buffer,
-                        self._recv_map[src][expert_id],
-                        offset,
-                    )
         finally:
-            for local_h, remote_h, xfer_h in xfer_entries:
+            for local_h, remote_h, xfer_h in self._xfer_entries:
                 with contextlib.suppress(Exception):
                     self._nixl_wrapper.release_xfer_handle(xfer_h)
                 with contextlib.suppress(Exception):
                     self._nixl_wrapper.release_dlist_handle(local_h)
                 with contextlib.suppress(Exception):
                     self._nixl_wrapper.release_dlist_handle(remote_h)
-            self._expert_send_map.clear()
-            self._recv_map.clear()
+            self._xfer_entries.clear()
+            self._expert_to_src_row = None
+            self._layer_idx = None
 
     def __del__(self) -> None:
-        try:
-            if self._registered_desc is not None:
-                self._nixl_wrapper.deregister_memory(self._registered_desc)
-                self._registered_desc = None
+        with contextlib.suppress(Exception):
+            for local_h, remote_h, xfer_h in self._xfer_entries:
+                with contextlib.suppress(Exception):
+                    self._nixl_wrapper.release_xfer_handle(xfer_h)
+                with contextlib.suppress(Exception):
+                    self._nixl_wrapper.release_dlist_handle(local_h)
+                with contextlib.suppress(Exception):
+                    self._nixl_wrapper.release_dlist_handle(remote_h)
+        with contextlib.suppress(Exception):
+            for descs in self._registered_descs:
+                with contextlib.suppress(Exception):
+                    self._nixl_wrapper.deregister_memory(descs)
+            self._registered_descs.clear()
+        with contextlib.suppress(Exception):
             for agent_name in self._remote_agents.values():
-                self._nixl_wrapper.remove_remote_agent(agent_name)
+                with contextlib.suppress(Exception):
+                    self._nixl_wrapper.remove_remote_agent(agent_name)
             self._remote_agents.clear()
-        except Exception as e:
-            logger.warning("Error during NixlEplbCommunicator cleanup: %s", e)
 
 
 class PyNcclEplbCommunicator(EplbCommunicator):
@@ -600,7 +609,7 @@ class PyNcclEplbCommunicator(EplbCommunicator):
         for tensor in tensors:
             self._pynccl_comm.recv(tensor, src_rank, stream=self._cuda_stream)
 
-    def execute(self, old_indices: np.ndarray | None = None) -> None:
+    def execute(self) -> None:
         if self._group_started:
             self._pynccl_comm.group_end()
             self._group_started = False
@@ -609,7 +618,8 @@ class PyNcclEplbCommunicator(EplbCommunicator):
 def create_eplb_communicator(
     group_coordinator: GroupCoordinator,
     backend: str | None,
-    expert_weights: Sequence[torch.Tensor],
+    expert_weights: Sequence[Sequence[torch.Tensor]],
+    expert_buffer: Sequence[torch.Tensor],
 ) -> EplbCommunicator:
     """Create an EPLB communicator for the given backend.
 
@@ -624,16 +634,18 @@ def create_eplb_communicator(
             ``"pynccl"`` in that case.  When tensors reside on CPU,
             ``"torch_gloo"`` or ``"torch_nccl"`` are used via the CPU
             process group.
-        expert_weights: Expert weight tensors from *one* MoE layer.
-            NixlEplbCommunicator pre-allocates send/recv buffers sized
-            to this layer, so all other MoE layers must have the same
-            tensor count, shapes, and dtypes.
+        expert_weights: Expert weight tensors for *all* MoE layers.
+            Shape ``(num_layers)(num_tensors_per_layer)``.
+            NixlEplbCommunicator registers all layers with NIXL for
+            zero-copy RDMA reads.
+        expert_buffer: Pre-allocated receive buffer tensors (one per
+            weight tensor in a single layer).
     """
-    # Keep a safe default for callers that have not resolved communicator yet.
     if backend is None:
         backend = "torch_nccl"
 
-    tensor_device_type = expert_weights[0].device.type if expert_weights else "cpu"
+    first_layer = expert_weights[0] if expert_weights else []
+    tensor_device_type = first_layer[0].device.type if first_layer else "cpu"
     torch_group = (
         group_coordinator.cpu_group
         if tensor_device_type == "cpu"
@@ -649,7 +661,7 @@ def create_eplb_communicator(
         unsupported_dtypes = sorted(
             {
                 tensor.dtype
-                for tensor in expert_weights
+                for tensor in first_layer
                 if not ncclDataTypeEnum.supports_torch_dtype(tensor.dtype)
             },
             key=str,
@@ -704,7 +716,8 @@ def create_eplb_communicator(
         try:
             return NixlEplbCommunicator(
                 cpu_group=group_coordinator.cpu_group,
-                expert_weights=expert_weights,
+                all_expert_weights=expert_weights,
+                expert_buffer=expert_buffer,
             )
         except Exception as exc:
             raise RuntimeError(
diff --git a/vllm/distributed/eplb/eplb_state.py b/vllm/distributed/eplb/eplb_state.py
index 319a5f22c92..2ad4aa9e779 100644
--- a/vllm/distributed/eplb/eplb_state.py
+++ b/vllm/distributed/eplb/eplb_state.py
@@ -450,7 +450,8 @@ class EplbState:
         communicator = create_eplb_communicator(
             group_coordinator=get_eplb_group(),
             backend=self.parallel_config.eplb_config.communicator,
-            expert_weights=model.expert_weights[0],
+            expert_weights=model.expert_weights,
+            expert_buffer=expert_buffer,
         )
 
         model_state = EplbModelState(
@@ -766,6 +767,7 @@ class EplbState:
                     eplb_model_state.physical_to_logical_map,
                     new_physical_to_logical_map,
                     eplb_model_state.model.expert_weights,
+                    eplb_model_state.expert_buffer,
                     ep_group,
                     eplb_model_state.communicator,
                     is_profile,
diff --git a/vllm/distributed/eplb/rebalance_execute.py b/vllm/distributed/eplb/rebalance_execute.py
index 50b7013295c..53b0356dcd8 100644
--- a/vllm/distributed/eplb/rebalance_execute.py
+++ b/vllm/distributed/eplb/rebalance_execute.py
@@ -178,6 +178,7 @@ def move_to_buffer(
     cuda_stream: torch.cuda.Stream | None,
     ep_rank: int,
     communicator: EplbCommunicator,
+    layer_idx: int = 0,
 ) -> TransferMetadata:
     """
     Rearranges expert weights during EPLB rebalancing.
@@ -193,6 +194,7 @@ def move_to_buffer(
         cuda_stream: CUDA stream for async copies (can be None for sync mode).
         ep_rank: Rank of this process in expert parallel group.
         communicator: EplbCommunicator instance for P2P communication.
+        layer_idx: Index of the MoE layer being transferred.
 
     Returns:
         TransferMetadata: Metadata needed for completing remote weight transfers.
@@ -265,6 +267,8 @@ def move_to_buffer(
                     for w, b in zip(expert_weights, expert_weights_buffers):
                         b[dst].copy_(w[src_local], non_blocking=True)
 
+    communicator.set_transfer_context(old_indices, layer_idx)
+
     # 2. Post sends
     if send_count > 0:
         experts = send_expert_ids[:send_count]
@@ -331,9 +335,8 @@ def move_to_buffer(
                 expert_id=int(expert),
             )
 
-    # 4. Execute the P2P operations. The real communication happens here.
-    communicator.execute(old_indices=old_indices)
-    # wait for the communication to finish
+    # 4. Execute transfers and wait for completion.
+    communicator.execute()
     return TransferMetadata(
         is_unchanged=is_unchanged,
         is_received_locally=is_received_locally,
@@ -431,6 +434,7 @@ def transfer_layer(
     is_profile: bool = False,
     cuda_stream: torch.cuda.Stream | None = None,
     rank_mapping: dict[int, int] | None = None,
+    layer_idx: int = 0,
 ) -> TransferMetadata:
     """
     Rearranges the expert weights in place according to the new expert indices.
@@ -452,6 +456,7 @@ def transfer_layer(
             communications to reserve enough memory for the buffers.
         cuda_stream: CUDA stream for async copies (can be None for sync mode).
         rank_mapping: Optional rank mapping for elastic expert parallelism.
+        layer_idx: Index of the MoE layer being transferred.
 
     Returns:
         TransferMetadata: Metadata needed for completing remote weight transfers,
@@ -499,6 +504,7 @@ def transfer_layer(
         cuda_stream=cuda_stream,
         ep_rank=ep_group.rank(),
         communicator=communicator,
+        layer_idx=layer_idx,
     )
 
 
@@ -506,6 +512,7 @@ def rearrange_expert_weights_inplace(
     old_global_expert_indices: torch.Tensor,
     new_global_expert_indices: torch.Tensor,
     expert_weights: Sequence[Sequence[torch.Tensor]],
+    expert_buffer: Sequence[torch.Tensor],
     ep_group: ProcessGroup,
     communicator: EplbCommunicator,
     is_profile: bool = False,
@@ -524,6 +531,8 @@ def rearrange_expert_weights_inplace(
             of tensors of shape (num_local_physical_experts, hidden_size_i).
             For example, a linear layer may have up and down projection,
             so weight_count = 2. Each weight's hidden size can be different.
+        expert_buffer: Pre-allocated receive buffer tensors (one per
+            weight tensor in a single layer).
         ep_group: The device process group for expert parallelism.
         communicator: EplbCommunicator instance for P2P communication.
         is_profile (bool): If `True`, do not perform any actual weight copy.
@@ -566,10 +575,10 @@ def rearrange_expert_weights_inplace(
             # Reserve NCCL communication buffers via a dummy all_gather.
             # Backends that pre-allocate their own transfer buffers
             # skip this to avoid the extra memory spike during profiling.
-            weights_buffer: list[torch.Tensor] = [
+            profile_buffer: list[torch.Tensor] = [
                 torch.empty_like(w) for w in first_layer_weights
             ]
-            for weight, buffer in zip(expert_weights[0], weights_buffer):
+            for weight, buffer in zip(expert_weights[0], profile_buffer):
                 dummy_recv_buffer = [buffer for _ in range(ep_size)]
                 torch.distributed.barrier()
                 all_gather(
@@ -579,10 +588,7 @@ def rearrange_expert_weights_inplace(
                 )
         return
 
-    # Buffers to hold the expert weights during the exchange.
-    # NOTE: Currently we assume the same weights across different layers
-    # have the same shape.
-    weights_buffer = [torch.empty_like(w) for w in first_layer_weights]
+    weights_buffer = list(expert_buffer)
 
     old_global_expert_indices_cpu = old_global_expert_indices.cpu().numpy()
     new_global_expert_indices_cpu = new_global_expert_indices.cpu().numpy()
@@ -597,6 +603,7 @@ def rearrange_expert_weights_inplace(
             cuda_stream=None,
             ep_rank=ep_rank,
             communicator=communicator,
+            layer_idx=layer_idx,
         )
 
         move_from_buffer(
diff --git a/vllm/distributed/kv_transfer/kv_connector/utils.py b/vllm/distributed/kv_transfer/kv_connector/utils.py
index d7a595716f0..fafc1f45724 100644
--- a/vllm/distributed/kv_transfer/kv_connector/utils.py
+++ b/vllm/distributed/kv_transfer/kv_connector/utils.py
@@ -120,15 +120,12 @@ class KVOutputAggregator:
                 # Use the first worker's kv_connector_stats as accumulator.
                 aggregated_kv_connector_stats = kv_output.kv_connector_stats
             elif kv_connector_stats := kv_output.kv_connector_stats:
-                if aggregated_kv_connector_stats is None:
-                    aggregated_kv_connector_stats = kv_connector_stats
-                else:
-                    assert isinstance(
-                        aggregated_kv_connector_stats, type(kv_connector_stats)
-                    )
-                    aggregated_kv_connector_stats = (
-                        aggregated_kv_connector_stats.aggregate(kv_connector_stats)
-                    )
+                assert isinstance(
+                    aggregated_kv_connector_stats, type(kv_connector_stats)
+                )
+                aggregated_kv_connector_stats = aggregated_kv_connector_stats.aggregate(
+                    kv_connector_stats
+                )
 
             # Aggregate kv_connector_worker_meta from all workers.
             if aggregated_kv_connector_worker_meta is None:
diff --git a/vllm/distributed/kv_transfer/kv_connector/v1/nixl/worker.py b/vllm/distributed/kv_transfer/kv_connector/v1/nixl/worker.py
index 0d30d4a692a..a297058c845 100644
--- a/vllm/distributed/kv_transfer/kv_connector/v1/nixl/worker.py
+++ b/vllm/distributed/kv_transfer/kv_connector/v1/nixl/worker.py
@@ -2333,9 +2333,25 @@ class NixlConnectorWorker:
             for i, remote_group in enumerate(remote_block_ids):
                 num_local_blocks = len(local_block_ids[i])
                 num_remote_blocks = len(remote_group)
-                if _is_ssm_spec(self._group_spec_types[i]):
-                    assert num_local_blocks == num_remote_blocks
+                if (
+                    _is_ssm_spec(self._group_spec_types[i])
+                    and num_local_blocks < num_remote_blocks
+                ):
+                    # NOTE (NickLucche): With prefix caching on SSM, (remote) blocks
+                    # prior to the last one are placeholders (null blocks). Mind that
+                    # this doesn't really impact transfer, as we only still care about
+                    # the last "block", the full in-place state.
+                    assert num_local_blocks == 1, "SSM can only have one local block"
+                    remote_block_ids[i] = remote_group[-num_local_blocks:]
+                elif (
+                    self._physical_blocks_per_logical_kv_block
+                    == remote_physical_per_logical
+                    and num_local_blocks < num_remote_blocks
+                ):
+                    # Partial prefix cache hit for FA group.
+                    remote_block_ids[i] = remote_group[-num_local_blocks:]
                 else:
+                    # TODO Handle prefix caching with different block_sizes
                     max_padding = max(
                         self._physical_blocks_per_logical_kv_block,
                         remote_physical_per_logical,
diff --git a/vllm/distributed/parallel_state.py b/vllm/distributed/parallel_state.py
index 331e0684e32..8775e519d99 100644
--- a/vllm/distributed/parallel_state.py
+++ b/vllm/distributed/parallel_state.py
@@ -1270,9 +1270,6 @@ def get_dcp_group() -> GroupCoordinator:
     return _DCP
 
 
-# kept for backward compatibility
-get_context_model_parallel_group = get_dcp_group
-
 _PP: GroupCoordinator | None = None
 
 
@@ -1840,31 +1837,6 @@ def model_parallel_is_initialized():
 _TP_STATE_PATCHED = False
 
 
-@contextmanager
-def patch_tensor_parallel_group(tp_group: GroupCoordinator):
-    """Patch the tp group temporarily until this function ends.
-
-    This method is for draft workers of speculative decoding to run draft model
-    with different tp degree from that of target model workers.
-
-    Args:
-        tp_group (GroupCoordinator): the tp group coordinator
-    """
-    global _TP_STATE_PATCHED
-    assert not _TP_STATE_PATCHED, "Should not call when it's already patched"
-
-    _TP_STATE_PATCHED = True
-    old_tp_group = get_tp_group()
-    global _TP
-    _TP = tp_group
-    try:
-        yield
-    finally:
-        # restore the original state
-        _TP_STATE_PATCHED = False
-        _TP = old_tp_group
-
-
 def get_tensor_model_parallel_world_size() -> int:
     """Return world size for the tensor model parallel group."""
     return get_tp_group().world_size
@@ -1875,16 +1847,6 @@ def get_tensor_model_parallel_rank() -> int:
     return get_tp_group().rank_in_group
 
 
-def get_decode_context_model_parallel_world_size() -> int:
-    """Return world size for the decode context model parallel group."""
-    return get_dcp_group().world_size
-
-
-def get_decode_context_model_parallel_rank() -> int:
-    """Return my rank for the decode context model parallel group."""
-    return get_dcp_group().rank_in_group
-
-
 def get_node_count() -> int:
     """Return the total number of nodes in the distributed environment."""
     assert _NODE_COUNT is not None, "distributed environment is not initialized"
diff --git a/vllm/distributed/utils.py b/vllm/distributed/utils.py
index ba0419a2800..1e38794603c 100644
--- a/vllm/distributed/utils.py
+++ b/vllm/distributed/utils.py
@@ -64,6 +64,20 @@ def divide(numerator, denominator):
     return numerator // denominator
 
 
+def is_weak_contiguous(inp: torch.Tensor) -> bool:
+    """Check that *inp* occupies a single contiguous block of memory.
+
+    Unlike ``torch.Tensor.is_contiguous()``, this also accepts tensors
+    whose strides are not strictly C-contiguous (e.g. column-major) as
+    long as the underlying storage from the tensor's offset onward is
+    exactly ``numel * element_size`` bytes.
+    """
+    return inp.is_contiguous() or (
+        inp.storage().nbytes() - inp.storage_offset() * inp.element_size()
+        == inp.numel() * inp.element_size()
+    )
+
+
 def split_tensor_along_last_dim(
     tensor: torch.Tensor,
     num_partitions: int,
diff --git a/vllm/entrypoints/anthropic/api_router.py b/vllm/entrypoints/anthropic/api_router.py
index 1fe2be89962..50a8dae9ec7 100644
--- a/vllm/entrypoints/anthropic/api_router.py
+++ b/vllm/entrypoints/anthropic/api_router.py
@@ -17,9 +17,9 @@ from vllm.entrypoints.anthropic.protocol import (
 )
 from vllm.entrypoints.anthropic.serving import AnthropicServingMessages
 from vllm.entrypoints.openai.engine.protocol import ErrorResponse
-from vllm.entrypoints.openai.utils import validate_json_request
-from vllm.entrypoints.utils import (
+from vllm.entrypoints.serve.utils.api_utils import (
     load_aware_call,
+    validate_json_request,
     with_cancellation,
 )
 from vllm.logger import init_logger
diff --git a/vllm/entrypoints/anthropic/serving.py b/vllm/entrypoints/anthropic/serving.py
index 2bdec6f4ec3..806261b597b 100644
--- a/vllm/entrypoints/anthropic/serving.py
+++ b/vllm/entrypoints/anthropic/serving.py
@@ -29,7 +29,6 @@ from vllm.entrypoints.anthropic.protocol import (
     AnthropicUsage,
 )
 from vllm.entrypoints.chat_utils import ChatTemplateContentFormatOption
-from vllm.entrypoints.logger import RequestLogger
 from vllm.entrypoints.openai.chat_completion.protocol import (
     ChatCompletionNamedToolChoiceParam,
     ChatCompletionRequest,
@@ -45,6 +44,7 @@ from vllm.entrypoints.openai.engine.protocol import (
     StreamOptions,
 )
 from vllm.entrypoints.openai.models.serving import OpenAIServingModels
+from vllm.entrypoints.serve.utils.request_logger import RequestLogger
 
 if TYPE_CHECKING:
     from vllm.entrypoints.serve.render.serving import OpenAIServingRender
diff --git a/vllm/entrypoints/api_server.py b/vllm/entrypoints/api_server.py
index 7512723515e..f950b52d881 100644
--- a/vllm/entrypoints/api_server.py
+++ b/vllm/entrypoints/api_server.py
@@ -22,7 +22,7 @@ import vllm.envs as envs
 from vllm.engine.arg_utils import AsyncEngineArgs
 from vllm.engine.async_llm_engine import AsyncLLMEngine
 from vllm.entrypoints.launcher import serve_http
-from vllm.entrypoints.utils import with_cancellation
+from vllm.entrypoints.serve.utils.api_utils import with_cancellation
 from vllm.logger import init_logger
 from vllm.sampling_params import SamplingParams
 from vllm.usage.usage_lib import UsageContext
diff --git a/vllm/entrypoints/cli/benchmark/main.py b/vllm/entrypoints/cli/benchmark/main.py
index f64de4cf673..1afac64b148 100644
--- a/vllm/entrypoints/cli/benchmark/main.py
+++ b/vllm/entrypoints/cli/benchmark/main.py
@@ -7,7 +7,7 @@ import typing
 
 from vllm.entrypoints.cli.benchmark.base import BenchmarkSubcommandBase
 from vllm.entrypoints.cli.types import CLISubcommand
-from vllm.entrypoints.utils import VLLM_SUBCMD_PARSER_EPILOG
+from vllm.entrypoints.serve.utils.api_utils import VLLM_SUBCMD_PARSER_EPILOG
 
 if typing.TYPE_CHECKING:
     from vllm.utils.argparse_utils import FlexibleArgumentParser
diff --git a/vllm/entrypoints/cli/launch.py b/vllm/entrypoints/cli/launch.py
index 0af9f32c3ee..50e46d81cc9 100644
--- a/vllm/entrypoints/cli/launch.py
+++ b/vllm/entrypoints/cli/launch.py
@@ -18,7 +18,7 @@ from vllm.entrypoints.openai.cli_args import (
     make_arg_parser,
     validate_parsed_serve_args,
 )
-from vllm.entrypoints.utils import VLLM_SUBCMD_PARSER_EPILOG
+from vllm.entrypoints.serve.utils.api_utils import VLLM_SUBCMD_PARSER_EPILOG
 from vllm.logger import init_logger
 from vllm.utils.argparse_utils import FlexibleArgumentParser
 
diff --git a/vllm/entrypoints/cli/main.py b/vllm/entrypoints/cli/main.py
index ac7f9e0a7e0..fe0b339b3ed 100644
--- a/vllm/entrypoints/cli/main.py
+++ b/vllm/entrypoints/cli/main.py
@@ -21,7 +21,10 @@ def main():
     import vllm.entrypoints.cli.openai
     import vllm.entrypoints.cli.run_batch
     import vllm.entrypoints.cli.serve
-    from vllm.entrypoints.utils import VLLM_SUBCMD_PARSER_EPILOG, cli_env_setup
+    from vllm.entrypoints.serve.utils.api_utils import (
+        VLLM_SUBCMD_PARSER_EPILOG,
+        cli_env_setup,
+    )
     from vllm.utils.argparse_utils import FlexibleArgumentParser
 
     CMD_MODULES = [
diff --git a/vllm/entrypoints/cli/run_batch.py b/vllm/entrypoints/cli/run_batch.py
index 64d1bec1f1f..85253adde14 100644
--- a/vllm/entrypoints/cli/run_batch.py
+++ b/vllm/entrypoints/cli/run_batch.py
@@ -7,7 +7,7 @@ import importlib.metadata
 import typing
 
 from vllm.entrypoints.cli.types import CLISubcommand
-from vllm.entrypoints.utils import VLLM_SUBCMD_PARSER_EPILOG
+from vllm.entrypoints.serve.utils.api_utils import VLLM_SUBCMD_PARSER_EPILOG
 from vllm.logger import init_logger
 
 if typing.TYPE_CHECKING:
diff --git a/vllm/entrypoints/cli/serve.py b/vllm/entrypoints/cli/serve.py
index ea4bf1b62d1..415ab549cc7 100644
--- a/vllm/entrypoints/cli/serve.py
+++ b/vllm/entrypoints/cli/serve.py
@@ -15,7 +15,7 @@ from vllm.entrypoints.openai.cli_args import make_arg_parser, validate_parsed_se
 from vllm.entrypoints.openai.dp_supervisor import (
     run_dp_supervisor,
 )
-from vllm.entrypoints.utils import VLLM_SUBCMD_PARSER_EPILOG
+from vllm.entrypoints.serve.utils.api_utils import VLLM_SUBCMD_PARSER_EPILOG
 from vllm.logger import init_logger
 from vllm.usage.usage_lib import UsageContext
 from vllm.utils.argparse_utils import FlexibleArgumentParser
diff --git a/vllm/entrypoints/generate/api_router.py b/vllm/entrypoints/generate/api_router.py
index 713e2566bc5..b1e6cea44fe 100644
--- a/vllm/entrypoints/generate/api_router.py
+++ b/vllm/entrypoints/generate/api_router.py
@@ -10,7 +10,7 @@ if TYPE_CHECKING:
     from starlette.datastructures import State
 
     from vllm.engine.protocol import EngineClient
-    from vllm.entrypoints.logger import RequestLogger
+    from vllm.entrypoints.serve.utils.request_logger import RequestLogger
     from vllm.tasks import SupportedTask
 else:
     RequestLogger = object
@@ -65,9 +65,9 @@ async def init_generate_state(
     )
     from vllm.entrypoints.openai.chat_completion.serving import OpenAIServingChat
     from vllm.entrypoints.openai.completion.serving import OpenAIServingCompletion
-    from vllm.entrypoints.openai.fingerprint import set_default_fingerprint_mode
     from vllm.entrypoints.openai.responses.serving import OpenAIServingResponses
     from vllm.entrypoints.serve.disagg.serving import ServingTokens
+    from vllm.entrypoints.serve.utils.fingerprint import set_default_fingerprint_mode
 
     # Applied before any serving class is constructed so that each one picks
     # up the chosen mode on its first cache miss.
diff --git a/vllm/entrypoints/generate/factories.py b/vllm/entrypoints/generate/factories.py
index 899601db3ca..8c963edc618 100644
--- a/vllm/entrypoints/generate/factories.py
+++ b/vllm/entrypoints/generate/factories.py
@@ -6,7 +6,7 @@ from vllm.config import ModelConfig
 from vllm.tasks import SupportedTask
 
 if TYPE_CHECKING:
-    from vllm.entrypoints.sagemaker.api_router import (
+    from vllm.entrypoints.serve.sagemaker.api_router import (
         EndpointFn,
         GetHandlerFn,
         RequestType,
diff --git a/vllm/entrypoints/generate/generative_scoring/api_router.py b/vllm/entrypoints/generate/generative_scoring/api_router.py
index e6918b7f03b..480dac822f1 100644
--- a/vllm/entrypoints/generate/generative_scoring/api_router.py
+++ b/vllm/entrypoints/generate/generative_scoring/api_router.py
@@ -10,8 +10,11 @@ from vllm.entrypoints.generate.generative_scoring.serving import (
     ServingGenerativeScoring,
 )
 from vllm.entrypoints.openai.engine.protocol import ErrorResponse
-from vllm.entrypoints.openai.utils import validate_json_request
-from vllm.entrypoints.utils import load_aware_call, with_cancellation
+from vllm.entrypoints.serve.utils.api_utils import (
+    load_aware_call,
+    validate_json_request,
+    with_cancellation,
+)
 from vllm.logger import init_logger
 
 router = APIRouter()
diff --git a/vllm/entrypoints/generate/generative_scoring/serving.py b/vllm/entrypoints/generate/generative_scoring/serving.py
index 0592d0b29af..f656755ac03 100644
--- a/vllm/entrypoints/generate/generative_scoring/serving.py
+++ b/vllm/entrypoints/generate/generative_scoring/serving.py
@@ -18,7 +18,6 @@ from fastapi import Request
 from pydantic import Field
 
 from vllm.engine.protocol import EngineClient
-from vllm.entrypoints.logger import RequestLogger
 from vllm.entrypoints.openai.engine.protocol import (
     ErrorResponse,
     OpenAIBaseModel,
@@ -26,6 +25,7 @@ from vllm.entrypoints.openai.engine.protocol import (
 )
 from vllm.entrypoints.openai.engine.serving import OpenAIServing
 from vllm.entrypoints.openai.models.serving import OpenAIServingModels
+from vllm.entrypoints.serve.utils.request_logger import RequestLogger
 from vllm.inputs import EngineInput, tokens_input
 from vllm.logger import init_logger
 from vllm.outputs import RequestOutput
diff --git a/vllm/entrypoints/grpc_server.py b/vllm/entrypoints/grpc_server.py
index b9173b302ca..59269dd1802 100644
--- a/vllm/entrypoints/grpc_server.py
+++ b/vllm/entrypoints/grpc_server.py
@@ -43,7 +43,7 @@ import uvloop
 
 from vllm import envs
 from vllm.engine.arg_utils import AsyncEngineArgs
-from vllm.entrypoints.utils import log_version_and_model
+from vllm.entrypoints.serve.utils.api_utils import log_version_and_model
 from vllm.logger import init_logger
 from vllm.usage.usage_lib import UsageContext
 from vllm.utils.argparse_utils import FlexibleArgumentParser
diff --git a/vllm/entrypoints/launcher.py b/vllm/entrypoints/launcher.py
index 8caeb80836f..a560db87ea2 100644
--- a/vllm/entrypoints/launcher.py
+++ b/vllm/entrypoints/launcher.py
@@ -12,11 +12,11 @@ from fastapi import FastAPI
 
 from vllm import envs
 from vllm.engine.protocol import EngineClient
-from vllm.entrypoints.constants import (
+from vllm.entrypoints.serve.utils.constants import (
     H11_MAX_HEADER_COUNT_DEFAULT,
     H11_MAX_INCOMPLETE_EVENT_SIZE_DEFAULT,
 )
-from vllm.entrypoints.ssl import SSLCertRefresher
+from vllm.entrypoints.serve.utils.ssl import SSLCertRefresher
 from vllm.logger import init_logger
 from vllm.utils.network_utils import find_process_using_port
 
diff --git a/vllm/entrypoints/llm.py b/vllm/entrypoints/llm.py
index 802d7a6d796..7297243f918 100644
--- a/vllm/entrypoints/llm.py
+++ b/vllm/entrypoints/llm.py
@@ -40,7 +40,7 @@ from vllm.entrypoints.chat_utils import (
 )
 from vllm.entrypoints.generate.beam_search.offline import BeamSearchOfflineMixin
 from vllm.entrypoints.pooling.offline import PoolingOfflineMixin
-from vllm.entrypoints.utils import log_non_default_args
+from vllm.entrypoints.serve.utils.api_utils import log_non_default_args
 from vllm.inputs import PromptType
 from vllm.logger import init_logger
 from vllm.lora.request import LoRARequest
diff --git a/vllm/entrypoints/openai/api_server.py b/vllm/entrypoints/openai/api_server.py
index 892f9d82d70..ad008d02f6b 100644
--- a/vllm/entrypoints/openai/api_server.py
+++ b/vllm/entrypoints/openai/api_server.py
@@ -27,12 +27,22 @@ from vllm.engine.arg_utils import AsyncEngineArgs
 from vllm.engine.protocol import EngineClient
 from vllm.entrypoints.chat_utils import load_chat_template
 from vllm.entrypoints.launcher import serve_http
-from vllm.entrypoints.logger import RequestLogger
 from vllm.entrypoints.openai.cli_args import make_arg_parser, validate_parsed_serve_args
 from vllm.entrypoints.openai.engine.protocol import GenerationError
 from vllm.entrypoints.openai.models.protocol import BaseModelPath
 from vllm.entrypoints.openai.models.serving import OpenAIServingModels
-from vllm.entrypoints.openai.server_utils import (
+from vllm.entrypoints.serve.elastic_ep.middleware import ScalingMiddleware
+from vllm.entrypoints.serve.render.serving import OpenAIServingRender
+from vllm.entrypoints.serve.sagemaker.api_router import sagemaker_standards_bootstrap
+from vllm.entrypoints.serve.tokenize.serving import OpenAIServingTokenization
+from vllm.entrypoints.serve.utils.api_utils import (
+    cli_env_setup,
+    log_non_default_args,
+    log_version_and_model,
+    process_lora_modules,
+)
+from vllm.entrypoints.serve.utils.request_logger import RequestLogger
+from vllm.entrypoints.serve.utils.server_utils import (
     engine_error_handler,
     exception_handler,
     generation_error_handler,
@@ -42,16 +52,6 @@ from vllm.entrypoints.openai.server_utils import (
     log_response,
     validation_exception_handler,
 )
-from vllm.entrypoints.sagemaker.api_router import sagemaker_standards_bootstrap
-from vllm.entrypoints.serve.elastic_ep.middleware import ScalingMiddleware
-from vllm.entrypoints.serve.render.serving import OpenAIServingRender
-from vllm.entrypoints.serve.tokenize.serving import OpenAIServingTokenization
-from vllm.entrypoints.utils import (
-    cli_env_setup,
-    log_non_default_args,
-    log_version_and_model,
-    process_lora_modules,
-)
 from vllm.logger import init_logger
 from vllm.reasoning import ReasoningParserManager
 from vllm.tasks import POOLING_TASKS, SupportedTask
@@ -187,7 +187,7 @@ def build_app(
 
     register_models_api_router(app)
 
-    from vllm.entrypoints.sagemaker.api_router import (
+    from vllm.entrypoints.serve.sagemaker.api_router import (
         attach_router as register_sagemaker_api_router,
     )
 
@@ -254,12 +254,12 @@ def build_app(
 
     # Ensure --api-key option from CLI takes precedence over VLLM_API_KEY
     if tokens := [key for key in (args.api_key or [envs.VLLM_API_KEY]) if key]:
-        from vllm.entrypoints.openai.server_utils import AuthenticationMiddleware
+        from vllm.entrypoints.serve.utils.server_utils import AuthenticationMiddleware
 
         app.add_middleware(AuthenticationMiddleware, tokens=tokens)
 
     if args.enable_request_id_headers:
-        from vllm.entrypoints.openai.server_utils import XRequestIdMiddleware
+        from vllm.entrypoints.serve.utils.server_utils import XRequestIdMiddleware
 
         app.add_middleware(XRequestIdMiddleware)
 
diff --git a/vllm/entrypoints/openai/chat_completion/api_router.py b/vllm/entrypoints/openai/chat_completion/api_router.py
index cdaaa27fcda..6f3289ede42 100644
--- a/vllm/entrypoints/openai/chat_completion/api_router.py
+++ b/vllm/entrypoints/openai/chat_completion/api_router.py
@@ -15,12 +15,12 @@ from vllm.entrypoints.openai.chat_completion.protocol import (
 )
 from vllm.entrypoints.openai.chat_completion.serving import OpenAIServingChat
 from vllm.entrypoints.openai.engine.protocol import ErrorResponse
-from vllm.entrypoints.openai.orca_metrics import metrics_header
-from vllm.entrypoints.openai.utils import validate_json_request
-from vllm.entrypoints.utils import (
+from vllm.entrypoints.serve.utils.api_utils import (
     load_aware_call,
+    validate_json_request,
     with_cancellation,
 )
+from vllm.entrypoints.serve.utils.orca_metrics import metrics_header
 from vllm.logger import init_logger
 
 logger = init_logger(__name__)
diff --git a/vllm/entrypoints/openai/chat_completion/batch_serving.py b/vllm/entrypoints/openai/chat_completion/batch_serving.py
index 0dfcdd92515..852a26967a0 100644
--- a/vllm/entrypoints/openai/chat_completion/batch_serving.py
+++ b/vllm/entrypoints/openai/chat_completion/batch_serving.py
@@ -21,7 +21,7 @@ from vllm.entrypoints.openai.engine.protocol import (
     RequestResponseMetadata,
     UsageInfo,
 )
-from vllm.entrypoints.utils import get_max_tokens
+from vllm.entrypoints.serve.utils.api_utils import get_max_tokens
 from vllm.inputs import EngineInput
 from vllm.logger import init_logger
 from vllm.outputs import RequestOutput
diff --git a/vllm/entrypoints/openai/chat_completion/serving.py b/vllm/entrypoints/openai/chat_completion/serving.py
index a378fb79d3b..9dd9a34162e 100644
--- a/vllm/entrypoints/openai/chat_completion/serving.py
+++ b/vllm/entrypoints/openai/chat_completion/serving.py
@@ -21,7 +21,6 @@ from vllm.entrypoints.chat_utils import (
     get_tool_call_id_type,
     make_tool_call_id,
 )
-from vllm.entrypoints.logger import RequestLogger
 from vllm.entrypoints.openai.chat_completion.protocol import (
     ChatCompletionLogProb,
     ChatCompletionLogProbs,
@@ -57,8 +56,11 @@ from vllm.entrypoints.openai.parser.harmony_utils import (
     get_streamable_parser_for_assistant,
     parse_chat_output,
 )
-from vllm.entrypoints.openai.utils import maybe_filter_parallel_tool_calls
-from vllm.entrypoints.utils import get_max_tokens, should_include_usage
+from vllm.entrypoints.serve.utils.api_utils import get_max_tokens, should_include_usage
+from vllm.entrypoints.serve.utils.request_logger import RequestLogger
+from vllm.entrypoints.serve.utils.tool_calls_utils import (
+    maybe_filter_parallel_tool_calls,
+)
 from vllm.inputs import EngineInput
 from vllm.logger import init_logger
 from vllm.logprobs import Logprob
diff --git a/vllm/entrypoints/openai/cli_args.py b/vllm/entrypoints/openai/cli_args.py
index d130e83422a..1533895edcd 100644
--- a/vllm/entrypoints/openai/cli_args.py
+++ b/vllm/entrypoints/openai/cli_args.py
@@ -20,11 +20,11 @@ from vllm.entrypoints.chat_utils import (
     ChatTemplateContentFormatOption,
     validate_chat_template,
 )
-from vllm.entrypoints.constants import (
+from vllm.entrypoints.openai.models.protocol import LoRAModulePath
+from vllm.entrypoints.serve.utils.constants import (
     H11_MAX_HEADER_COUNT_DEFAULT,
     H11_MAX_INCOMPLETE_EVENT_SIZE_DEFAULT,
 )
-from vllm.entrypoints.openai.models.protocol import LoRAModulePath
 from vllm.logger import init_logger
 from vllm.tool_parsers import ToolParserManager
 from vllm.utils.argparse_utils import FlexibleArgumentParser
diff --git a/vllm/entrypoints/openai/completion/api_router.py b/vllm/entrypoints/openai/completion/api_router.py
index 4d8e0f88583..441aef165c4 100644
--- a/vllm/entrypoints/openai/completion/api_router.py
+++ b/vllm/entrypoints/openai/completion/api_router.py
@@ -13,12 +13,12 @@ from vllm.entrypoints.openai.completion.protocol import (
 )
 from vllm.entrypoints.openai.completion.serving import OpenAIServingCompletion
 from vllm.entrypoints.openai.engine.protocol import ErrorResponse
-from vllm.entrypoints.openai.orca_metrics import metrics_header
-from vllm.entrypoints.openai.utils import validate_json_request
-from vllm.entrypoints.utils import (
+from vllm.entrypoints.serve.utils.api_utils import (
     load_aware_call,
+    validate_json_request,
     with_cancellation,
 )
+from vllm.entrypoints.serve.utils.orca_metrics import metrics_header
 from vllm.logger import init_logger
 
 logger = init_logger(__name__)
diff --git a/vllm/entrypoints/openai/completion/serving.py b/vllm/entrypoints/openai/completion/serving.py
index f393954e2a0..ed85323d806 100644
--- a/vllm/entrypoints/openai/completion/serving.py
+++ b/vllm/entrypoints/openai/completion/serving.py
@@ -13,7 +13,6 @@ import pybase64 as base64
 from fastapi import Request
 
 from vllm.engine.protocol import EngineClient
-from vllm.entrypoints.logger import RequestLogger
 from vllm.entrypoints.openai.completion.protocol import (
     CompletionLogProbs,
     CompletionRequest,
@@ -34,7 +33,8 @@ from vllm.entrypoints.openai.engine.serving import (
     clamp_prompt_logprobs,
 )
 from vllm.entrypoints.openai.models.serving import OpenAIServingModels
-from vllm.entrypoints.utils import get_max_tokens, should_include_usage
+from vllm.entrypoints.serve.utils.api_utils import get_max_tokens, should_include_usage
+from vllm.entrypoints.serve.utils.request_logger import RequestLogger
 from vllm.exceptions import VLLMValidationError
 from vllm.inputs import EngineInput
 from vllm.logger import init_logger
diff --git a/vllm/entrypoints/openai/engine/serving.py b/vllm/entrypoints/openai/engine/serving.py
index 61b2656bac0..f3e07336e82 100644
--- a/vllm/entrypoints/openai/engine/serving.py
+++ b/vllm/entrypoints/openai/engine/serving.py
@@ -16,7 +16,6 @@ from vllm.config import ModelConfig
 from vllm.engine.protocol import EngineClient
 from vllm.entrypoints.chat_utils import ChatTemplateContentFormatOption
 from vllm.entrypoints.generate.beam_search.online import BeamSearchOnlineMixin
-from vllm.entrypoints.logger import RequestLogger
 from vllm.entrypoints.openai.chat_completion.protocol import (
     BatchChatCompletionRequest,
     ChatCompletionRequest,
@@ -39,12 +38,13 @@ from vllm.entrypoints.serve.tokenize.protocol import (
     TokenizeCompletionRequest,
     TokenizeResponse,
 )
+from vllm.entrypoints.serve.utils.error_response import create_error_response
+from vllm.entrypoints.serve.utils.request_logger import RequestLogger
 from vllm.entrypoints.speech_to_text.transcription.protocol import (
     TranscriptionRequest,
     TranscriptionResponse,
 )
 from vllm.entrypoints.speech_to_text.translation.protocol import TranslationRequest
-from vllm.entrypoints.utils import create_error_response
 from vllm.inputs import EngineInput, PromptType
 from vllm.logger import init_logger
 from vllm.logprobs import Logprob, PromptLogprobs
@@ -153,7 +153,7 @@ class OpenAIServing(BeamSearchOnlineMixin):
         # Computed once at startup (cached by ``vllm_config`` identity) and
         # stamped on non-streaming responses. Streaming chunks deliberately
         # omit it to avoid per-chunk overhead.
-        from vllm.entrypoints.openai.fingerprint import get_system_fingerprint
+        from vllm.entrypoints.serve.utils.fingerprint import get_system_fingerprint
 
         try:
             self.system_fingerprint: str | None = get_system_fingerprint(
diff --git a/vllm/entrypoints/openai/models/serving.py b/vllm/entrypoints/openai/models/serving.py
index 504d30f69d2..ea330678d09 100644
--- a/vllm/entrypoints/openai/models/serving.py
+++ b/vllm/entrypoints/openai/models/serving.py
@@ -18,7 +18,7 @@ from vllm.entrypoints.serve.lora.protocol import (
     LoadLoRAAdapterRequest,
     UnloadLoRAAdapterRequest,
 )
-from vllm.entrypoints.utils import create_error_response
+from vllm.entrypoints.serve.utils.error_response import create_error_response
 from vllm.exceptions import LoRAAdapterNotFoundError
 from vllm.logger import init_logger
 from vllm.lora.request import LoRARequest
diff --git a/vllm/entrypoints/openai/parser/responses_parser.py b/vllm/entrypoints/openai/parser/responses_parser.py
index 809b601fd21..1a3048b8d4f 100644
--- a/vllm/entrypoints/openai/parser/responses_parser.py
+++ b/vllm/entrypoints/openai/parser/responses_parser.py
@@ -12,11 +12,11 @@ from openai.types.responses.response_output_message import ResponseOutputMessage
 from openai.types.responses.response_output_text import ResponseOutputText
 
 from vllm.entrypoints.chat_utils import ChatTemplateContentFormatOption
-from vllm.entrypoints.constants import MCP_PREFIX
 from vllm.entrypoints.openai.responses.protocol import (
     ResponseInputOutputItem,
     ResponsesRequest,
 )
+from vllm.entrypoints.serve.utils.constants import MCP_PREFIX
 from vllm.outputs import CompletionOutput
 from vllm.parser.abstract_parser import Parser
 from vllm.tokenizers import TokenizerLike
diff --git a/vllm/entrypoints/openai/responses/api_router.py b/vllm/entrypoints/openai/responses/api_router.py
index 61077f1a7c5..7f83a44e67e 100644
--- a/vllm/entrypoints/openai/responses/api_router.py
+++ b/vllm/entrypoints/openai/responses/api_router.py
@@ -15,9 +15,9 @@ from vllm.entrypoints.openai.responses.protocol import (
     StreamingResponsesResponse,
 )
 from vllm.entrypoints.openai.responses.serving import OpenAIServingResponses
-from vllm.entrypoints.openai.utils import validate_json_request
-from vllm.entrypoints.utils import (
+from vllm.entrypoints.serve.utils.api_utils import (
     load_aware_call,
+    validate_json_request,
     with_cancellation,
 )
 from vllm.logger import init_logger
diff --git a/vllm/entrypoints/openai/responses/context.py b/vllm/entrypoints/openai/responses/context.py
index 62de02ef826..e72032c24aa 100644
--- a/vllm/entrypoints/openai/responses/context.py
+++ b/vllm/entrypoints/openai/responses/context.py
@@ -20,7 +20,6 @@ from vllm import envs
 from vllm.entrypoints.chat_utils import (
     ChatTemplateContentFormatOption,
 )
-from vllm.entrypoints.constants import MCP_PREFIX
 from vllm.entrypoints.mcp.tool import Tool
 from vllm.entrypoints.mcp.tool_server import ToolServer
 from vllm.entrypoints.openai.engine.protocol import (
@@ -40,6 +39,7 @@ from vllm.entrypoints.openai.responses.protocol import (
     ResponsesRequest,
 )
 from vllm.entrypoints.openai.responses.utils import construct_tool_dicts
+from vllm.entrypoints.serve.utils.constants import MCP_PREFIX
 from vllm.outputs import RequestOutput
 from vllm.parser.abstract_parser import Parser
 from vllm.tokenizers import TokenizerLike
diff --git a/vllm/entrypoints/openai/responses/serving.py b/vllm/entrypoints/openai/responses/serving.py
index eee02707a97..112328def21 100644
--- a/vllm/entrypoints/openai/responses/serving.py
+++ b/vllm/entrypoints/openai/responses/serving.py
@@ -32,7 +32,6 @@ from vllm.entrypoints.chat_utils import (
     ChatTemplateContentFormatOption,
     get_tool_call_id_type,
 )
-from vllm.entrypoints.logger import RequestLogger
 from vllm.entrypoints.mcp.tool_server import ToolServer
 from vllm.entrypoints.openai.engine.protocol import (
     DeltaMessage,
@@ -93,7 +92,8 @@ from vllm.entrypoints.openai.responses.utils import (
     extract_tool_types,
 )
 from vllm.entrypoints.serve.render.serving import OpenAIServingRender
-from vllm.entrypoints.utils import get_max_tokens
+from vllm.entrypoints.serve.utils.api_utils import get_max_tokens
+from vllm.entrypoints.serve.utils.request_logger import RequestLogger
 from vllm.exceptions import VLLMValidationError
 from vllm.inputs import EngineInput, tokens_input
 from vllm.logger import init_logger
diff --git a/vllm/entrypoints/openai/run_batch.py b/vllm/entrypoints/openai/run_batch.py
index 327254e3acc..58975b4f86b 100644
--- a/vllm/entrypoints/openai/run_batch.py
+++ b/vllm/entrypoints/openai/run_batch.py
@@ -51,6 +51,7 @@ from vllm.entrypoints.pooling.scoring.protocol import (
     ScoreRequest,
     ScoreResponse,
 )
+from vllm.entrypoints.serve.utils.error_response import create_error_response
 from vllm.entrypoints.speech_to_text.transcription.protocol import (
     TranscriptionRequest,
     TranscriptionResponse,
@@ -61,7 +62,6 @@ from vllm.entrypoints.speech_to_text.translation.protocol import (
     TranslationResponse,
     TranslationResponseVerbose,
 )
-from vllm.entrypoints.utils import create_error_response
 from vllm.exceptions import VLLMValidationError
 from vllm.logger import init_logger
 from vllm.reasoning import ReasoningParserManager
diff --git a/vllm/entrypoints/pooling/base/serving.py b/vllm/entrypoints/pooling/base/serving.py
index 4a9ef4a0628..d849baba055 100644
--- a/vllm/entrypoints/pooling/base/serving.py
+++ b/vllm/entrypoints/pooling/base/serving.py
@@ -16,9 +16,9 @@ from vllm import PoolingParams, PoolingRequestOutput, envs
 from vllm.config import VllmConfig
 from vllm.engine.protocol import EngineClient
 from vllm.entrypoints.chat_utils import ChatTemplateConfig
-from vllm.entrypoints.logger import RequestLogger
 from vllm.entrypoints.openai.engine.protocol import ErrorResponse
 from vllm.entrypoints.openai.models.serving import OpenAIServingModels
+from vllm.entrypoints.serve.utils.request_logger import RequestLogger
 from vllm.exceptions import VLLMNotFoundError
 from vllm.inputs import EngineInput
 from vllm.lora.request import LoRARequest
@@ -283,6 +283,7 @@ class PoolingServingBase(ABC):
         request = ctx.request
         if request.model in self.models.lora_requests:
             ctx.lora_request = self.models.lora_requests[request.model]
+            return None
 
         # Currently only support default modality specific loras
         # if we have exactly one lora matched on the request.
diff --git a/vllm/entrypoints/pooling/classify/api_router.py b/vllm/entrypoints/pooling/classify/api_router.py
index 2d27628bc69..9e016a72e84 100644
--- a/vllm/entrypoints/pooling/classify/api_router.py
+++ b/vllm/entrypoints/pooling/classify/api_router.py
@@ -4,9 +4,9 @@
 from fastapi import APIRouter, Depends, Request
 from fastapi.responses import Response
 
-from vllm.entrypoints.openai.utils import validate_json_request
-from vllm.entrypoints.utils import (
+from vllm.entrypoints.serve.utils.api_utils import (
     load_aware_call,
+    validate_json_request,
     with_cancellation,
 )
 
diff --git a/vllm/entrypoints/pooling/embed/api_router.py b/vllm/entrypoints/pooling/embed/api_router.py
index 4eb86e4e2d2..7ffb5840d5b 100644
--- a/vllm/entrypoints/pooling/embed/api_router.py
+++ b/vllm/entrypoints/pooling/embed/api_router.py
@@ -6,8 +6,11 @@ from http import HTTPStatus
 from fastapi import APIRouter, Depends, Request
 
 from vllm.entrypoints.openai.engine.protocol import ErrorResponse
-from vllm.entrypoints.openai.utils import validate_json_request
-from vllm.entrypoints.utils import load_aware_call, with_cancellation
+from vllm.entrypoints.serve.utils.api_utils import (
+    load_aware_call,
+    validate_json_request,
+    with_cancellation,
+)
 
 from .protocol import CohereEmbedRequest, EmbeddingRequest
 from .serving import ServingEmbedding
diff --git a/vllm/entrypoints/pooling/factories.py b/vllm/entrypoints/pooling/factories.py
index 62f76a7aa28..dd3d873b311 100644
--- a/vllm/entrypoints/pooling/factories.py
+++ b/vllm/entrypoints/pooling/factories.py
@@ -21,12 +21,12 @@ if TYPE_CHECKING:
     from starlette.datastructures import State
 
     from vllm.engine.protocol import EngineClient
-    from vllm.entrypoints.logger import RequestLogger
-    from vllm.entrypoints.sagemaker.api_router import (
+    from vllm.entrypoints.serve.sagemaker.api_router import (
         EndpointFn,
         GetHandlerFn,
         RequestType,
     )
+    from vllm.entrypoints.serve.utils.request_logger import RequestLogger
 
 else:
     RequestLogger = object
diff --git a/vllm/entrypoints/pooling/pooling/api_router.py b/vllm/entrypoints/pooling/pooling/api_router.py
index 0c77c050dc0..653a36f699a 100644
--- a/vllm/entrypoints/pooling/pooling/api_router.py
+++ b/vllm/entrypoints/pooling/pooling/api_router.py
@@ -5,8 +5,11 @@ from http import HTTPStatus
 from fastapi import APIRouter, Depends, Request
 
 from vllm.entrypoints.openai.engine.protocol import ErrorResponse
-from vllm.entrypoints.openai.utils import validate_json_request
-from vllm.entrypoints.utils import load_aware_call, with_cancellation
+from vllm.entrypoints.serve.utils.api_utils import (
+    load_aware_call,
+    validate_json_request,
+    with_cancellation,
+)
 
 from .protocol import PoolingRequest
 from .serving import ServingPooling
diff --git a/vllm/entrypoints/pooling/scoring/api_router.py b/vllm/entrypoints/pooling/scoring/api_router.py
index cf583293eac..f67b5e912f3 100644
--- a/vllm/entrypoints/pooling/scoring/api_router.py
+++ b/vllm/entrypoints/pooling/scoring/api_router.py
@@ -5,8 +5,11 @@ from http import HTTPStatus
 from fastapi import APIRouter, Depends, Request
 
 from vllm.entrypoints.openai.engine.protocol import ErrorResponse
-from vllm.entrypoints.openai.utils import validate_json_request
-from vllm.entrypoints.utils import load_aware_call, with_cancellation
+from vllm.entrypoints.serve.utils.api_utils import (
+    load_aware_call,
+    validate_json_request,
+    with_cancellation,
+)
 from vllm.logger import init_logger
 
 from .protocol import RerankRequest, ScoreRequest
diff --git a/vllm/entrypoints/serve/disagg/api_router.py b/vllm/entrypoints/serve/disagg/api_router.py
index e7c18a0914a..7cec4344b3b 100644
--- a/vllm/entrypoints/serve/disagg/api_router.py
+++ b/vllm/entrypoints/serve/disagg/api_router.py
@@ -13,7 +13,6 @@ from vllm.engine.protocol import EngineClient
 from vllm.entrypoints.openai.engine.protocol import (
     ErrorResponse,
 )
-from vllm.entrypoints.openai.utils import validate_json_request
 from vllm.entrypoints.serve.disagg.protocol import (
     GenerateRequest,
     GenerateResponse,
@@ -22,8 +21,9 @@ from vllm.entrypoints.serve.disagg.serving import (
     ServingTokens,
 )
 from vllm.entrypoints.serve.tokenize.serving import OpenAIServingTokenization
-from vllm.entrypoints.utils import (
+from vllm.entrypoints.serve.utils.api_utils import (
     load_aware_call,
+    validate_json_request,
     with_cancellation,
 )
 from vllm.logger import init_logger
diff --git a/vllm/entrypoints/serve/disagg/serving.py b/vllm/entrypoints/serve/disagg/serving.py
index 0cc227ee74d..72aeb843773 100644
--- a/vllm/entrypoints/serve/disagg/serving.py
+++ b/vllm/entrypoints/serve/disagg/serving.py
@@ -14,7 +14,6 @@ import pybase64 as base64
 from fastapi import Request
 
 from vllm.engine.protocol import EngineClient
-from vllm.entrypoints.logger import RequestLogger
 from vllm.entrypoints.openai.chat_completion.protocol import (
     ChatCompletionLogProb,
     ChatCompletionLogProbs,
@@ -38,7 +37,8 @@ from vllm.entrypoints.serve.disagg.protocol import (
     GenerateStreamResponse,
 )
 from vllm.entrypoints.serve.render.serving import OpenAIServingRender
-from vllm.entrypoints.utils import get_max_tokens, should_include_usage
+from vllm.entrypoints.serve.utils.api_utils import get_max_tokens, should_include_usage
+from vllm.entrypoints.serve.utils.request_logger import RequestLogger
 from vllm.inputs import EngineInput, mm_input
 from vllm.logger import init_logger
 from vllm.logprobs import Logprob
diff --git a/vllm/entrypoints/serve/elastic_ep/api_router.py b/vllm/entrypoints/serve/elastic_ep/api_router.py
index 00e38b61167..e711a257ddd 100644
--- a/vllm/entrypoints/serve/elastic_ep/api_router.py
+++ b/vllm/entrypoints/serve/elastic_ep/api_router.py
@@ -12,11 +12,11 @@ from vllm.engine.protocol import EngineClient
 from vllm.entrypoints.openai.engine.protocol import (
     ErrorResponse,
 )
-from vllm.entrypoints.openai.utils import validate_json_request
 from vllm.entrypoints.serve.elastic_ep.middleware import (
     get_scaling_elastic_ep,
     set_scaling_elastic_ep,
 )
+from vllm.entrypoints.serve.utils.api_utils import validate_json_request
 from vllm.logger import init_logger
 
 logger = init_logger(__name__)
diff --git a/vllm/entrypoints/serve/lora/api_router.py b/vllm/entrypoints/serve/lora/api_router.py
index 39ca0ec91b2..511aeaa07ba 100644
--- a/vllm/entrypoints/serve/lora/api_router.py
+++ b/vllm/entrypoints/serve/lora/api_router.py
@@ -12,11 +12,11 @@ from vllm.entrypoints.openai.engine.protocol import (
 )
 from vllm.entrypoints.openai.models.api_router import models
 from vllm.entrypoints.openai.models.serving import OpenAIServingModels
-from vllm.entrypoints.openai.utils import validate_json_request
 from vllm.entrypoints.serve.lora.protocol import (
     LoadLoRAAdapterRequest,
     UnloadLoRAAdapterRequest,
 )
+from vllm.entrypoints.serve.utils.api_utils import validate_json_request
 from vllm.logger import init_logger
 
 logger = init_logger(__name__)
diff --git a/vllm/entrypoints/serve/render/api_router.py b/vllm/entrypoints/serve/render/api_router.py
index d8e6130709f..ac0c1ce67d8 100644
--- a/vllm/entrypoints/serve/render/api_router.py
+++ b/vllm/entrypoints/serve/render/api_router.py
@@ -8,9 +8,9 @@ from fastapi.responses import JSONResponse
 from vllm.entrypoints.openai.chat_completion.protocol import ChatCompletionRequest
 from vllm.entrypoints.openai.completion.protocol import CompletionRequest
 from vllm.entrypoints.openai.engine.protocol import ErrorResponse
-from vllm.entrypoints.openai.utils import validate_json_request
 from vllm.entrypoints.serve.disagg.protocol import GenerateRequest
 from vllm.entrypoints.serve.render.serving import OpenAIServingRender
+from vllm.entrypoints.serve.utils.api_utils import validate_json_request
 from vllm.logger import init_logger
 
 logger = init_logger(__name__)
diff --git a/vllm/entrypoints/serve/render/serving.py b/vllm/entrypoints/serve/render/serving.py
index 782b2eaea24..e8e0c254460 100644
--- a/vllm/entrypoints/serve/render/serving.py
+++ b/vllm/entrypoints/serve/render/serving.py
@@ -11,7 +11,6 @@ from vllm.entrypoints.chat_utils import (
     ChatTemplateContentFormatOption,
     ConversationMessage,
 )
-from vllm.entrypoints.logger import RequestLogger
 from vllm.entrypoints.openai.chat_completion.protocol import ChatCompletionRequest
 from vllm.entrypoints.openai.completion.protocol import CompletionRequest
 from vllm.entrypoints.openai.engine.protocol import (
@@ -31,10 +30,9 @@ from vllm.entrypoints.serve.disagg.protocol import (
     MultiModalFeatures,
     PlaceholderRangeInfo,
 )
-from vllm.entrypoints.utils import (
-    create_error_response,
-    get_max_tokens,
-)
+from vllm.entrypoints.serve.utils.api_utils import get_max_tokens
+from vllm.entrypoints.serve.utils.error_response import create_error_response
+from vllm.entrypoints.serve.utils.request_logger import RequestLogger
 from vllm.inputs import (
     EngineInput,
     MultiModalHashes,
diff --git a/vllm/entrypoints/sagemaker/__init__.py b/vllm/entrypoints/serve/sagemaker/__init__.py
similarity index 100%
rename from vllm/entrypoints/sagemaker/__init__.py
rename to vllm/entrypoints/serve/sagemaker/__init__.py
diff --git a/vllm/entrypoints/sagemaker/api_router.py b/vllm/entrypoints/serve/sagemaker/api_router.py
similarity index 98%
rename from vllm/entrypoints/sagemaker/api_router.py
rename to vllm/entrypoints/serve/sagemaker/api_router.py
index 00dd7db2818..82c094d161f 100644
--- a/vllm/entrypoints/sagemaker/api_router.py
+++ b/vllm/entrypoints/serve/sagemaker/api_router.py
@@ -14,11 +14,11 @@ from vllm.config import ModelConfig
 from vllm.entrypoints.generate.factories import get_generate_invocation_types
 from vllm.entrypoints.openai.engine.protocol import ErrorResponse
 from vllm.entrypoints.openai.engine.serving import OpenAIServing
-from vllm.entrypoints.openai.utils import validate_json_request
 from vllm.entrypoints.pooling.base.serving import PoolingServingBase
 from vllm.entrypoints.pooling.factories import get_pooling_invocation_types
 from vllm.entrypoints.serve.instrumentator.basic import base
 from vllm.entrypoints.serve.instrumentator.health import health
+from vllm.entrypoints.serve.utils.api_utils import validate_json_request
 from vllm.tasks import SupportedTask
 
 # TODO: RequestType = TypeForm[BaseModel] when recognized by type checkers
diff --git a/vllm/entrypoints/serve/tokenize/api_router.py b/vllm/entrypoints/serve/tokenize/api_router.py
index d165b555385..eebb17c6427 100644
--- a/vllm/entrypoints/serve/tokenize/api_router.py
+++ b/vllm/entrypoints/serve/tokenize/api_router.py
@@ -12,7 +12,6 @@ from typing_extensions import assert_never
 from vllm.entrypoints.openai.engine.protocol import (
     ErrorResponse,
 )
-from vllm.entrypoints.openai.utils import validate_json_request
 from vllm.entrypoints.serve.tokenize.protocol import (
     DetokenizeRequest,
     DetokenizeResponse,
@@ -20,7 +19,8 @@ from vllm.entrypoints.serve.tokenize.protocol import (
     TokenizeResponse,
 )
 from vllm.entrypoints.serve.tokenize.serving import OpenAIServingTokenization
-from vllm.entrypoints.utils import (
+from vllm.entrypoints.serve.utils.api_utils import (
+    validate_json_request,
     with_cancellation,
 )
 from vllm.logger import init_logger
diff --git a/vllm/entrypoints/serve/tokenize/serving.py b/vllm/entrypoints/serve/tokenize/serving.py
index 9b573b69eb8..4f461c0194e 100644
--- a/vllm/entrypoints/serve/tokenize/serving.py
+++ b/vllm/entrypoints/serve/tokenize/serving.py
@@ -7,7 +7,6 @@ from fastapi import Request
 
 from vllm.engine.protocol import EngineClient
 from vllm.entrypoints.chat_utils import ChatTemplateContentFormatOption
-from vllm.entrypoints.logger import RequestLogger
 from vllm.entrypoints.openai.engine.protocol import ErrorResponse
 from vllm.entrypoints.openai.engine.serving import OpenAIServing
 from vllm.entrypoints.openai.models.serving import OpenAIServingModels
@@ -20,6 +19,7 @@ from vllm.entrypoints.serve.tokenize.protocol import (
     TokenizeResponse,
     TokenizerInfoResponse,
 )
+from vllm.entrypoints.serve.utils.request_logger import RequestLogger
 from vllm.inputs import TokensPrompt, tokens_input
 from vllm.logger import init_logger
 from vllm.tokenizers import TokenizerLike
diff --git a/vllm/entrypoints/serve/utils/__init__.py b/vllm/entrypoints/serve/utils/__init__.py
new file mode 100644
index 00000000000..e69de29bb2d
diff --git a/vllm/entrypoints/utils.py b/vllm/entrypoints/serve/utils/api_utils.py
similarity index 84%
rename from vllm/entrypoints/utils.py
rename to vllm/entrypoints/serve/utils/api_utils.py
index 8ec41098ad2..15de1b0690d 100644
--- a/vllm/entrypoints/utils.py
+++ b/vllm/entrypoints/serve/utils/api_utils.py
@@ -6,24 +6,19 @@ import dataclasses
 import functools
 import os
 from argparse import Namespace
-from http import HTTPStatus
 from logging import Logger
 from string import Template
 from typing import Any
 
 import regex as re
 from fastapi import Request
+from fastapi.exceptions import RequestValidationError
 from fastapi.responses import JSONResponse, StreamingResponse
 from starlette.background import BackgroundTask, BackgroundTasks
 
 from vllm import envs
 from vllm.engine.arg_utils import EngineArgs
-from vllm.entrypoints.openai.engine.protocol import (
-    ErrorInfo,
-    ErrorResponse,
-    GenerationError,
-    StreamOptions,
-)
+from vllm.entrypoints.openai.engine.protocol import StreamOptions
 from vllm.entrypoints.openai.models.protocol import LoRAModulePath
 from vllm.logger import current_formatter_type, init_logger
 from vllm.platforms import current_platform
@@ -279,7 +274,7 @@ def log_non_default_args(args: Namespace | EngineArgs):
 
 
 def should_include_usage(
-    stream_options: "StreamOptions | None", enable_force_include_usage: bool
+    stream_options: StreamOptions | None, enable_force_include_usage: bool
 ) -> tuple[bool, bool]:
     if enable_force_include_usage:
         return True, True
@@ -344,60 +339,10 @@ def log_version_and_model(lgr: Logger, version: str, model_name: str) -> None:
     lgr.info(message, version, model_name)
 
 
-def create_error_response(
-    message: str | Exception,
-    err_type: str = "BadRequestError",
-    status_code: HTTPStatus = HTTPStatus.BAD_REQUEST,
-    param: str | None = None,
-) -> ErrorResponse:
-    exc: Exception | None = None
-
-    if isinstance(message, Exception):
-        exc = message
-        logger.debug(
-            "create_error_response called with %s: %s", type(exc).__name__, exc
+async def validate_json_request(raw_request: Request):
+    content_type = raw_request.headers.get("content-type", "").lower()
+    media_type = content_type.split(";", maxsplit=1)[0]
+    if media_type != "application/json":
+        raise RequestValidationError(
+            errors=["Unsupported Media Type: Only 'application/json' is allowed"]
         )
-
-        from vllm.exceptions import VLLMNotFoundError, VLLMValidationError
-
-        if isinstance(exc, VLLMValidationError):
-            err_type = "BadRequestError"
-            status_code = HTTPStatus.BAD_REQUEST
-            param = exc.parameter
-        elif isinstance(exc, VLLMNotFoundError):
-            err_type = "NotFoundError"
-            status_code = HTTPStatus.NOT_FOUND
-            param = None
-        elif isinstance(exc, (ValueError, TypeError, OverflowError)):
-            # Common validation errors from user input
-            err_type = "BadRequestError"
-            status_code = HTTPStatus.BAD_REQUEST
-            param = None
-        elif isinstance(exc, NotImplementedError):
-            err_type = "NotImplementedError"
-            status_code = HTTPStatus.NOT_IMPLEMENTED
-            param = None
-        elif isinstance(exc, GenerationError):
-            err_type = "InternalServerError"
-            status_code = exc.status_code
-            param = None
-        elif any(cls.__name__ == "TemplateError" for cls in type(exc).__mro__):
-            # jinja2.TemplateError and its subclasses (avoid importing jinja2)
-            err_type = "BadRequestError"
-            status_code = HTTPStatus.BAD_REQUEST
-            param = None
-        else:
-            err_type = "InternalServerError"
-            status_code = HTTPStatus.INTERNAL_SERVER_ERROR
-            param = None
-
-        message = str(exc)
-
-    return ErrorResponse(
-        error=ErrorInfo(
-            message=sanitize_message(message),
-            type=err_type,
-            code=status_code.value,
-            param=param,
-        )
-    )
diff --git a/vllm/entrypoints/constants.py b/vllm/entrypoints/serve/utils/constants.py
similarity index 100%
rename from vllm/entrypoints/constants.py
rename to vllm/entrypoints/serve/utils/constants.py
diff --git a/vllm/entrypoints/serve/utils/error_response.py b/vllm/entrypoints/serve/utils/error_response.py
new file mode 100644
index 00000000000..4dea1513a42
--- /dev/null
+++ b/vllm/entrypoints/serve/utils/error_response.py
@@ -0,0 +1,72 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from http import HTTPStatus
+
+from vllm.entrypoints.openai.engine.protocol import (
+    ErrorInfo,
+    ErrorResponse,
+    GenerationError,
+)
+from vllm.entrypoints.serve.utils.api_utils import sanitize_message
+from vllm.logger import init_logger
+
+logger = init_logger(__name__)
+
+
+def create_error_response(
+    message: str | Exception,
+    err_type: str = "BadRequestError",
+    status_code: HTTPStatus = HTTPStatus.BAD_REQUEST,
+    param: str | None = None,
+) -> ErrorResponse:
+    exc: Exception | None = None
+
+    if isinstance(message, Exception):
+        exc = message
+        logger.debug(
+            "create_error_response called with %s: %s", type(exc).__name__, exc
+        )
+
+        from vllm.exceptions import VLLMNotFoundError, VLLMValidationError
+
+        if isinstance(exc, VLLMValidationError):
+            err_type = "BadRequestError"
+            status_code = HTTPStatus.BAD_REQUEST
+            param = exc.parameter
+        elif isinstance(exc, VLLMNotFoundError):
+            err_type = "NotFoundError"
+            status_code = HTTPStatus.NOT_FOUND
+            param = None
+        elif isinstance(exc, (ValueError, TypeError, OverflowError)):
+            # Common validation errors from user input
+            err_type = "BadRequestError"
+            status_code = HTTPStatus.BAD_REQUEST
+            param = None
+        elif isinstance(exc, NotImplementedError):
+            err_type = "NotImplementedError"
+            status_code = HTTPStatus.NOT_IMPLEMENTED
+            param = None
+        elif isinstance(exc, GenerationError):
+            err_type = "InternalServerError"
+            status_code = exc.status_code
+            param = None
+        elif any(cls.__name__ == "TemplateError" for cls in type(exc).__mro__):
+            # jinja2.TemplateError and its subclasses (avoid importing jinja2)
+            err_type = "BadRequestError"
+            status_code = HTTPStatus.BAD_REQUEST
+            param = None
+        else:
+            err_type = "InternalServerError"
+            status_code = HTTPStatus.INTERNAL_SERVER_ERROR
+            param = None
+
+        message = str(exc)
+
+    return ErrorResponse(
+        error=ErrorInfo(
+            message=sanitize_message(message),
+            type=err_type,
+            code=status_code.value,
+            param=param,
+        )
+    )
diff --git a/vllm/entrypoints/openai/fingerprint.py b/vllm/entrypoints/serve/utils/fingerprint.py
similarity index 100%
rename from vllm/entrypoints/openai/fingerprint.py
rename to vllm/entrypoints/serve/utils/fingerprint.py
diff --git a/vllm/entrypoints/openai/orca_metrics.py b/vllm/entrypoints/serve/utils/orca_metrics.py
similarity index 100%
rename from vllm/entrypoints/openai/orca_metrics.py
rename to vllm/entrypoints/serve/utils/orca_metrics.py
diff --git a/vllm/entrypoints/logger.py b/vllm/entrypoints/serve/utils/request_logger.py
similarity index 100%
rename from vllm/entrypoints/logger.py
rename to vllm/entrypoints/serve/utils/request_logger.py
diff --git a/vllm/entrypoints/openai/server_utils.py b/vllm/entrypoints/serve/utils/server_utils.py
similarity index 99%
rename from vllm/entrypoints/openai/server_utils.py
rename to vllm/entrypoints/serve/utils/server_utils.py
index 269c33549e8..3b6dfde447e 100644
--- a/vllm/entrypoints/openai/server_utils.py
+++ b/vllm/entrypoints/serve/utils/server_utils.py
@@ -26,7 +26,10 @@ from vllm.entrypoints.openai.engine.protocol import (
     ErrorResponse,
     GenerationError,
 )
-from vllm.entrypoints.utils import create_error_response, sanitize_message
+from vllm.entrypoints.serve.utils.error_response import (
+    create_error_response,
+    sanitize_message,
+)
 from vllm.exceptions import VLLMValidationError
 from vllm.logger import init_logger
 from vllm.utils.gc_utils import freeze_gc_heap
diff --git a/vllm/entrypoints/ssl.py b/vllm/entrypoints/serve/utils/ssl.py
similarity index 100%
rename from vllm/entrypoints/ssl.py
rename to vllm/entrypoints/serve/utils/ssl.py
diff --git a/vllm/entrypoints/openai/utils.py b/vllm/entrypoints/serve/utils/tool_calls_utils.py
similarity index 73%
rename from vllm/entrypoints/openai/utils.py
rename to vllm/entrypoints/serve/utils/tool_calls_utils.py
index 55e59510f54..648698c2a97 100644
--- a/vllm/entrypoints/openai/utils.py
+++ b/vllm/entrypoints/serve/utils/tool_calls_utils.py
@@ -2,9 +2,6 @@
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 from typing import TypeVar
 
-from fastapi import Request
-from fastapi.exceptions import RequestValidationError
-
 from vllm.entrypoints.openai.chat_completion.protocol import (
     ChatCompletionRequest,
     ChatCompletionResponseChoice,
@@ -38,12 +35,3 @@ def maybe_filter_parallel_tool_calls(
         ]
 
     return choice
-
-
-async def validate_json_request(raw_request: Request):
-    content_type = raw_request.headers.get("content-type", "").lower()
-    media_type = content_type.split(";", maxsplit=1)[0]
-    if media_type != "application/json":
-        raise RequestValidationError(
-            errors=["Unsupported Media Type: Only 'application/json' is allowed"]
-        )
diff --git a/vllm/entrypoints/speech_to_text/base/serving.py b/vllm/entrypoints/speech_to_text/base/serving.py
index a0f02a2c783..06d266fd1f1 100644
--- a/vllm/entrypoints/speech_to_text/base/serving.py
+++ b/vllm/entrypoints/speech_to_text/base/serving.py
@@ -15,7 +15,6 @@ from transformers import PreTrainedTokenizerBase
 
 import vllm.envs as envs
 from vllm.engine.protocol import EngineClient
-from vllm.entrypoints.logger import RequestLogger
 from vllm.entrypoints.openai.engine.protocol import (
     DeltaMessage,
     ErrorResponse,
@@ -24,7 +23,8 @@ from vllm.entrypoints.openai.engine.protocol import (
 )
 from vllm.entrypoints.openai.engine.serving import OpenAIServing, SpeechToTextRequest
 from vllm.entrypoints.openai.models.serving import OpenAIServingModels
-from vllm.entrypoints.utils import get_max_tokens
+from vllm.entrypoints.serve.utils.api_utils import get_max_tokens
+from vllm.entrypoints.serve.utils.request_logger import RequestLogger
 from vllm.exceptions import VLLMValidationError
 from vllm.inputs import EncoderDecoderInput, EngineInput
 from vllm.logger import init_logger
diff --git a/vllm/entrypoints/speech_to_text/factories.py b/vllm/entrypoints/speech_to_text/factories.py
index 3625f6d2a8d..1971e32b989 100644
--- a/vllm/entrypoints/speech_to_text/factories.py
+++ b/vllm/entrypoints/speech_to_text/factories.py
@@ -12,7 +12,7 @@ if TYPE_CHECKING:
     from starlette.datastructures import State
 
     from vllm.engine.protocol import EngineClient
-    from vllm.entrypoints.logger import RequestLogger
+    from vllm.entrypoints.serve.utils.request_logger import RequestLogger
     from vllm.tasks import SupportedTask
 else:
     RequestLogger = object
diff --git a/vllm/entrypoints/speech_to_text/realtime/serving.py b/vllm/entrypoints/speech_to_text/realtime/serving.py
index 710d1907a16..e5b5e951279 100644
--- a/vllm/entrypoints/speech_to_text/realtime/serving.py
+++ b/vllm/entrypoints/speech_to_text/realtime/serving.py
@@ -9,9 +9,9 @@ from typing import Literal, cast
 import numpy as np
 
 from vllm.engine.protocol import EngineClient, StreamingInput
-from vllm.entrypoints.logger import RequestLogger
 from vllm.entrypoints.openai.engine.serving import OpenAIServing
 from vllm.entrypoints.openai.models.serving import OpenAIServingModels
+from vllm.entrypoints.serve.utils.request_logger import RequestLogger
 from vllm.inputs import PromptType
 from vllm.logger import init_logger
 from vllm.model_executor.models.interfaces import SupportsRealtime
diff --git a/vllm/entrypoints/speech_to_text/transcription/api_router.py b/vllm/entrypoints/speech_to_text/transcription/api_router.py
index c4de6810ca6..b676e22b109 100644
--- a/vllm/entrypoints/speech_to_text/transcription/api_router.py
+++ b/vllm/entrypoints/speech_to_text/transcription/api_router.py
@@ -9,7 +9,7 @@ from fastapi import APIRouter, Form, Request
 from fastapi.responses import JSONResponse, StreamingResponse
 
 from vllm.entrypoints.openai.engine.protocol import ErrorResponse
-from vllm.entrypoints.utils import (
+from vllm.entrypoints.serve.utils.api_utils import (
     load_aware_call,
     with_cancellation,
 )
diff --git a/vllm/entrypoints/speech_to_text/transcription/serving.py b/vllm/entrypoints/speech_to_text/transcription/serving.py
index 123c4c234ec..0d5a3c9edbf 100644
--- a/vllm/entrypoints/speech_to_text/transcription/serving.py
+++ b/vllm/entrypoints/speech_to_text/transcription/serving.py
@@ -5,12 +5,12 @@ from collections.abc import AsyncGenerator
 from fastapi import Request
 
 from vllm.engine.protocol import EngineClient
-from vllm.entrypoints.logger import RequestLogger
 from vllm.entrypoints.openai.engine.protocol import (
     ErrorResponse,
     RequestResponseMetadata,
 )
 from vllm.entrypoints.openai.models.serving import OpenAIServingModels
+from vllm.entrypoints.serve.utils.request_logger import RequestLogger
 from vllm.logger import init_logger
 from vllm.outputs import RequestOutput
 
diff --git a/vllm/entrypoints/speech_to_text/translation/api_router.py b/vllm/entrypoints/speech_to_text/translation/api_router.py
index a68b098834b..e846fbc05fb 100644
--- a/vllm/entrypoints/speech_to_text/translation/api_router.py
+++ b/vllm/entrypoints/speech_to_text/translation/api_router.py
@@ -9,7 +9,7 @@ from fastapi import APIRouter, Form, Request
 from fastapi.responses import JSONResponse, StreamingResponse
 
 from vllm.entrypoints.openai.engine.protocol import ErrorResponse
-from vllm.entrypoints.utils import (
+from vllm.entrypoints.serve.utils.api_utils import (
     load_aware_call,
     with_cancellation,
 )
diff --git a/vllm/entrypoints/speech_to_text/translation/serving.py b/vllm/entrypoints/speech_to_text/translation/serving.py
index 257f8f74396..a3951250f12 100644
--- a/vllm/entrypoints/speech_to_text/translation/serving.py
+++ b/vllm/entrypoints/speech_to_text/translation/serving.py
@@ -5,12 +5,12 @@ from collections.abc import AsyncGenerator
 from fastapi import Request
 
 from vllm.engine.protocol import EngineClient
-from vllm.entrypoints.logger import RequestLogger
 from vllm.entrypoints.openai.engine.protocol import (
     ErrorResponse,
     RequestResponseMetadata,
 )
 from vllm.entrypoints.openai.models.serving import OpenAIServingModels
+from vllm.entrypoints.serve.utils.request_logger import RequestLogger
 from vllm.logger import init_logger
 from vllm.outputs import RequestOutput
 
diff --git a/vllm/env_override.py b/vllm/env_override.py
index 78270c2bee3..fe084ce5149 100644
--- a/vllm/env_override.py
+++ b/vllm/env_override.py
@@ -758,3 +758,101 @@ def _patch_cpp_indirect_assert_if_needed():
 
 
 _patch_cpp_indirect_assert_if_needed()
+
+# ============================================================
+# Inductor FALLBACK_ALLOW_LIST fast-path for vllm::*/vllm_aiter::* ops
+# ============================================================
+# When Inductor encounters a custom op without a registered lowering or
+# decomposition (e.g. vllm::all_reduce, vllm_aiter::fused_add_rms_norm) it
+# correctly creates an implicit fallback that calls into the eager Python
+# impl. However, unless `base_name` (e.g. "vllm::all_reduce") is in
+# torch._inductor.lowering.FALLBACK_ALLOW_LIST, GraphLowering.call_function
+# (torch/_inductor/graph.py:~1283) takes the slow path that emits
+#   log.info("Creating implicit fallback for:\n%s",
+#            error.operator_str(target, args, kwargs))
+# `operator_str` eagerly recurses through __str__ on every input TensorBox;
+# for deep MoE/TP graphs (e.g. Kimi-K2.6 at TP=8) the IR provenance tree
+# behind a TP all-reduce input or a residual-fed RMSNorm input is hundreds
+# of layers deep, and stringifying it consumes many minutes of CPU per call,
+# effectively hanging compilation.
+#
+# Patching FALLBACK_ALLOW_LIST membership to also match any "vllm::*" or
+# "vllm_aiter::*" base_name routes our custom ops through the fast path
+# `make_fallback(target, warn=False, override_decomp=True)` instead. This
+# preserves all downstream behaviour (allreduce_rms_fusion still pattern-
+# matches them, partitioning still works, fallback semantics identical) but
+# skips the expensive log formatting on the FIRST encounter of each op.
+#
+# We wrap the OrderedSet in a thin proxy that:
+#   - Returns True from __contains__ for any vllm::*/vllm_aiter::* op
+#   - Otherwise delegates to the underlying set (preserving membership of
+#     the standard entries like "torchvision::roi_align", "aten::index_add")
+#   - Forwards add()/__iter__()/__len__()/etc. so other Inductor code paths
+#     that mutate or iterate the set keep working.
+
+_VLLM_FALLBACK_NAMESPACE_PREFIXES = ("vllm::", "vllm_aiter::")
+
+
+class _VllmFallbackAllowList:
+    """Membership proxy that auto-allows vllm::*/vllm_aiter::* base_names."""
+
+    _vllm_patched = True
+
+    def __init__(self, inner):
+        self._inner = inner
+
+    def __contains__(self, item):
+        if isinstance(item, str) and item.startswith(_VLLM_FALLBACK_NAMESPACE_PREFIXES):
+            return True
+        return item in self._inner
+
+    def add(self, item):
+        self._inner.add(item)
+
+    def discard(self, item):
+        self._inner.discard(item)
+
+    def __iter__(self):
+        return iter(self._inner)
+
+    def __len__(self):
+        return len(self._inner)
+
+    def __repr__(self):
+        return f"_VllmFallbackAllowList({self._inner!r})"
+
+    def __getattr__(self, name):
+        return getattr(self._inner, name)
+
+
+def _patch_inductor_fallback_allow_list() -> None:
+    """Wrap torch._inductor.lowering.FALLBACK_ALLOW_LIST so any custom op in
+    the ``vllm::`` or ``vllm_aiter::`` namespaces is treated as a member.
+
+    Idempotent: a sentinel attribute on the proxy prevents re-wrapping.
+    """
+    try:
+        from torch._inductor import lowering as _lowering
+    except ImportError:
+        return
+
+    base = getattr(_lowering, "FALLBACK_ALLOW_LIST", None)
+    if base is None or getattr(base, "_vllm_patched", False):
+        return
+
+    _lowering.FALLBACK_ALLOW_LIST = _VllmFallbackAllowList(base)
+
+    # torch/_inductor/graph.py imports the symbol at module load time:
+    #   from torch._inductor.lowering import FALLBACK_ALLOW_LIST
+    # so we also need to overwrite the local binding in the graph module if
+    # it has already been imported.
+    try:
+        from torch._inductor import graph as _graph
+
+        if hasattr(_graph, "FALLBACK_ALLOW_LIST"):
+            _graph.FALLBACK_ALLOW_LIST = _lowering.FALLBACK_ALLOW_LIST
+    except ImportError:
+        pass
+
+
+_patch_inductor_fallback_allow_list()
diff --git a/vllm/envs.py b/vllm/envs.py
index dc11fbd224d..bb3bb34284b 100755
--- a/vllm/envs.py
+++ b/vllm/envs.py
@@ -279,6 +279,7 @@ if TYPE_CHECKING:
     VLLM_LORA_ENABLE_DUAL_STREAM: bool = False
     VLLM_GPU_NIC_PCIE_MAPPING: str = ""
     VLLM_NIC_SELECTION_VARS: str = ""
+    VLLM_PREFIX_CACHE_RETENTION_INTERVAL: int | None = None
 
 
 def get_default_cache_root():
@@ -1032,6 +1033,17 @@ environment_variables: dict[str, Callable[[], Any]] = {
         if "VLLM_PLUGINS" not in os.environ
         else os.environ["VLLM_PLUGINS"].split(",")
     ),
+    # Retain local sliding-window KV checkpoints for prefix caching.
+    # Unset (default) preserves the dense local checkpointing behavior. `0`
+    # retains only the latest completed prompt boundary. Positive values retain
+    # checkpoints at the specified interval boundaries (rounded up to the
+    # prefix-cache alignment).
+    # Applies to sliding-window attention for now but not yet Mamba/linear attention.
+    "VLLM_PREFIX_CACHE_RETENTION_INTERVAL": lambda: (
+        int(os.environ["VLLM_PREFIX_CACHE_RETENTION_INTERVAL"])
+        if "VLLM_PREFIX_CACHE_RETENTION_INTERVAL" in os.environ
+        else None
+    ),
     # a local directory to look in for unrecognized LoRA adapters.
     # only works if plugins are enabled and
     # VLLM_ALLOW_RUNTIME_LORA_UPDATING is enabled.
diff --git a/vllm/model_executor/kernels/linear/__init__.py b/vllm/model_executor/kernels/linear/__init__.py
index 39d2e86d3c3..cd2c9eb01be 100644
--- a/vllm/model_executor/kernels/linear/__init__.py
+++ b/vllm/model_executor/kernels/linear/__init__.py
@@ -45,6 +45,9 @@ from vllm.model_executor.kernels.linear.mixed_precision.dynamic_4bit import (
 from vllm.model_executor.kernels.linear.mixed_precision.exllama import (
     ExllamaLinearKernel,
 )
+from vllm.model_executor.kernels.linear.mixed_precision.humming import (
+    HummingLinearKernel,
+)
 from vllm.model_executor.kernels.linear.mixed_precision.machete import (
     MacheteLinearKernel,
 )
@@ -345,6 +348,7 @@ _POSSIBLE_KERNELS: dict[PlatformEnum, list[type[MPLinearKernel]]] = {
         MacheteLinearKernel,
         AllSparkLinearKernel,
         MarlinLinearKernel,
+        HummingLinearKernel,
         ConchLinearKernel,
         ExllamaLinearKernel,
         TritonW4A16LinearKernel,
@@ -842,7 +846,7 @@ _NVFP4_BACKEND_TO_KERNEL: dict[str, type[NvFp4LinearKernel]] = {
 }
 
 
-def init_nvfp4_linear_kernel() -> NvFp4LinearKernel:
+def init_nvfp4_linear_kernel(use_a16: bool = False) -> NvFp4LinearKernel:
     """Select and instantiate the best NVFP4 linear kernel for the
     current platform."""
     config = NvFp4LinearLayerConfig()
@@ -885,7 +889,9 @@ def init_nvfp4_linear_kernel() -> NvFp4LinearKernel:
     elif linear_backend == "auto":
         # Deprecated env-var overrides — only honoured when --linear-backend
         # is "auto". Deprecation warnings are emitted from vllm/envs.py.
-        if envs.VLLM_USE_FBGEMM:
+        if use_a16:  # force a16 if running weight-only quantization
+            force_kernel = MarlinNvFp4LinearKernel
+        elif envs.VLLM_USE_FBGEMM:
             force_kernel = FbgemmNvFp4LinearKernel
         elif envs.VLLM_USE_NVFP4_CT_EMULATIONS:
             force_kernel = EmulationNvFp4LinearKernel
diff --git a/vllm/model_executor/kernels/linear/mixed_precision/humming.py b/vllm/model_executor/kernels/linear/mixed_precision/humming.py
new file mode 100644
index 00000000000..cb02d661294
--- /dev/null
+++ b/vllm/model_executor/kernels/linear/mixed_precision/humming.py
@@ -0,0 +1,61 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Humming GEMM as a mixed-precision WNA16Int linear kernel."""
+
+import torch
+
+from vllm.platforms import current_platform
+from vllm.utils.import_utils import _has_module
+
+from .MPLinearKernel import MPLinearKernel, MPLinearLayerConfig
+
+
+class HummingLinearKernel(MPLinearKernel):
+    @classmethod
+    def get_min_capability(cls) -> int:
+        return 75
+
+    @classmethod
+    def can_implement(cls, c: MPLinearLayerConfig) -> tuple[bool, str | None]:
+        if not current_platform.is_cuda():
+            return False, "Humming is only supported on CUDA"
+        if not _has_module("humming"):
+            return False, "Humming is not installed"
+        if c.has_g_idx:
+            return False, "Humming does not support act-order (g_idx)"
+        if c.zero_points:
+            return False, "Humming linear kernel only supports symmetric weights"
+        return True, None
+
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        from vllm.model_executor.layers.quantization.utils.humming_utils import (
+            convert_linear_layer_to_humming_standard,
+            prepare_humming_layer,
+        )
+
+        name_map = {"weight": self.w_q_name, "weight_scale": self.w_s_name}
+        group_size = self.config.group_size
+        quant_config = {
+            "quant_method": "humming",
+            "dtype": "int" + str(self.config.weight_type.size_bits),
+            "group_size": 0 if group_size == -1 else group_size,
+        }
+
+        convert_linear_layer_to_humming_standard(layer=layer, name_map=name_map)
+        prepare_humming_layer(layer, quant_config)
+
+    def apply_weights(
+        self,
+        layer: torch.nn.Module,
+        x: torch.Tensor,
+        bias: torch.Tensor | None = None,
+    ) -> torch.Tensor:
+        from humming.layer import HummingMethod
+
+        flatten_inputs = x.view(-1, x.size(-1))
+        output = HummingMethod.forward_layer(
+            layer=layer,
+            inputs=flatten_inputs,
+            compute_config=layer.compute_config,
+        )
+        return output.view(*x.shape[:-1], output.size(-1))
diff --git a/vllm/model_executor/layers/batch_invariant.py b/vllm/model_executor/layers/batch_invariant.py
index 2e1beeec1b7..917c72dee8c 100644
--- a/vllm/model_executor/layers/batch_invariant.py
+++ b/vllm/model_executor/layers/batch_invariant.py
@@ -822,23 +822,35 @@ def _rms_norm_kernel(
         tl.store(output_row_start_ptr + col_idx, output, mask=mask)
 
 
-def rms_norm(
-    input: torch.Tensor, weight: torch.Tensor, eps: float = 1e-6
-) -> torch.Tensor:
+def rms_norm_batch_invariant(
+    input: torch.Tensor,
+    weight: torch.Tensor,
+    eps: float = 1e-6,
+    residual: torch.Tensor | None = None,
+) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
     """
     Compute RMS normalization using Triton kernel.
 
-    RMS Norm normalizes the input by the root mean square and scales by weight:
-    output = input / sqrt(mean(input^2) + eps) * weight
 
     Args:
         input: Input tensor of shape (..., hidden_size)
         weight: Weight tensor of shape (hidden_size,)
         eps: Small constant for numerical stability
+        residual: Optional residual tensor fused into the normalization path
 
     Returns:
-        Tensor with RMS normalization applied along the last dimension
+        RMS normalized tensor, or ``(output, residual_out)`` when ``residual``
+        is provided
     """
+    if residual is not None:
+        assert input.shape == residual.shape, (
+            f"Input shape {input.shape} must match residual shape {residual.shape}"
+        )
+        import vllm._custom_ops as ops
+
+        ops.fused_add_rms_norm(input, residual, weight, eps)
+        return input, residual
+
     assert weight.dim() == 1, "Weight must be 1-dimensional"
     assert input.shape[-1] == weight.shape[0], (
         f"Input last dimension ({input.shape[-1]}) must match "
@@ -869,26 +881,6 @@ def rms_norm(
     return output.reshape(original_shape)
 
 
-def rms_norm_batch_invariant(
-    input: torch.Tensor, weight: torch.Tensor, eps: float = 1e-6
-) -> torch.Tensor:
-    """
-    Batch-invariant wrapper for RMS normalization.
-
-    This function provides a deterministic, batch-invariant implementation
-    of RMS normalization for use with the batch_invariant mode.
-
-    Args:
-        input: Input tensor of shape (..., hidden_size)
-        weight: Weight tensor of shape (hidden_size,)
-        eps: Small constant for numerical stability
-
-    Returns:
-        RMS normalized tensor
-    """
-    return rms_norm(input, weight, eps=eps)
-
-
 def linear_batch_invariant(input, weight, bias=None):
     output = matmul_batch_invariant(input, weight.t())
 
diff --git a/vllm/model_executor/layers/fused_moe/experts/cutlass_moe.py b/vllm/model_executor/layers/fused_moe/experts/cutlass_moe.py
index d8570049af2..fa91804f35c 100644
--- a/vllm/model_executor/layers/fused_moe/experts/cutlass_moe.py
+++ b/vllm/model_executor/layers/fused_moe/experts/cutlass_moe.py
@@ -379,8 +379,7 @@ class CutlassExpertsFp8Base(mk.FusedMoEExpertsModular):
             topk_ids,
             activation,
             global_num_experts,
-            # the fp8 cutlass experts use their own expert map.
-            None,
+            expert_map,
             self.w1_scale,
             self.w2_scale,
             a1q_scale,
diff --git a/vllm/model_executor/layers/layernorm.py b/vllm/model_executor/layers/layernorm.py
index d5671eb9c1e..13b0ae78131 100644
--- a/vllm/model_executor/layers/layernorm.py
+++ b/vllm/model_executor/layers/layernorm.py
@@ -106,12 +106,16 @@ class RMSNorm(CustomOp):
         x: torch.Tensor,
         residual: torch.Tensor | None = None,
     ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
-        if (
-            envs.VLLM_BATCH_INVARIANT
-            and residual is None
-            and self.variance_size_override is None
-        ):
-            return rms_norm_batch_invariant(x, self.weight.data, self.variance_epsilon)
+        if envs.VLLM_BATCH_INVARIANT:
+            assert self.variance_size_override is None, (
+                "Batch invariance is not supported for variance_size_override"
+            )
+            return rms_norm_batch_invariant(
+                x,
+                self.weight.data,
+                self.variance_epsilon,
+                residual=residual,
+            )
 
         return self.forward_native(x, residual)
 
@@ -155,20 +159,10 @@ class GemmaRMSNorm(CustomOp):
         residual: torch.Tensor | None = None,
     ) -> torch.Tensor | tuple[torch.Tensor, torch.Tensor]:
         """PyTorch-native implementation equivalent to forward()."""
-        orig_dtype = x.dtype
-        weight = self.weight.data.float() + 1.0
-        if residual is not None:
-            x = (
-                x.float() + residual.float()
-                if orig_dtype == torch.float16
-                else x + residual
-            )
-            residual = x
-        # ir.ops.rms_norm handles fp32 upcast internally
-        out = ir.ops.rms_norm(x, weight, self.variance_epsilon)
-        return (
-            out.to(orig_dtype) if residual is None else (out.to(orig_dtype), residual)
-        )
+        weight = self.weight.float() + 1.0
+        if residual is None:
+            return ir.ops.rms_norm(x, weight, self.variance_epsilon)
+        return ir.ops.fused_add_rms_norm(x, residual, weight, self.variance_epsilon)
 
     def forward_cuda(
         self,
diff --git a/vllm/model_executor/layers/mamba/linear/__init__.py b/vllm/model_executor/layers/mamba/linear/__init__.py
new file mode 100644
index 00000000000..e69de29bb2d
diff --git a/vllm/model_executor/layers/mamba/linear/bailing_linear_attn.py b/vllm/model_executor/layers/mamba/linear/bailing_linear_attn.py
new file mode 100644
index 00000000000..dd963f829d8
--- /dev/null
+++ b/vllm/model_executor/layers/mamba/linear/bailing_linear_attn.py
@@ -0,0 +1,384 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import copy
+
+import torch
+import torch.nn.functional as F
+from transformers.configuration_utils import PretrainedConfig
+
+from vllm.config import (
+    VllmConfig,
+    get_current_vllm_config,
+)
+from vllm.distributed import (
+    get_tensor_model_parallel_rank,
+    get_tensor_model_parallel_world_size,
+)
+from vllm.forward_context import get_forward_context
+from vllm.model_executor.custom_op import PluggableLayer
+from vllm.model_executor.layers.fla.ops.layernorm_guard import (
+    RMSNormGated,
+    layernorm_fn,
+)
+from vllm.model_executor.layers.layernorm import RMSNorm
+from vllm.model_executor.layers.linear import (
+    ColumnParallelLinear,
+    QKVParallelLinear,
+    RowParallelLinear,
+)
+from vllm.model_executor.layers.mamba.linear.base import LinearAttention
+from vllm.model_executor.layers.mamba.linear.minimax_linear_attn import (
+    MiniMaxText01LinearAttention,
+    MiniMaxText01LinearKernel,
+    clear_linear_attention_cache_for_new_sequences,
+    linear_attention_decode,
+    linear_attention_prefill_and_mix,
+)
+from vllm.model_executor.layers.rotary_embedding import get_rope
+from vllm.v1.attention.backends.linear_attn import LinearAttentionMetadata
+
+
+def _build_rope_parameters(config: PretrainedConfig) -> dict | None:
+    rope_parameters = copy.deepcopy(getattr(config, "rope_parameters", None)) or {}
+    if "rope_theta" not in rope_parameters and hasattr(config, "rope_theta"):
+        rope_parameters["rope_theta"] = config.rope_theta
+    if "partial_rotary_factor" not in rope_parameters and hasattr(
+        config, "partial_rotary_factor"
+    ):
+        rope_parameters["partial_rotary_factor"] = config.partial_rotary_factor
+
+    rope_scaling = getattr(config, "rope_scaling", None)
+    if isinstance(rope_scaling, dict):
+        rope_scaling = copy.deepcopy(rope_scaling)
+        if "type" in rope_scaling and "rope_type" not in rope_scaling:
+            rope_scaling["rope_type"] = rope_scaling.pop("type")
+        rope_parameters.update(rope_scaling)
+
+    return rope_parameters or None
+
+
+class BailingGroupRMSNormGate(RMSNormGated):
+    def __init__(
+        self,
+        hidden_size,
+        eps=1e-5,
+        group_size=None,
+        norm_before_gate=True,
+        device=None,
+        dtype=None,
+    ):
+        super().__init__(
+            hidden_size,
+            eps=eps,
+            group_size=group_size,
+            norm_before_gate=norm_before_gate,
+            device=device,
+            dtype=dtype,
+            activation="sigmoid",
+        )
+        # Add custom weight loader for TP sharding
+        self.weight.weight_loader = self._weight_loader
+
+    @staticmethod
+    def _weight_loader(param: torch.nn.Parameter, loaded_weight: torch.Tensor) -> None:
+        """Load weight with TP sharding."""
+        tp_size = get_tensor_model_parallel_world_size()
+        tp_rank = get_tensor_model_parallel_rank()
+        shard_size = loaded_weight.shape[0] // tp_size
+        shard = slice(tp_rank * shard_size, (tp_rank + 1) * shard_size)
+        param.data.copy_(loaded_weight[shard].contiguous())
+
+
+# --8<-- [start:bailing_moe_linear_attention]
+@PluggableLayer.register("bailing_moe_linear_attention")
+class BailingMoELinearAttention(LinearAttention):
+    """Pluggable Bailing MoE Linear Attention layer which allows OOT backends
+    to add custom implementations.
+
+    This implements the linear attention mechanism from sglang, adapted for
+    vLLM's v1 engine with MambaBase interface support.
+    """
+
+    # --8<-- [end:bailing_moe_linear_attention]
+    def __init__(
+        self,
+        config: PretrainedConfig,
+        vllm_config: VllmConfig,
+        prefix: str = "linear_attn",
+    ):
+        super().__init__(config, vllm_config, prefix)
+
+        self.scaling = self.head_dim**-0.5
+
+        self.tp_heads = self.num_heads // self.tp_size
+
+        self.max_position_embeddings = config.max_position_embeddings
+        self.rope_theta = getattr(config, "rope_theta", 600000)
+
+        self.tp_kv_heads = self.num_heads // self.tp_size
+        self.q_size_per_rank = self.head_dim * self.tp_heads
+        self.kv_size_per_rank = self.head_dim * self.tp_kv_heads
+
+        self.use_qk_norm = getattr(config, "use_qk_norm", False)
+        self.linear_backend = "minimax"
+        self.linear_scale = self.linear_backend == "minimax"
+        self.linear_rope = getattr(config, "linear_rope", True)
+        if hasattr(config, "use_linear_silu"):
+            self.linear_silu = config.use_linear_silu
+        elif hasattr(config, "linear_silu"):
+            self.linear_silu = config.linear_silu
+        else:
+            self.linear_silu = False
+
+        self.query_key_value = QKVParallelLinear(
+            self.hidden_size,
+            self.head_dim,
+            self.num_heads,
+            self.num_heads,  # MHA: kv_heads = num_heads
+            bias=(config.use_bias or config.use_qkv_bias),
+            quant_config=self.quant_config,
+            prefix=f"{prefix}.query_key_value",
+        )
+
+        if self.use_qk_norm:
+            self.query_layernorm = RMSNorm(self.head_dim, eps=config.rms_norm_eps)
+            self.key_layernorm = RMSNorm(self.head_dim, eps=config.rms_norm_eps)
+
+        self.g_proj = ColumnParallelLinear(
+            self.hidden_size,
+            self.hidden_inner_size,
+            bias=False,
+            quant_config=self.quant_config,
+            prefix=f"{prefix}.g_proj",
+        )
+        self.dense = RowParallelLinear(
+            self.hidden_inner_size,
+            self.hidden_size,
+            bias=config.use_bias,
+            quant_config=self.quant_config,
+            prefix=f"{prefix}.dense",
+            reduce_results=True,
+        )
+
+        self.group_norm_size = getattr(config, "group_norm_size", 1)
+        self.rms_norm_eps = float(getattr(config, "rms_norm_eps", 1e-5))
+        assert self.tp_size <= self.group_norm_size, (
+            "tp_size must be <= group_norm_size for local rms norm"
+        )
+        assert self.group_norm_size % self.tp_size == 0, (
+            "group_norm_size must be divisible by tp_size"
+        )
+
+        # When group_norm_size == 1, group_size equals hidden_size // tp_size
+        self.g_norm = BailingGroupRMSNormGate(
+            hidden_size=self.hidden_inner_size // self.tp_size,
+            eps=self.rms_norm_eps,
+            group_size=(
+                self.hidden_inner_size // self.group_norm_size
+                if self.group_norm_size > 1
+                else self.hidden_inner_size // self.tp_size
+            ),
+        )
+
+        # use fp32 rotary embedding
+        rope_parameters = _build_rope_parameters(config)
+
+        self.rotary_emb = get_rope(
+            self.head_dim,
+            max_position=self.max_position_embeddings,
+            is_neox_style=True,
+            rope_parameters=rope_parameters or None,
+        )
+
+        # Build slope tensor for linear attention decay
+        slope_rate = MiniMaxText01LinearAttention._build_slope_tensor(self.num_heads)
+        if self.num_hidden_layers <= 1:
+            self.slope_rate = slope_rate * (1 + 1e-5)
+        else:
+            self.slope_rate = slope_rate * (
+                1 - self.layer_idx / (self.num_hidden_layers - 1) + 1e-5
+            )
+        self.tp_slope = self.slope_rate[
+            self.tp_rank * self.tp_heads : (self.tp_rank + 1) * self.tp_heads
+        ].contiguous()
+
+        # Register for compilation
+        compilation_config = get_current_vllm_config().compilation_config
+        if prefix in compilation_config.static_forward_context:
+            raise ValueError(f"Duplicate layer name: {prefix}")
+        compilation_config.static_forward_context[prefix] = self
+
+    @staticmethod
+    def weight_direct_load(param: torch.Tensor, loaded_weight: torch.Tensor) -> None:
+        """Load weight for linear attention layers.
+
+        For FP8 quantized parameters, we need to use the weight_loader if available,
+        as it handles special cases like tensor parallelism sharding.
+        """
+        # Check if param has a weight_loader (for vLLM ModelWeightParameter)
+        weight_loader = getattr(param, "weight_loader", None)
+        if weight_loader is not None:
+            # Use the weight_loader which handles TP sharding and quantization
+            weight_loader(param, loaded_weight)
+        else:
+            # Fall back to direct copy for standard tensors
+            assert param.size() == loaded_weight.size(), (
+                f"Shape mismatch: {param.shape} vs {loaded_weight.shape}"
+            )
+            param.data.copy_(loaded_weight)
+
+    def forward(
+        self,
+        hidden_states: torch.Tensor,
+        output: torch.Tensor,
+        positions: torch.Tensor,
+    ) -> None:
+        """Forward method called by torch.ops.vllm.linear_attention"""
+        torch.ops.vllm.linear_attention(
+            hidden_states,
+            output,
+            positions,
+            self.prefix,
+        )
+
+    def _forward(
+        self,
+        hidden_states: torch.Tensor,
+        output: torch.Tensor,
+        positions: torch.Tensor,
+    ) -> None:
+        """Actual forward implementation."""
+        forward_context = get_forward_context()
+        attn_metadata = forward_context.attn_metadata
+        if attn_metadata is not None:
+            assert isinstance(attn_metadata, dict)
+            attn_metadata = attn_metadata[self.prefix]  # type: ignore
+            assert isinstance(attn_metadata, LinearAttentionMetadata)
+            num_actual_tokens = (
+                attn_metadata.num_prefill_tokens + attn_metadata.num_decode_tokens
+            )
+        else:
+            num_actual_tokens = hidden_states.shape[0]
+
+        # QKV projection
+        qkv, _ = self.query_key_value(hidden_states[:num_actual_tokens])
+
+        # use rotary_emb support fp32
+        qkv = qkv.to(torch.float32)
+        if self.linear_silu:
+            qkv = F.silu(qkv)
+
+        # Split q, k, v
+        q, k, v = torch.split(
+            qkv,
+            [self.q_size_per_rank, self.kv_size_per_rank, self.kv_size_per_rank],
+            dim=-1,
+        )
+
+        # Apply QK norm if needed
+        if self.use_qk_norm:
+            q = q.reshape(-1, self.tp_heads, self.head_dim)
+            k = k.reshape(-1, self.tp_kv_heads, self.head_dim)
+            q = layernorm_fn(
+                q,
+                self.query_layernorm.weight.data,
+                bias=None,
+                eps=self.rms_norm_eps,
+                is_rms_norm=True,
+            )
+            k = layernorm_fn(
+                k,
+                self.key_layernorm.weight.data,
+                bias=None,
+                eps=self.rms_norm_eps,
+                is_rms_norm=True,
+            )
+            q = q.reshape(-1, self.q_size_per_rank)
+            k = k.reshape(-1, self.kv_size_per_rank)
+
+        # Apply rotary embeddings
+        if self.linear_rope:
+            q, k = self.rotary_emb(positions[:num_actual_tokens], q, k)
+
+        # Reshape to [batch, heads, seq_len, head_dim]
+        q = q.view((qkv.shape[0], self.tp_heads, self.head_dim))
+        k = k.view((qkv.shape[0], self.tp_kv_heads, self.head_dim))
+        v = v.view((qkv.shape[0], self.tp_kv_heads, self.head_dim))
+
+        # Apply scaling if using minimax backend
+        if self.linear_scale:
+            q = q * self.scaling
+
+        # Get KV cache and state indices
+        if attn_metadata is not None:
+            kv_cache = self.kv_cache[0]
+            state_indices_tensor = attn_metadata.state_indices_tensor
+            clear_linear_attention_cache_for_new_sequences(
+                kv_cache, state_indices_tensor, attn_metadata
+            )
+
+        # Compute attention
+        decode_only = getattr(attn_metadata, "num_prefills", 0) == 0
+        if attn_metadata is None:
+            hidden = torch.empty(
+                (q.shape[0], q.shape[1] * q.shape[2]), device=q.device, dtype=q.dtype
+            )
+        else:
+            if not decode_only:
+                hidden = self._prefill_and_mix_infer(
+                    q, k, v, kv_cache, state_indices_tensor, attn_metadata
+                )
+            else:
+                hidden = self._decode_infer(
+                    q, k, v, kv_cache, state_indices_tensor, attn_metadata
+                )
+
+        # Apply group norm and gate (matching SGLang behavior)
+        gate, _ = self.g_proj(hidden_states[:num_actual_tokens])
+
+        if self.group_norm_size > 1:
+            hidden = self.g_norm(hidden, gate)
+        else:
+            hidden = self.g_norm(hidden)
+            hidden = F.sigmoid(gate) * hidden
+
+        hidden = hidden.to(hidden_states.dtype)
+
+        # Output projection
+        dense_out, _ = self.dense(hidden)
+        output[:num_actual_tokens] = dense_out
+
+    def _prefill_and_mix_infer(
+        self, q, k, v, kv_cache, state_indices_tensor, attn_metadata
+    ):
+        """Handle prefill (mixed with decode if any)."""
+        return linear_attention_prefill_and_mix(
+            q=q,
+            k=k,
+            v=v,
+            kv_cache=kv_cache,
+            state_indices_tensor=state_indices_tensor,
+            attn_metadata=attn_metadata,
+            slope_rate=self.tp_slope,
+            block_size=self.BLOCK,
+            decode_fn=self._decode_infer,
+            prefix_fn=MiniMaxText01LinearKernel.jit_linear_forward_prefix,
+            layer_idx=self.layer_idx,
+        )
+
+    def _decode_infer(self, q, k, v, kv_cache, state_indices_tensor, attn_metadata):
+        """Handle decode (single token per sequence)."""
+        hidden = linear_attention_decode(
+            q,
+            k,
+            v,
+            kv_cache,
+            self.tp_slope,
+            state_indices_tensor,
+            q_start=0,
+            q_end=attn_metadata.num_decode_tokens,
+            slot_start=0,
+            slot_end=attn_metadata.num_decodes,
+            block_size=32,
+        )
+        return hidden
diff --git a/vllm/model_executor/layers/mamba/linear/base.py b/vllm/model_executor/layers/mamba/linear/base.py
new file mode 100644
index 00000000000..73df0718730
--- /dev/null
+++ b/vllm/model_executor/layers/mamba/linear/base.py
@@ -0,0 +1,66 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import torch
+from transformers import PretrainedConfig
+
+from vllm.config import (
+    VllmConfig,
+)
+from vllm.distributed.parallel_state import (
+    get_tensor_model_parallel_rank,
+    get_tensor_model_parallel_world_size,
+)
+from vllm.model_executor.custom_op import PluggableLayer
+from vllm.model_executor.layers.mamba.abstract import MambaBase
+from vllm.model_executor.layers.mamba.mamba_utils import (
+    MambaStateDtypeCalculator,
+    MambaStateShapeCalculator,
+)
+from vllm.model_executor.models.utils import extract_layer_index
+from vllm.v1.attention.backends.registry import MambaAttentionBackendEnum
+
+
+class LinearAttention(PluggableLayer, MambaBase):
+    """Base class for Linear attention layer."""
+
+    def __init__(
+        self, config: PretrainedConfig, vllm_config: VllmConfig, prefix: str = ""
+    ):
+        super().__init__()
+        self.layer_idx = extract_layer_index(prefix)
+        self.prefix = prefix
+        self.model_config = vllm_config.model_config
+        self.cache_config = vllm_config.cache_config
+        self.quant_config = vllm_config.quant_config
+
+        self.BLOCK = getattr(config, "block", 256)
+        self.hidden_size = config.hidden_size
+        self.num_heads = config.num_attention_heads
+        self.num_hidden_layers = config.num_hidden_layers
+        self.head_dim = (
+            config.head_dim
+            if hasattr(config, "head_dim")
+            else config.hidden_size // self.num_heads
+        )
+        self.hidden_inner_size = self.head_dim * self.num_heads
+
+        self.tp_size = get_tensor_model_parallel_world_size()
+        self.tp_rank = get_tensor_model_parallel_rank()
+        assert self.num_heads % self.tp_size == 0
+
+    @property
+    def mamba_type(self) -> MambaAttentionBackendEnum:
+        return MambaAttentionBackendEnum.LINEAR
+
+    def get_state_dtype(self) -> tuple[torch.dtype]:
+        assert self.model_config is not None
+        assert self.cache_config is not None
+        return MambaStateDtypeCalculator.linear_attention_state_dtype(
+            self.model_config.dtype,
+            self.cache_config.mamba_cache_dtype,
+        )
+
+    def get_state_shape(self) -> tuple[tuple[int, int, int], ...]:
+        return MambaStateShapeCalculator.linear_attention_state_shape(
+            num_heads=self.num_heads, tp_size=self.tp_size, head_dim=self.head_dim
+        )
diff --git a/vllm/model_executor/layers/mamba/linear_attn.py b/vllm/model_executor/layers/mamba/linear/minimax_linear_attn.py
similarity index 81%
rename from vllm/model_executor/layers/mamba/linear_attn.py
rename to vllm/model_executor/layers/mamba/linear/minimax_linear_attn.py
index 5724e037c66..14c7d3d5f04 100644
--- a/vllm/model_executor/layers/mamba/linear_attn.py
+++ b/vllm/model_executor/layers/mamba/linear/minimax_linear_attn.py
@@ -7,30 +7,20 @@ from collections.abc import Callable
 import torch
 import torch.nn.functional as F
 from einops import rearrange
-from torch import nn
 
-from vllm.config import CacheConfig, ModelConfig, get_current_vllm_config
-from vllm.distributed.parallel_state import (
-    get_tensor_model_parallel_rank,
-    get_tensor_model_parallel_world_size,
-)
+from vllm.config import get_current_vllm_config
 from vllm.forward_context import ForwardContext, get_forward_context
+from vllm.model_executor.custom_op import PluggableLayer
 from vllm.model_executor.layers.lightning_attn import (
     lightning_attention,
     linear_decode_forward_triton,
 )
 from vllm.model_executor.layers.linear import ColumnParallelLinear, RowParallelLinear
-from vllm.model_executor.layers.mamba.abstract import MambaBase
-from vllm.model_executor.layers.mamba.mamba_utils import (
-    MambaStateDtypeCalculator,
-    MambaStateShapeCalculator,
-)
+from vllm.model_executor.layers.mamba.linear.base import LinearAttention
 from vllm.model_executor.layers.minimax_rms_norm import MiniMaxText01RMSNormTP
-from vllm.model_executor.layers.quantization import QuantizationConfig
 from vllm.utils.torch_utils import direct_register_custom_op
 from vllm.v1.attention.backend import AttentionMetadata
 from vllm.v1.attention.backends.linear_attn import LinearAttentionMetadata
-from vllm.v1.attention.backends.registry import MambaAttentionBackendEnum
 
 
 def clear_linear_attention_cache_for_new_sequences(
@@ -157,79 +147,39 @@ class MiniMaxText01LinearKernel:
         return rearrange(output.squeeze(0), "h n d -> n (h d)")
 
 
-class MiniMaxText01LinearAttention(nn.Module, MambaBase):
-    @property
-    def mamba_type(self) -> MambaAttentionBackendEnum:
-        return MambaAttentionBackendEnum.LINEAR
-
-    def get_state_dtype(self) -> tuple[torch.dtype]:
-        assert self.model_config is not None
-        assert self.cache_config is not None
-        return MambaStateDtypeCalculator.linear_attention_state_dtype(
-            self.model_config.dtype,
-            self.cache_config.mamba_cache_dtype,
-        )
-
-    def get_state_shape(self) -> tuple[tuple[int, int, int], ...]:
-        return MambaStateShapeCalculator.linear_attention_state_shape(
-            num_heads=self.num_heads, tp_size=self.tp_size, head_dim=self.head_dim
-        )
-
+@PluggableLayer.register("minimax_text_01_attention")
+class MiniMaxText01LinearAttention(LinearAttention):
     def __init__(
         self,
-        hidden_size: int,
-        hidden_inner_size: int,
-        num_heads: int,
-        head_dim: int,
-        max_position: int,
-        block_size: int,
-        num_hidden_layer: int,
-        model_config: ModelConfig | None = None,
-        cache_config: CacheConfig | None = None,
-        quant_config: QuantizationConfig | None = None,
-        layer_idx: int = 0,
-        linear_layer_idx: int = 0,
+        config,
+        vllm_config,
         prefix: str = "linear_attn",
     ) -> None:
-        super().__init__()
+        super().__init__(config, vllm_config, prefix)
 
-        self.layer_idx = layer_idx
-        self.BLOCK = block_size
-        self.hidden_size = hidden_size
-        self.num_heads = num_heads
-        self.head_dim = head_dim
-        self.total_num_heads = num_heads
-        self.hidden_inner_size = hidden_inner_size
-        self.tp_size = get_tensor_model_parallel_world_size()
-        self.tp_rank = get_tensor_model_parallel_rank()
-
-        assert self.total_num_heads % self.tp_size == 0
-        self.tp_heads = self.total_num_heads // self.tp_size
+        self.tp_heads = self.num_heads // self.tp_size
         self.qkv_size = self.num_heads * self.head_dim
         self.tp_hidden = self.head_dim * self.tp_heads
-        self.model_config = model_config
-        self.cache_config = cache_config
-        self.prefix = prefix
 
         self.qkv_proj = ColumnParallelLinear(
-            hidden_size,
+            self.hidden_size,
             self.hidden_inner_size * 3,
             bias=False,
-            quant_config=quant_config,
+            quant_config=self.quant_config,
             prefix=f"{prefix}.qkv_proj",
         )
         self.output_gate = ColumnParallelLinear(
-            hidden_size,
+            self.hidden_size,
             self.hidden_inner_size,
             bias=False,
-            quant_config=quant_config,
+            quant_config=self.quant_config,
             prefix=f"{prefix}.output_gate",
         )
         self.out_proj = RowParallelLinear(
             self.hidden_inner_size,
-            hidden_size,
+            self.hidden_size,
             bias=False,
-            quant_config=quant_config,
+            quant_config=self.quant_config,
             prefix=f"{prefix}.out_proj",
         )
         self.norm = MiniMaxText01RMSNormTP(
@@ -238,11 +188,11 @@ class MiniMaxText01LinearAttention(nn.Module, MambaBase):
         )
 
         slope_rate = MiniMaxText01LinearAttention._build_slope_tensor(self.num_heads)
-        if num_hidden_layer <= 1:
+        if self.num_hidden_layers <= 1:
             self.slope_rate = slope_rate * (1 + 1e-5)
         else:
             self.slope_rate = slope_rate * (
-                1 - layer_idx / (num_hidden_layer - 1) + 1e-5
+                1 - self.layer_idx / (self.num_hidden_layers - 1) + 1e-5
             )
         self.tp_slope = self.slope_rate[
             self.tp_rank * self.tp_heads : (self.tp_rank + 1) * self.tp_heads
diff --git a/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors.py b/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors.py
index f48a3f01d21..b59e12e8e1b 100644
--- a/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors.py
+++ b/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors.py
@@ -30,6 +30,9 @@ from vllm.model_executor.layers.quantization.base_config import (
     QuantizationConfig,
     QuantizeMethodBase,
 )
+from vllm.model_executor.layers.quantization.compressed_tensors.compressed_tensors_embedding import (  # noqa: E501
+    CompressedTensorsEmbeddingWNA16Int,
+)
 from vllm.model_executor.layers.quantization.compressed_tensors.compressed_tensors_moe import (  # noqa: E501
     CompressedTensorsMoEMethod,
 )
@@ -40,11 +43,11 @@ from vllm.model_executor.layers.quantization.compressed_tensors.schemes import (
     CompressedTensorsW4A4Mxfp4,
     CompressedTensorsW4A8Fp8,
     CompressedTensorsW4A8Int,
-    CompressedTensorsW4A16Fp4,
     CompressedTensorsW8A8Fp8,
     CompressedTensorsW8A8Int8,
     CompressedTensorsW8A8Mxfp8,
     CompressedTensorsW8A16Fp8,
+    CompressedTensorsWNA8O8Int,
     CompressedTensorsWNA16,
 )
 from vllm.model_executor.layers.quantization.compressed_tensors.transform.linear import (  # noqa: E501
@@ -57,7 +60,10 @@ from vllm.model_executor.layers.quantization.compressed_tensors.utils import (
     should_ignore_layer,
 )
 from vllm.model_executor.layers.quantization.kv_cache import BaseKVCacheMethod
-from vllm.model_executor.layers.vocab_parallel_embedding import ParallelLMHead
+from vllm.model_executor.layers.vocab_parallel_embedding import (
+    ParallelLMHead,
+    VocabParallelEmbedding,
+)
 from vllm.platforms import current_platform
 
 if TYPE_CHECKING:
@@ -178,6 +184,24 @@ class CompressedTensorsConfig(QuantizationConfig):
                 layer.scheme = quant_scheme
                 return CompressedTensorsLinearMethod(self)
 
+        # ParallelLMHead subclasses VocabParallelEmbedding but is handled above as
+        # a linear; only true embedding lookups land here.
+        if isinstance(layer, VocabParallelEmbedding):
+            scheme_dict = self.get_scheme_dict(layer, layer_name=prefix)
+            weight_quant = scheme_dict.get("weights") if scheme_dict else None
+            if weight_quant is None:
+                return None  # unquantized embedding
+            if not (
+                isinstance(weight_quant, QuantizationArgs)
+                and self._is_wNa16_group_channel(weight_quant, None)
+                and weight_quant.type == QuantizationType.INT
+            ):
+                raise ValueError(
+                    "compressed-tensors embeddings only support weight-only INT "
+                    f"group/channel (WNA16) quantization, got: {weight_quant}"
+                )
+            return CompressedTensorsEmbeddingWNA16Int(weight_quant)
+
         if isinstance(layer, Attention):
             return CompressedTensorsKVCacheMethod(self)
         if isinstance(layer, RoutedExperts):
@@ -325,6 +349,15 @@ class CompressedTensorsConfig(QuantizationConfig):
                                 quant_config.get("input_activations")
                             )
                         )
+
+                # Static output-activation quant is applied as a float fake-quant
+                # on the layer output; capture it when present.
+                target_scheme_map[target]["output_activations"] = None
+                output_activations = quant_config.get("output_activations")
+                if output_activations:
+                    target_scheme_map[target]["output_activations"] = (
+                        QuantizationArgs.model_validate(output_activations)
+                    )
         return target_scheme_map
 
     @classmethod
@@ -605,10 +638,56 @@ class CompressedTensorsConfig(QuantizationConfig):
 
         return is_channel_group and input_quant_none and is_static
 
+    @staticmethod
+    def _is_wNa8o8_int(
+        weight_quant: QuantizationArgs,
+        input_quant: QuantizationArgs | None,
+        output_quant: QuantizationArgs | None,
+        format: str | None,
+    ) -> bool:
+        """Weight N-bit INT (pack-quantized for sub-byte, int-quantized for 8-bit)
+        with static per-tensor INT8 input/output activation quant, applied as a float
+        fake-quant around a weight-only matmul."""
+        is_int_pack_format = format in (
+            CompressionFormat.pack_quantized.value,
+            CompressionFormat.int_quantized.value,
+        )
+        is_channel_group = weight_quant.strategy in (
+            QuantizationStrategy.CHANNEL.value,
+            QuantizationStrategy.GROUP.value,
+        )
+        is_static_int = (
+            weight_quant.type == QuantizationType.INT and not weight_quant.dynamic
+        )
+        is_intN_weight = is_static_int and is_channel_group and is_int_pack_format
+        is_static_int8_in = (
+            input_quant is not None
+            and input_quant.type == QuantizationType.INT
+            and input_quant.strategy == QuantizationStrategy.TENSOR.value
+            and input_quant.num_bits == 8
+            and not input_quant.dynamic
+        )
+        is_static_int8_out = (
+            output_quant is not None
+            and output_quant.type == QuantizationType.INT
+            and output_quant.strategy == QuantizationStrategy.TENSOR.value
+            and output_quant.num_bits == 8
+            and not output_quant.dynamic
+        )
+        # Static int8-activation layers, plus sub-byte weight-only layers (e.g.
+        # 2-bit lm_head) that marlin-backed WNA16 cannot serve. Standard 4/8-bit
+        # weight-only (no activations) falls through to WNA16.
+        is_subbyte_weight_only = weight_quant.num_bits not in WNA16_SUPPORTED_BITS
+        needs_wNa8o8 = is_intN_weight and (
+            (is_static_int8_in and is_static_int8_out) or is_subbyte_weight_only
+        )
+        return needs_wNa8o8
+
     def _get_scheme_from_parts(
         self,
         weight_quant: QuantizationArgs,
         input_quant: QuantizationArgs,
+        output_quant: QuantizationArgs | None = None,
         format: str | None = None,
         layer_name: str | None = None,
     ) -> "CompressedTensorsScheme":
@@ -616,8 +695,16 @@ class CompressedTensorsConfig(QuantizationConfig):
         format = format if format is not None else self.quant_format
 
         # Detect If Mixed Precision
-        if self._is_nvfp4_format(weight_quant) and input_quant is None:
-            return CompressedTensorsW4A16Fp4()
+        if self._is_nvfp4_format(weight_quant):
+            if input_quant is None:
+                return CompressedTensorsW4A4Fp4(use_a16=True)
+
+            if not self._is_nvfp4_format(input_quant):
+                raise ValueError(
+                    "For NVFP4 weights, input quantization must also be NVFP4 format, ",
+                    "None for NVFP4A16",
+                )
+            return CompressedTensorsW4A4Fp4()
 
         if self._is_mxfp4(weight_quant):
             return CompressedTensorsW4A4Mxfp4()
@@ -634,6 +721,19 @@ class CompressedTensorsConfig(QuantizationConfig):
                 actorder=weight_quant.actorder,
             )
 
+        # Must come before the WNA16 check; standard 4/8-bit weight-only (no
+        # output-activation scale) still falls through to WNA16.
+        if self._is_wNa8o8_int(weight_quant, input_quant, output_quant, format):
+            return CompressedTensorsWNA8O8Int(
+                num_bits=weight_quant.num_bits,
+                strategy=weight_quant.strategy,
+                group_size=weight_quant.group_size,
+                has_input_act=input_quant is not None,
+                has_output_act=output_quant is not None,
+                layer_name=layer_name,
+                quant_format=format,
+            )
+
         if (
             self._is_wNa16_group_channel(weight_quant, input_quant)
             and (format == CompressionFormat.pack_quantized.value)
@@ -650,11 +750,6 @@ class CompressedTensorsConfig(QuantizationConfig):
 
         act_quant_format = is_activation_quantization_format(format)
         if act_quant_format:
-            if self._is_nvfp4_format(weight_quant) and self._is_nvfp4_format(
-                input_quant
-            ):
-                return CompressedTensorsW4A4Fp4()
-
             if self._is_fp8_w8a8(weight_quant, input_quant):
                 is_fp8_w8a8_supported = self._check_scheme_supported(
                     CompressedTensorsW8A8Fp8.get_min_capability(), error=False
@@ -706,7 +801,10 @@ class CompressedTensorsConfig(QuantizationConfig):
                     input_symmetric=input_quant.symmetric,
                 )
 
-        raise NotImplementedError("No compressed-tensors compatible scheme was found.")
+        raise NotImplementedError(
+            f"No compressed-tensors compatible scheme was found for {layer_name=}, "
+            f"{weight_quant=}, {input_quant=}, {output_quant=}, {format=}"
+        )
 
     def get_scheme(
         self, layer: torch.nn.Module, layer_name: str | None = None
@@ -729,10 +827,12 @@ class CompressedTensorsConfig(QuantizationConfig):
 
         weight_quant = None
         input_quant = None
+        output_quant = None
         format = None
         if scheme_dict:
             weight_quant = scheme_dict.get("weights")
             input_quant = scheme_dict.get("input_activations")
+            output_quant = scheme_dict.get("output_activations")
             format = scheme_dict.get("format")
 
         if weight_quant is None:
@@ -744,6 +844,7 @@ class CompressedTensorsConfig(QuantizationConfig):
             scheme = self._get_scheme_from_parts(  # type: ignore
                 weight_quant=weight_quant,
                 input_quant=input_quant,
+                output_quant=output_quant,
                 format=format,
                 layer_name=layer_name,
             )
diff --git a/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_embedding.py b/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_embedding.py
new file mode 100644
index 00000000000..23d25261301
--- /dev/null
+++ b/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_embedding.py
@@ -0,0 +1,170 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Quantized embedding method for compressed-tensors.
+
+Adds dequant-on-lookup support for a pack-quantized ``VocabParallelEmbedding``
+(2-8 bit INT, channel- or group-quantized). Only the gathered token rows are
+unpacked and dequantized, so the packed weight is never densified.
+"""
+
+import torch
+from compressed_tensors.quantization import QuantizationArgs, QuantizationStrategy
+
+from vllm.model_executor.layers.quantization.base_config import QuantizeMethodBase
+from vllm.model_executor.parameter import (
+    BasevLLMParameter,
+    ChannelQuantScaleParameter,
+    GroupQuantScaleParameter,
+    PackedvLLMParameter,
+)
+from vllm.triton_utils import tl, triton
+
+__all__ = ["CompressedTensorsEmbeddingWNA16Int"]
+
+
+@triton.jit
+def _dequant_gather_kernel(
+    ids_ptr,
+    packed_ptr,
+    scale_ptr,
+    out_ptr,
+    hidden,
+    packed_cols,
+    num_groups,
+    NUM_BITS: tl.constexpr,
+    PACK_FACTOR: tl.constexpr,
+    GROUP_SIZE: tl.constexpr,
+    BLOCK: tl.constexpr,
+):
+    """Gather embedding rows by token id, unpack int32-packed INT weights, and
+    dequantize to ``out`` dtype in one pass (no int8 intermediate)."""
+    row = tl.program_id(0)
+    col = tl.program_id(1) * BLOCK + tl.arange(0, BLOCK)
+    col_mask = col < hidden
+    tid = tl.load(ids_ptr + row).to(tl.int64)
+
+    packed_idx = col // PACK_FACTOR
+    shift = (col % PACK_FACTOR) * NUM_BITS
+    packed = tl.load(
+        packed_ptr + tid * packed_cols + packed_idx, mask=col_mask, other=0
+    )
+    q = ((packed >> shift) & ((1 << NUM_BITS) - 1)) - (1 << (NUM_BITS - 1))
+
+    if GROUP_SIZE == 0:  # channel: one scale per row
+        scale = tl.load(scale_ptr + tid)
+    else:  # group: one scale per (row, group)
+        grp = col // GROUP_SIZE
+        scale = tl.load(scale_ptr + tid * num_groups + grp, mask=col_mask, other=0.0)
+
+    out = q.to(tl.float32) * scale.to(tl.float32)
+    tl.store(
+        out_ptr + row * hidden + col, out.to(out_ptr.dtype.element_ty), mask=col_mask
+    )
+
+
+def _dequant_gather_triton(
+    ids: torch.Tensor,
+    weight_packed: torch.Tensor,
+    weight_scale: torch.Tensor,
+    hidden: int,
+    num_bits: int,
+) -> torch.Tensor:
+    n = ids.numel()
+    out = torch.empty(n, hidden, dtype=weight_scale.dtype, device=weight_packed.device)
+    num_groups = weight_scale.shape[1]
+    group_size = 0 if num_groups == 1 else hidden // num_groups
+    block = min(triton.next_power_of_2(hidden), 1024)
+    grid = (n, triton.cdiv(hidden, block))
+    _dequant_gather_kernel[grid](
+        ids,
+        weight_packed,
+        weight_scale,
+        out,
+        hidden,
+        weight_packed.shape[1],
+        num_groups,
+        NUM_BITS=num_bits,
+        PACK_FACTOR=32 // num_bits,
+        GROUP_SIZE=group_size,
+        BLOCK=block,
+    )
+    return out
+
+
+class CompressedTensorsEmbeddingWNA16Int(QuantizeMethodBase):
+    def __init__(self, weight_quant: QuantizationArgs):
+        self.num_bits = weight_quant.num_bits
+        self.pack_factor = 32 // self.num_bits
+        self.strategy = weight_quant.strategy
+        self.group_size = weight_quant.group_size
+        self.is_group = (
+            self.strategy == QuantizationStrategy.GROUP.value
+            and self.group_size is not None
+        )
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        input_size_per_partition: int,
+        output_partition_sizes: list[int],
+        input_size: int,
+        output_size: int,
+        params_dtype: torch.dtype,
+        **extra_weight_attrs,
+    ):
+        weight_loader = extra_weight_attrs["weight_loader"]
+        # Embedding weight is [num_embeddings(vocab), embedding_dim(hidden)];
+        # vocab is the output (partitioned) dim, hidden is the input dim.
+        vocab_pp = sum(output_partition_sizes)
+        hidden = input_size_per_partition
+        layer.hidden_size = hidden
+
+        weight_packed = PackedvLLMParameter(
+            input_dim=1,
+            output_dim=0,
+            packed_dim=1,
+            packed_factor=self.pack_factor,
+            weight_loader=weight_loader,
+            data=torch.empty(vocab_pp, hidden // self.pack_factor, dtype=torch.int32),
+        )
+
+        if self.is_group:
+            assert hidden % self.group_size == 0
+            weight_scale = GroupQuantScaleParameter(
+                output_dim=0,
+                input_dim=1,
+                weight_loader=weight_loader,
+                data=torch.empty(
+                    vocab_pp, hidden // self.group_size, dtype=params_dtype
+                ),
+            )
+        else:
+            weight_scale = ChannelQuantScaleParameter(
+                output_dim=0,
+                weight_loader=weight_loader,
+                data=torch.empty(vocab_pp, 1, dtype=params_dtype),
+            )
+
+        weight_shape = BasevLLMParameter(
+            data=torch.empty(2, dtype=torch.int64), weight_loader=weight_loader
+        )
+
+        layer.register_parameter("weight_packed", weight_packed)
+        layer.register_parameter("weight_scale", weight_scale)
+        layer.register_parameter("weight_shape", weight_shape)
+
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        pass
+
+    def embedding(self, layer: torch.nn.Module, input_: torch.Tensor) -> torch.Tensor:
+        ids = input_.reshape(-1).contiguous()
+        hidden = layer.hidden_size
+        deq = _dequant_gather_triton(
+            ids, layer.weight_packed, layer.weight_scale, hidden, self.num_bits
+        )
+        return deq.reshape(*input_.shape, hidden)
+
+    def apply(self, layer: torch.nn.Module, *args, **kwargs) -> torch.Tensor:
+        raise NotImplementedError(
+            "CompressedTensorsEmbeddingWNA16Int supports embedding lookup only"
+        )
diff --git a/vllm/model_executor/layers/quantization/compressed_tensors/schemes/__init__.py b/vllm/model_executor/layers/quantization/compressed_tensors/schemes/__init__.py
index 6aacd9e7ae5..d81db4a052f 100644
--- a/vllm/model_executor/layers/quantization/compressed_tensors/schemes/__init__.py
+++ b/vllm/model_executor/layers/quantization/compressed_tensors/schemes/__init__.py
@@ -6,21 +6,21 @@ from .compressed_tensors_w4a4_mxfp4 import CompressedTensorsW4A4Mxfp4
 from .compressed_tensors_w4a4_nvfp4 import CompressedTensorsW4A4Fp4
 from .compressed_tensors_w4a8_fp8 import CompressedTensorsW4A8Fp8
 from .compressed_tensors_w4a8_int import CompressedTensorsW4A8Int
-from .compressed_tensors_w4a16_nvfp4 import CompressedTensorsW4A16Fp4
 from .compressed_tensors_w8a8_fp8 import CompressedTensorsW8A8Fp8
 from .compressed_tensors_w8a8_int8 import CompressedTensorsW8A8Int8
 from .compressed_tensors_w8a8_mxfp8 import CompressedTensorsW8A8Mxfp8
 from .compressed_tensors_w8a16_fp8 import CompressedTensorsW8A16Fp8
+from .compressed_tensors_wNa8o8 import CompressedTensorsWNA8O8Int
 from .compressed_tensors_wNa16 import WNA16_SUPPORTED_BITS, CompressedTensorsWNA16
 
 __all__ = [
     "CompressedTensorsScheme",
     "CompressedTensorsWNA16",
+    "CompressedTensorsWNA8O8Int",
     "CompressedTensorsW8A16Fp8",
     "CompressedTensorsW8A8Int8",
     "CompressedTensorsW8A8Fp8",
     "WNA16_SUPPORTED_BITS",
-    "CompressedTensorsW4A16Fp4",
     "CompressedTensorsW4A4Mxfp4",
     "CompressedTensorsW4A4Fp4",
     "CompressedTensorsW4A8Int",
diff --git a/vllm/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w4a16_nvfp4.py b/vllm/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w4a16_nvfp4.py
deleted file mode 100644
index 87ef9162ab9..00000000000
--- a/vllm/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w4a16_nvfp4.py
+++ /dev/null
@@ -1,109 +0,0 @@
-# SPDX-License-Identifier: Apache-2.0
-# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
-from collections.abc import Callable
-
-import torch
-from torch.nn.parameter import Parameter
-
-from vllm.model_executor.layers.quantization.compressed_tensors.schemes import (
-    CompressedTensorsScheme,
-)
-from vllm.model_executor.layers.quantization.utils.marlin_utils_fp4 import (
-    apply_fp4_marlin_linear,
-    prepare_fp4_layer_for_marlin,
-)
-from vllm.model_executor.parameter import (
-    GroupQuantScaleParameter,
-    ModelWeightParameter,
-    PerTensorScaleParameter,
-)
-
-__all__ = ["CompressedTensorsW4A16Fp4"]
-
-
-class CompressedTensorsW4A16Fp4(CompressedTensorsScheme):
-    def __init__(self):
-        self.group_size = 16
-
-    @classmethod
-    def get_min_capability(cls) -> int:
-        # don't restrict as emulations
-        return 75
-
-    def create_weights(
-        self,
-        layer: torch.nn.Module,
-        output_partition_sizes: list[int],
-        input_size_per_partition: int,
-        params_dtype: torch.dtype,
-        weight_loader: Callable,
-        **kwargs,
-    ):
-        output_size_per_partition = sum(output_partition_sizes)
-        layer.logical_widths = output_partition_sizes
-        layer.input_size_per_partition = input_size_per_partition
-        layer.output_size_per_partition = output_size_per_partition
-
-        # Weight
-        weight = ModelWeightParameter(
-            data=torch.empty(
-                sum(output_partition_sizes),
-                input_size_per_partition // 2,
-                dtype=torch.uint8,
-            ),
-            input_dim=1,
-            output_dim=0,
-            weight_loader=weight_loader,
-        )
-        layer.register_parameter("weight_packed", weight)
-
-        # Global Weight Scale
-        weight_global_scale = PerTensorScaleParameter(
-            data=torch.empty(len(output_partition_sizes), dtype=torch.float32),
-            weight_loader=weight_loader,
-        )
-        layer.register_parameter("weight_global_scale", weight_global_scale)
-
-        # Per Group Weight Scale
-        weight_scale = GroupQuantScaleParameter(
-            data=torch.empty(
-                sum(output_partition_sizes),
-                input_size_per_partition // self.group_size,
-                dtype=torch.float8_e4m3fn,
-            ),
-            input_dim=1,
-            output_dim=0,
-            weight_loader=weight_loader,
-        )
-
-        layer.register_parameter("weight_scale", weight_scale)
-
-    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
-        # Process parameters for marlin repacking
-
-        # Rename weight_packed to weight that marlin expects
-        layer.weight = Parameter(layer.weight_packed.data, requires_grad=False)
-        del layer.weight_packed
-        # ct stores the inverse of what is expected by the marlin kernel
-        layer.weight_global_scale = Parameter(
-            1.0 / layer.weight_global_scale.max().to(torch.float32), requires_grad=False
-        )
-
-        prepare_fp4_layer_for_marlin(layer)
-
-    def apply_weights(
-        self,
-        layer: torch.nn.Module,
-        x: torch.Tensor,
-        bias: torch.Tensor | None = None,
-    ) -> torch.Tensor:
-        return apply_fp4_marlin_linear(
-            input=x,
-            weight=layer.weight,
-            weight_scale=layer.weight_scale,
-            weight_global_scale=layer.weight_global_scale,
-            workspace=layer.workspace,
-            size_n=layer.output_size_per_partition,
-            size_k=layer.input_size_per_partition,
-            bias=bias,
-        )
diff --git a/vllm/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w4a4_nvfp4.py b/vllm/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w4a4_nvfp4.py
index c818f334589..f682091ae30 100644
--- a/vllm/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w4a4_nvfp4.py
+++ b/vllm/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_w4a4_nvfp4.py
@@ -23,8 +23,9 @@ __all__ = ["CompressedTensorsW4A4Fp4"]
 
 
 class CompressedTensorsW4A4Fp4(CompressedTensorsScheme):
-    def __init__(self):
-        self.kernel = init_nvfp4_linear_kernel()
+    def __init__(self, use_a16: bool = False):
+        self.use_a16 = use_a16
+        self.kernel = init_nvfp4_linear_kernel(use_a16=use_a16)
         self.group_size = 16
 
     @classmethod
@@ -79,46 +80,57 @@ class CompressedTensorsW4A4Fp4(CompressedTensorsScheme):
 
         layer.register_parameter("weight_scale", weight_scale)
 
-        input_global_scale = PerTensorScaleParameter(
-            data=torch.empty(len(output_partition_sizes), dtype=torch.float32),
-            weight_loader=weight_loader,
-        )
-        layer.register_parameter("input_global_scale", input_global_scale)
+        if not self.use_a16:
+            input_global_scale = PerTensorScaleParameter(
+                data=torch.empty(len(output_partition_sizes), dtype=torch.float32),
+                weight_loader=weight_loader,
+            )
+            layer.register_parameter("input_global_scale", input_global_scale)
 
     def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
         # Rename CT checkpoint names to standardized names
         layer.weight = layer.weight_packed
         del layer.weight_packed
 
-        if (
-            torch.unique(layer.input_global_scale).numel() != 1
-            or torch.unique(layer.weight_global_scale).numel() != 1
-        ):
+        # Check for mismatched weight global scales
+        if torch.unique(layer.weight_global_scale).numel() != 1:
             logger.warning_once(
-                "In NVFP4 linear, the global scale for input or weight are different"
+                "In NVFP4 linear, the weight global scale is different"
                 " for parallel layers (e.g. q_proj, k_proj, v_proj). This "
                 " will likely result in reduced accuracy. Please verify the model"
                 " accuracy. Consider using a checkpoint with a shared global NVFP4"
                 " scale for fused layers."
             )
 
-        # Process global scales (CT stores as divisors, i.e. 1/scale)
-        input_global_scale_inv = layer.input_global_scale.max().to(torch.float32)
-        layer.input_global_scale = Parameter(
-            (1.0 / input_global_scale_inv).to(torch.float32), requires_grad=False
-        )
+        # Process weight global scale (CT stores as divisors, i.e. 1/scale)
         weight_global_scale = layer.weight_global_scale.max().to(torch.float32)
         layer.weight_global_scale = Parameter(
             1.0 / weight_global_scale, requires_grad=False
         )
 
-        # Pre-compute alpha and inverse for runtime quantization
-        layer.input_global_scale_inv = Parameter(
-            input_global_scale_inv, requires_grad=False
-        )
-        layer.alpha = Parameter(
-            layer.input_global_scale * layer.weight_global_scale, requires_grad=False
-        )
+        if not self.use_a16:
+            if torch.unique(layer.input_global_scale).numel() != 1:
+                logger.warning_once(
+                    "In NVFP4 linear, the input global scale is different"
+                    " for parallel layers (e.g. q_proj, k_proj, v_proj). This "
+                    " will likely result in reduced accuracy. Please verify the model"
+                    " accuracy. Consider using a checkpoint with a shared global NVFP4"
+                    " scale for fused layers."
+                )
+            # Process input global scale and pre-compute alpha for W4A4 mode
+            input_global_scale_inv = layer.input_global_scale.max().to(torch.float32)
+            layer.input_global_scale = Parameter(
+                (1.0 / input_global_scale_inv).to(torch.float32), requires_grad=False
+            )
+
+            # Pre-compute alpha and inverse for runtime quantization
+            layer.input_global_scale_inv = Parameter(
+                input_global_scale_inv, requires_grad=False
+            )
+            layer.alpha = Parameter(
+                layer.input_global_scale * layer.weight_global_scale,
+                requires_grad=False,
+            )
 
         # Convert layer to NVFP4 linear kernel format
         self.kernel.process_weights_after_loading(layer)
diff --git a/vllm/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_wNa8o8.py b/vllm/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_wNa8o8.py
new file mode 100644
index 00000000000..52d9cfeb05b
--- /dev/null
+++ b/vllm/model_executor/layers/quantization/compressed_tensors/schemes/compressed_tensors_wNa8o8.py
@@ -0,0 +1,257 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Weight N-bit INT scheme with static INT8 input/output activation quant.
+
+Handles compressed-tensors INT weight checkpoints that carry static per-tensor
+INT8 ``input_activations`` and/or ``output_activations``. The activation quant is
+reproduced as a float fake-quant on the layer input and output, around a
+weight-only matmul, rather than a fused int8 GEMM.
+"""
+
+from collections.abc import Callable
+
+import torch
+from compressed_tensors.compressors.pack_quantized.helpers import pack_to_int32
+
+from vllm.model_executor.kernels.linear import (
+    MPLinearLayerConfig,
+    choose_mp_linear_kernel,
+)
+from vllm.model_executor.layers.quantization.compressed_tensors.schemes import (
+    CompressedTensorsScheme,
+)
+from vllm.model_executor.layers.quantization.utils.marlin_utils import (
+    marlin_repeat_scales_on_all_ranks,
+)
+from vllm.model_executor.parameter import (
+    BasevLLMParameter,
+    ChannelQuantScaleParameter,
+    GroupQuantScaleParameter,
+    ModelWeightParameter,
+    PackedvLLMParameter,
+)
+from vllm.scalar_type import scalar_types
+
+__all__ = ["CompressedTensorsWNA8O8Int", "fake_quant_static_int8"]
+
+WNA8O8_SUPPORTED_TYPES_MAP = {
+    2: scalar_types.uint2b2,
+    4: scalar_types.uint4b8,
+    8: scalar_types.uint8b128,
+}
+
+
+def fake_quant_static_int8(x: torch.Tensor, scale: torch.Tensor) -> torch.Tensor:
+    """Static per-tensor symmetric INT8 quantize-dequantize, in x's dtype."""
+    scale = scale.to(x.dtype)
+    q = torch.clamp(torch.round(x / scale), -128.0, 127.0)
+    return q * scale
+
+
+class CompressedTensorsWNA8O8Int(CompressedTensorsScheme):
+    def __init__(
+        self,
+        num_bits: int,
+        strategy: str,
+        group_size: int | None = None,
+        has_input_act: bool = False,
+        has_output_act: bool = False,
+        layer_name: str | None = None,
+        quant_format: str = "pack-quantized",
+    ):
+        self.num_bits = num_bits
+        self.pack_factor = 32 // num_bits
+        self.strategy = strategy
+        self.group_size = -1 if group_size is None else group_size
+        self.has_input_act = has_input_act
+        self.has_output_act = has_output_act
+        self.layer_name = layer_name
+        # "pack-quantized" (sub-byte, int32-packed) or "int-quantized" (8-bit int8).
+        self.quant_format = quant_format
+        self.is_int_quantized = quant_format == "int-quantized"
+        if num_bits not in WNA8O8_SUPPORTED_TYPES_MAP:
+            raise ValueError(
+                f"Unsupported num_bits = {num_bits} for WNA8O8Int; "
+                f"supported = {sorted(WNA8O8_SUPPORTED_TYPES_MAP)}"
+            )
+        self.quant_type = WNA8O8_SUPPORTED_TYPES_MAP[num_bits]
+        self._input_scale: torch.Tensor | None = None
+        self._output_scale: torch.Tensor | None = None
+
+    @classmethod
+    def get_min_capability(cls) -> int:
+        return 70
+
+    def create_weights(
+        self,
+        layer: torch.nn.Module,
+        output_size: int,
+        input_size: int,
+        output_partition_sizes: list[int],
+        input_size_per_partition: int,
+        params_dtype: torch.dtype,
+        weight_loader: Callable,
+        **kwargs,
+    ):
+        output_size_per_partition = sum(output_partition_sizes)
+        layer.input_size_per_partition = input_size_per_partition
+        layer.output_size_per_partition = output_size_per_partition
+        # Set for kernels' weight prep; also covers ParallelLMHead, which does
+        # not set these in __init__.
+        layer.output_partition_sizes = output_partition_sizes
+        layer.params_dtype = params_dtype
+        if not hasattr(layer, "has_bias"):
+            layer.has_bias = False
+
+        mp_config = MPLinearLayerConfig(
+            full_weight_shape=(input_size, output_size),
+            partition_weight_shape=(
+                input_size_per_partition,
+                output_size_per_partition,
+            ),
+            weight_type=self.quant_type,
+            act_type=params_dtype,  # activation quant applied externally (SRQ)
+            group_size=self.group_size,
+            zero_points=False,
+            has_g_idx=False,
+        )
+        self.kernel = choose_mp_linear_kernel(mp_config)(
+            mp_config,
+            w_q_param_name="weight_packed",
+            w_s_param_name="weight_scale",
+        )
+
+        self._register_weight(
+            layer, input_size, input_size_per_partition, params_dtype, weight_loader
+        )
+
+    def _register_weight(
+        self, layer, input_size, input_size_per_partition, params_dtype, weight_loader
+    ):
+        out = layer.output_size_per_partition
+        if self.is_int_quantized:
+            # Plain int8 weight; packed to the canonical int32 layout after load.
+            layer.register_parameter(
+                "weight",
+                ModelWeightParameter(
+                    data=torch.empty(out, input_size_per_partition, dtype=torch.int8),
+                    input_dim=1,
+                    output_dim=0,
+                    weight_loader=weight_loader,
+                ),
+            )
+        else:
+            layer.register_parameter(
+                "weight_packed",
+                PackedvLLMParameter(
+                    input_dim=1,
+                    output_dim=0,
+                    packed_dim=1,
+                    packed_factor=self.pack_factor,
+                    weight_loader=weight_loader,
+                    data=torch.empty(
+                        out,
+                        input_size_per_partition // self.pack_factor,
+                        dtype=torch.int32,
+                    ),
+                ),
+            )
+            layer.register_parameter(
+                "weight_shape",
+                BasevLLMParameter(
+                    data=torch.empty(2, dtype=torch.int64), weight_loader=weight_loader
+                ),
+            )
+
+        # Scale: per-output-channel, or per group along the input dim under TP.
+        group_size = self.group_size if self.group_size != -1 else input_size
+        partitioned = not marlin_repeat_scales_on_all_ranks(
+            False, self.group_size, input_size != input_size_per_partition
+        )
+        scales = (input_size_per_partition if partitioned else input_size) // group_size
+        scale_data = torch.empty(out, scales, dtype=params_dtype)
+        if partitioned:
+            assert input_size_per_partition % group_size == 0
+            weight_scale = GroupQuantScaleParameter(
+                data=scale_data, output_dim=0, input_dim=1, weight_loader=weight_loader
+            )
+        else:
+            weight_scale = ChannelQuantScaleParameter(
+                data=scale_data, output_dim=0, weight_loader=weight_loader
+            )
+        layer.register_parameter("weight_scale", weight_scale)
+
+        for name, present in (
+            ("input_scale", self.has_input_act),
+            ("output_scale", self.has_output_act),
+        ):
+            if present:
+                layer.register_parameter(
+                    name,
+                    BasevLLMParameter(
+                        data=torch.empty(1, dtype=torch.float32),
+                        weight_loader=weight_loader,
+                    ),
+                )
+
+    def process_weights_after_loading(self, layer: torch.nn.Module) -> None:
+        # Lift the static activation scales off the layer (applied externally) so
+        # the kernel only sees weight tensors. Drop uncalibrated (zero) scales.
+        self._input_scale = self._take_act_scale(layer, "input_scale")
+        self._output_scale = self._take_act_scale(layer, "output_scale")
+        self.has_input_act = self._input_scale is not None
+        self.has_output_act = self._output_scale is not None
+
+        if self.is_int_quantized:
+            self._pack_int_quantized_weight(layer)
+
+        self.kernel.process_weights_after_loading(layer)
+
+    def _pack_int_quantized_weight(self, layer: torch.nn.Module) -> None:
+        """Normalize an int-quantized (plain int8) weight to the canonical
+        ``weight_packed`` int32 + ``weight_shape`` layout the MP kernels expect."""
+        weight = layer.weight
+        out_features, in_features = weight.shape
+        packed = pack_to_int32(weight.data.contiguous(), self.num_bits)
+        delattr(layer, "weight")
+
+        def _noop_loader(*_, **__):
+            return None
+
+        layer.register_parameter(
+            "weight_packed",
+            PackedvLLMParameter(
+                data=packed.contiguous(),
+                input_dim=1,
+                output_dim=0,
+                packed_dim=1,
+                packed_factor=self.pack_factor,
+                weight_loader=_noop_loader,
+            ),
+        )
+        layer.register_parameter(
+            "weight_shape",
+            BasevLLMParameter(
+                data=torch.tensor([out_features, in_features], dtype=torch.int64),
+                weight_loader=_noop_loader,
+            ),
+        )
+
+    @staticmethod
+    def _take_act_scale(layer, name: str) -> torch.Tensor | None:
+        param = getattr(layer, name, None)
+        if param is None:
+            return None
+        scale = param.data.clone()
+        delattr(layer, name)
+        return None if float(scale.reshape(-1)[0]) == 0.0 else scale
+
+    def apply_weights(
+        self, layer: torch.nn.Module, x: torch.Tensor, bias: torch.Tensor | None
+    ) -> torch.Tensor:
+        if self.has_input_act:
+            x = fake_quant_static_int8(x, self._input_scale)
+        out = self.kernel.apply_weights(layer, x, bias)
+        if self.has_output_act:
+            out = fake_quant_static_int8(out, self._output_scale)
+        return out
diff --git a/vllm/model_executor/layers/quantization/utils/humming_utils.py b/vllm/model_executor/layers/quantization/utils/humming_utils.py
index 3c01977f3b5..d9e02542c6d 100644
--- a/vllm/model_executor/layers/quantization/utils/humming_utils.py
+++ b/vllm/model_executor/layers/quantization/utils/humming_utils.py
@@ -1,5 +1,6 @@
 # SPDX-License-Identifier: Apache-2.0
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+import json
 from typing import Any
 
 import regex as re
@@ -42,16 +43,57 @@ def humming_is_layer_skipped(config: dict[str, Any], prefix: str):
     return False
 
 
+def convert_linear_layer_to_humming_standard(
+    layer: LinearBase, name_map: dict[str, str]
+):
+    """Rename/reshape a linear layer's quantized params (the canonical MPLinear
+    layout: ``weight_packed`` int32 + ``weight_scale``) into the parameter names
+    and layout humming's weight schema expects (``weight`` / ``weight_scale``)."""
+    for name, checkpoint_name in name_map.items():
+        tensor = getattr(layer, checkpoint_name)
+        delattr(layer, checkpoint_name)
+
+        if name == "weight":
+            input_dim = getattr(tensor, "input_dim", 1)
+            output_dim = getattr(tensor, "output_dim", 0)
+
+            if input_dim == 0 and output_dim == 1:
+                tensor = tensor.transpose(1, 0).contiguous()
+            else:
+                assert output_dim == 0 and input_dim == 1
+
+            tensor = tensor.view(tensor.size(0), -1).view(torch.int32)
+        elif name in ["weight_scale", "zero_point"]:
+            if getattr(tensor, "output_dim", 0) == 1:
+                tensor = tensor.transpose(0, 1).contiguous()
+            if tensor.ndim == 1:
+                tensor = tensor.unsqueeze(1)
+
+            tensor = tensor.view(torch.int32) if name == "zero_point" else tensor
+
+        if isinstance(tensor, torch.nn.Parameter):
+            param = tensor
+        else:
+            param = torch.nn.Parameter(tensor, requires_grad=False)
+
+        setattr(layer, name, param)
+
+
 def prepare_humming_layer(layer: LinearBase, quant_config: dict):
     weight_schema = BaseWeightSchema.from_config(quant_config)
     input_schema = HummingInputSchema()
 
-    shape_k_stacks = [layer.input_size_per_partition]
+    # ReplicatedLinear has no TP partitioning and so does not set
+    # input_size_per_partition; for it that is just input_size.
+    input_size_per_partition = getattr(
+        layer, "input_size_per_partition", layer.input_size
+    )
+    shape_k_stacks = [input_size_per_partition]
     shape_n_stacks = layer.output_partition_sizes
 
     # Step 1: convert weight to humming standard format
     weight_schema, tensors = weight_schema.convert_humming(
-        tensors=layer.named_parameters(),
+        tensors=dict(layer.named_parameters()),
         shape_n_stacks=shape_n_stacks,
         shape_k_stacks=shape_k_stacks,
         param_dtype=layer.params_dtype,
@@ -63,23 +105,37 @@ def prepare_humming_layer(layer: LinearBase, quant_config: dict):
         delattr(layer, name)
 
     for name, tensor in tensors.items():
+        if isinstance(tensor, torch.nn.Parameter):
+            tensor = tensor.data
         param = torch.nn.Parameter(tensor, requires_grad=False)
         setattr(layer, name, param)
 
     # Step 2: transform weight (humming standard format) for forwarding
     HummingMethod.prepare_layer_meta(
         layer=layer,
-        shape_n=layer.output_partition_sizes_sum,
-        shape_k=layer.input_size_per_partition,
+        shape_n=sum(layer.output_partition_sizes),
+        shape_k=input_size_per_partition,
         weight_schema=weight_schema,
         input_schema=input_schema,
         pad_n_to_multiple=256,
         pad_k_to_multiple=128,
         has_bias=layer.has_bias,
-        torch_dtype=layer.param_dtype,
+        torch_dtype=layer.params_dtype,
     )
 
     HummingMethod.transform_humming_layer(layer)
+    if not hasattr(layer, "locks"):
+        device = layer.weight.device
+        locks = torch.zeros(1024, dtype=torch.int32, device=device)
+        layer.register_buffer("locks", locks)
+
+    compute_config = {
+        "use_batch_invariant": envs.VLLM_BATCH_INVARIANT,
+        "use_f16_accum": envs.VLLM_HUMMING_USE_F16_ACCUM,
+        "gemm_type": "dense",
+    }
+
+    layer.compute_config = json.dumps(compute_config)
 
 
 def prepare_humming_moe_layer(layer: RoutedExperts, quant_config: dict):
diff --git a/vllm/model_executor/models/bailing_moe_linear.py b/vllm/model_executor/models/bailing_moe_linear.py
index c66ae910270..3857e993c7c 100644
--- a/vllm/model_executor/models/bailing_moe_linear.py
+++ b/vllm/model_executor/models/bailing_moe_linear.py
@@ -9,7 +9,7 @@ import torch.nn.functional as F
 from transformers.configuration_utils import PretrainedConfig
 
 from vllm.compilation.decorators import support_torch_compile
-from vllm.config import CacheConfig, ModelConfig, VllmConfig, get_current_vllm_config
+from vllm.config import CacheConfig, VllmConfig
 from vllm.distributed import (
     get_pp_group,
     get_tensor_model_parallel_rank,
@@ -17,11 +17,6 @@ from vllm.distributed import (
 )
 from vllm.forward_context import get_forward_context
 from vllm.logger import init_logger
-from vllm.model_executor.custom_op import PluggableLayer
-from vllm.model_executor.layers.fla.ops.layernorm_guard import (
-    RMSNormGated,
-    layernorm_fn,
-)
 from vllm.model_executor.layers.fused_moe import (
     FusedMoE,
     fused_moe_make_expert_params_mapping,
@@ -30,25 +25,19 @@ from vllm.model_executor.layers.layernorm import RMSNorm
 from vllm.model_executor.layers.linear import (
     ColumnParallelLinear,
     MergedColumnParallelLinear,
-    QKVParallelLinear,
     ReplicatedLinear,
     RowParallelLinear,
 )
 from vllm.model_executor.layers.logits_processor import LogitsProcessor
-from vllm.model_executor.layers.mamba.abstract import MambaBase
-from vllm.model_executor.layers.mamba.linear_attn import (
-    MiniMaxText01LinearAttention,
-    MiniMaxText01LinearKernel,
-    clear_linear_attention_cache_for_new_sequences,
-    linear_attention_decode,
-    linear_attention_prefill_and_mix,
+from vllm.model_executor.layers.mamba.linear.bailing_linear_attn import (
+    BailingMoELinearAttention,
+    _build_rope_parameters,
 )
 from vllm.model_executor.layers.mamba.mamba_utils import (
     MambaStateCopyFuncCalculator,
     MambaStateDtypeCalculator,
     MambaStateShapeCalculator,
 )
-from vllm.model_executor.layers.minimax_rms_norm import MiniMaxText01RMSNormTP
 from vllm.model_executor.layers.mla import MLAModules, MultiHeadLatentAttentionWrapper
 from vllm.model_executor.layers.quantization.base_config import QuantizationConfig
 from vllm.model_executor.layers.rotary_embedding import get_rope
@@ -63,8 +52,6 @@ from vllm.model_executor.model_loader.weight_utils import (
 from vllm.model_executor.models.bailing_moe import BailingMLP
 from vllm.sequence import IntermediateTensors
 from vllm.v1.attention.backend import AttentionMetadata
-from vllm.v1.attention.backends.linear_attn import LinearAttentionMetadata
-from vllm.v1.attention.backends.registry import MambaAttentionBackendEnum
 
 from .interfaces import HasInnerState, IsHybrid, SupportsPP
 from .utils import (
@@ -87,25 +74,6 @@ def is_linear_layer(layer_idx, layer_group_size):
         return False
 
 
-def _build_rope_parameters(config: PretrainedConfig) -> dict | None:
-    rope_parameters = copy.deepcopy(getattr(config, "rope_parameters", None)) or {}
-    if "rope_theta" not in rope_parameters and hasattr(config, "rope_theta"):
-        rope_parameters["rope_theta"] = config.rope_theta
-    if "partial_rotary_factor" not in rope_parameters and hasattr(
-        config, "partial_rotary_factor"
-    ):
-        rope_parameters["partial_rotary_factor"] = config.partial_rotary_factor
-
-    rope_scaling = getattr(config, "rope_scaling", None)
-    if isinstance(rope_scaling, dict):
-        rope_scaling = copy.deepcopy(rope_scaling)
-        if "type" in rope_scaling and "rope_type" not in rope_scaling:
-            rope_scaling["rope_type"] = rope_scaling.pop("type")
-        rope_parameters.update(rope_scaling)
-
-    return rope_parameters or None
-
-
 class BailingMoeV25MLAAttention(nn.Module):
     """
     MLA Attention for BailingMoeV2.5 full attention layers.
@@ -397,400 +365,15 @@ class BailingMoeV25(nn.Module):
         return final_hidden_states.view(num_tokens, hidden_size)
 
 
-BailingRMSNormTP = MiniMaxText01RMSNormTP
-
-
-class BailingGroupRMSNormGate(RMSNormGated):
-    def __init__(
-        self,
-        hidden_size,
-        eps=1e-5,
-        group_size=None,
-        norm_before_gate=True,
-        device=None,
-        dtype=None,
-    ):
-        super().__init__(
-            hidden_size,
-            eps=eps,
-            group_size=group_size,
-            norm_before_gate=norm_before_gate,
-            device=device,
-            dtype=dtype,
-            activation="sigmoid",
-        )
-        # Add custom weight loader for TP sharding
-        self.weight.weight_loader = self._weight_loader
-
-    @staticmethod
-    def _weight_loader(param: torch.nn.Parameter, loaded_weight: torch.Tensor) -> None:
-        """Load weight with TP sharding."""
-        tp_size = get_tensor_model_parallel_world_size()
-        tp_rank = get_tensor_model_parallel_rank()
-        shard_size = loaded_weight.shape[0] // tp_size
-        shard = slice(tp_rank * shard_size, (tp_rank + 1) * shard_size)
-        param.data.copy_(loaded_weight[shard].contiguous())
-
-
-# --8<-- [start:bailing_moe_linear_attention]
-@PluggableLayer.register("bailing_moe_linear_attention")
-class BailingMoELinearAttention(PluggableLayer, MambaBase):
-    """Pluggable Bailing MoE Linear Attention layer which allows OOT backends
-    to add custom implementations.
-
-    This implements the linear attention mechanism from sglang, adapted for
-    vLLM's v1 engine with MambaBase interface support.
-    """
-
-    # --8<-- [end:bailing_moe_linear_attention]
-
-    @property
-    def mamba_type(self) -> MambaAttentionBackendEnum:
-        return MambaAttentionBackendEnum.LINEAR
-
-    def get_state_shape(self) -> tuple[tuple[int, ...], ...]:
-        """Return state shape for linear attention cache.
-
-        Must match the calculation in get_mamba_state_shape_from_config.
-        """
-        return MambaStateShapeCalculator.linear_attention_state_shape(
-            num_heads=self.total_num_heads,
-            tp_size=self.tp_size,
-            head_dim=self.head_dim,
-        )
-
-    def get_state_dtype(self) -> tuple[torch.dtype, ...]:
-        """Return state dtype for linear attention cache.
-
-        Must match the calculation in get_mamba_state_dtype_from_config.
-        """
-        return MambaStateDtypeCalculator.linear_attention_state_dtype(
-            self.model_config.dtype,
-            self.cache_config.mamba_cache_dtype,
-        )
-
-    def __init__(
-        self,
-        config: PretrainedConfig,
-        quant_config: QuantizationConfig | None = None,
-        layer_id: int = 0,
-        prefix: str = "linear_attn",
-        model_config: ModelConfig | None = None,
-        cache_config: CacheConfig | None = None,
-    ):
-        super().__init__()
-
-        self.layer_id = layer_id
-        self.hidden_size = config.hidden_size
-        self.total_num_heads = config.num_attention_heads
-        self.total_kv_heads = config.num_attention_heads  # MHA
-        self.tp_size = get_tensor_model_parallel_world_size()
-        self.tp_rank = get_tensor_model_parallel_rank()
-        self.model_config = model_config
-        self.cache_config = cache_config
-        self.prefix = prefix
-
-        self.head_dim = (
-            config.head_dim
-            if hasattr(config, "head_dim")
-            else config.hidden_size // self.total_num_heads
-        )
-
-        self.hidden_inner_size = self.head_dim * self.total_num_heads
-        self.scaling = self.head_dim**-0.5
-
-        assert self.total_num_heads % self.tp_size == 0
-        self.tp_heads = self.total_num_heads // self.tp_size
-
-        self.max_position_embeddings = config.max_position_embeddings
-        self.rope_theta = getattr(config, "rope_theta", 600000)
-
-        self.tp_kv_heads = self.total_kv_heads // self.tp_size
-        self.q_size_per_rank = self.head_dim * self.tp_heads
-        self.kv_size_per_rank = self.head_dim * self.tp_kv_heads
-
-        self.use_qk_norm = getattr(config, "use_qk_norm", False)
-        self.linear_backend = "minimax"
-        self.linear_scale = self.linear_backend == "minimax"
-        self.linear_rope = getattr(config, "linear_rope", True)
-        if hasattr(config, "use_linear_silu"):
-            self.linear_silu = config.use_linear_silu
-        elif hasattr(config, "linear_silu"):
-            self.linear_silu = config.linear_silu
-        else:
-            self.linear_silu = False
-
-        # Block size for lightning attention
-        self.BLOCK = getattr(config, "block", 256)
-
-        self.query_key_value = QKVParallelLinear(
-            self.hidden_size,
-            self.head_dim,
-            self.total_num_heads,
-            self.total_num_heads,  # MHA: kv_heads = num_heads
-            bias=(config.use_bias or config.use_qkv_bias),
-            quant_config=quant_config,
-            prefix=f"{prefix}.query_key_value",
-        )
-
-        if self.use_qk_norm:
-            self.query_layernorm = RMSNorm(self.head_dim, eps=config.rms_norm_eps)
-            self.key_layernorm = RMSNorm(self.head_dim, eps=config.rms_norm_eps)
-
-        self.g_proj = ColumnParallelLinear(
-            self.hidden_size,
-            self.hidden_inner_size,
-            bias=False,
-            quant_config=quant_config,
-            prefix=f"{prefix}.g_proj",
-        )
-        self.dense = RowParallelLinear(
-            self.hidden_inner_size,
-            self.hidden_size,
-            bias=config.use_bias,
-            quant_config=quant_config,
-            prefix=f"{prefix}.dense",
-            reduce_results=True,
-        )
-
-        self.group_norm_size = getattr(config, "group_norm_size", 1)
-        self.rms_norm_eps = float(getattr(config, "rms_norm_eps", 1e-5))
-        assert self.tp_size <= self.group_norm_size, (
-            "tp_size must be <= group_norm_size for local rms norm"
-        )
-        assert self.group_norm_size % self.tp_size == 0, (
-            "group_norm_size must be divisible by tp_size"
-        )
-
-        # When group_norm_size == 1, group_size equals hidden_size // tp_size
-        self.g_norm = BailingGroupRMSNormGate(
-            hidden_size=self.hidden_inner_size // self.tp_size,
-            eps=self.rms_norm_eps,
-            group_size=(
-                self.hidden_inner_size // self.group_norm_size
-                if self.group_norm_size > 1
-                else self.hidden_inner_size // self.tp_size
-            ),
-        )
-
-        # use fp32 rotary embedding
-        rope_parameters = _build_rope_parameters(config)
-
-        self.rotary_emb = get_rope(
-            self.head_dim,
-            max_position=self.max_position_embeddings,
-            is_neox_style=True,
-            rope_parameters=rope_parameters or None,
-        )
-
-        # Build slope tensor for linear attention decay
-        num_hidden_layers = config.num_hidden_layers
-        slope_rate = MiniMaxText01LinearAttention._build_slope_tensor(
-            self.total_num_heads
-        )
-        if num_hidden_layers <= 1:
-            self.slope_rate = slope_rate * (1 + 1e-5)
-        else:
-            self.slope_rate = slope_rate * (
-                1 - layer_id / (num_hidden_layers - 1) + 1e-5
-            )
-        self.tp_slope = self.slope_rate[
-            self.tp_rank * self.tp_heads : (self.tp_rank + 1) * self.tp_heads
-        ].contiguous()
-
-        # Register for compilation
-        compilation_config = get_current_vllm_config().compilation_config
-        if prefix in compilation_config.static_forward_context:
-            raise ValueError(f"Duplicate layer name: {prefix}")
-        compilation_config.static_forward_context[prefix] = self
-
-    @staticmethod
-    def weight_direct_load(param: torch.Tensor, loaded_weight: torch.Tensor) -> None:
-        """Load weight for linear attention layers.
-
-        For FP8 quantized parameters, we need to use the weight_loader if available,
-        as it handles special cases like tensor parallelism sharding.
-        """
-        # Check if param has a weight_loader (for vLLM ModelWeightParameter)
-        weight_loader = getattr(param, "weight_loader", None)
-        if weight_loader is not None:
-            # Use the weight_loader which handles TP sharding and quantization
-            weight_loader(param, loaded_weight)
-        else:
-            # Fall back to direct copy for standard tensors
-            assert param.size() == loaded_weight.size(), (
-                f"Shape mismatch: {param.shape} vs {loaded_weight.shape}"
-            )
-            param.data.copy_(loaded_weight)
-
-    def forward(
-        self,
-        hidden_states: torch.Tensor,
-        output: torch.Tensor,
-        positions: torch.Tensor,
-    ) -> None:
-        """Forward method called by torch.ops.vllm.linear_attention"""
-        torch.ops.vllm.linear_attention(
-            hidden_states,
-            output,
-            positions,
-            self.prefix,
-        )
-
-    def _forward(
-        self,
-        hidden_states: torch.Tensor,
-        output: torch.Tensor,
-        positions: torch.Tensor,
-    ) -> None:
-        """Actual forward implementation."""
-        forward_context = get_forward_context()
-        attn_metadata: AttentionMetadata = forward_context.attn_metadata
-        if attn_metadata is not None:
-            assert isinstance(attn_metadata, dict)
-            attn_metadata = attn_metadata[self.prefix]
-            assert isinstance(attn_metadata, LinearAttentionMetadata)
-            num_actual_tokens = (
-                attn_metadata.num_prefill_tokens + attn_metadata.num_decode_tokens
-            )
-        else:
-            num_actual_tokens = hidden_states.shape[0]
-
-        # QKV projection
-        qkv, _ = self.query_key_value(hidden_states[:num_actual_tokens])
-
-        # use rotary_emb support fp32
-        qkv = qkv.to(torch.float32)
-        if self.linear_silu:
-            qkv = F.silu(qkv)
-
-        # Split q, k, v
-        q, k, v = torch.split(
-            qkv,
-            [self.q_size_per_rank, self.kv_size_per_rank, self.kv_size_per_rank],
-            dim=-1,
-        )
-
-        # Apply QK norm if needed
-        if self.use_qk_norm:
-            q = q.reshape(-1, self.tp_heads, self.head_dim)
-            k = k.reshape(-1, self.tp_kv_heads, self.head_dim)
-            q = layernorm_fn(
-                q,
-                self.query_layernorm.weight.data,
-                bias=None,
-                eps=self.rms_norm_eps,
-                is_rms_norm=True,
-            )
-            k = layernorm_fn(
-                k,
-                self.key_layernorm.weight.data,
-                bias=None,
-                eps=self.rms_norm_eps,
-                is_rms_norm=True,
-            )
-            q = q.reshape(-1, self.q_size_per_rank)
-            k = k.reshape(-1, self.kv_size_per_rank)
-
-        # Apply rotary embeddings
-        if self.linear_rope:
-            q, k = self.rotary_emb(positions[:num_actual_tokens], q, k)
-
-        # Reshape to [batch, heads, seq_len, head_dim]
-        q = q.view((qkv.shape[0], self.tp_heads, self.head_dim))
-        k = k.view((qkv.shape[0], self.tp_kv_heads, self.head_dim))
-        v = v.view((qkv.shape[0], self.tp_kv_heads, self.head_dim))
-
-        # Apply scaling if using minimax backend
-        if self.linear_scale:
-            q = q * self.scaling
-
-        # Get KV cache and state indices
-        if attn_metadata is not None:
-            kv_cache = self.kv_cache[0]
-            state_indices_tensor = attn_metadata.state_indices_tensor
-            clear_linear_attention_cache_for_new_sequences(
-                kv_cache, state_indices_tensor, attn_metadata
-            )
-
-        # Compute attention
-        decode_only = getattr(attn_metadata, "num_prefills", 0) == 0
-        if attn_metadata is None:
-            hidden = torch.empty(
-                (q.shape[0], q.shape[1] * q.shape[2]), device=q.device, dtype=q.dtype
-            )
-        else:
-            if not decode_only:
-                hidden = self._prefill_and_mix_infer(
-                    q, k, v, kv_cache, state_indices_tensor, attn_metadata
-                )
-            else:
-                hidden = self._decode_infer(
-                    q, k, v, kv_cache, state_indices_tensor, attn_metadata
-                )
-
-        # Apply group norm and gate (matching SGLang behavior)
-        gate, _ = self.g_proj(hidden_states[:num_actual_tokens])
-
-        if self.group_norm_size > 1:
-            hidden = self.g_norm(hidden, gate)
-        else:
-            hidden = self.g_norm(hidden)
-            hidden = F.sigmoid(gate) * hidden
-
-        hidden = hidden.to(hidden_states.dtype)
-
-        # Output projection
-        dense_out, _ = self.dense(hidden)
-        output[:num_actual_tokens] = dense_out
-
-    def _prefill_and_mix_infer(
-        self, q, k, v, kv_cache, state_indices_tensor, attn_metadata
-    ):
-        """Handle prefill (mixed with decode if any)."""
-        return linear_attention_prefill_and_mix(
-            q=q,
-            k=k,
-            v=v,
-            kv_cache=kv_cache,
-            state_indices_tensor=state_indices_tensor,
-            attn_metadata=attn_metadata,
-            slope_rate=self.tp_slope,
-            block_size=self.BLOCK,
-            decode_fn=self._decode_infer,
-            prefix_fn=MiniMaxText01LinearKernel.jit_linear_forward_prefix,
-            layer_idx=self.layer_id,
-        )
-
-    def _decode_infer(self, q, k, v, kv_cache, state_indices_tensor, attn_metadata):
-        """Handle decode (single token per sequence)."""
-        hidden = linear_attention_decode(
-            q,
-            k,
-            v,
-            kv_cache,
-            self.tp_slope,
-            state_indices_tensor,
-            q_start=0,
-            q_end=attn_metadata.num_decode_tokens,
-            slot_start=0,
-            slot_end=attn_metadata.num_decodes,
-            block_size=32,
-        )
-        return hidden
-
-
 class BailingMoeV25DecoderLayer(nn.Module):
     """Decoder layer supporting both linear and full attention."""
 
     def __init__(
         self,
         config: PretrainedConfig,
-        quant_config: QuantizationConfig | None = None,
-        layer_id: int = 0,
+        vllm_config: VllmConfig,
         prefix: str = "layer",
-        model_config: ModelConfig | None = None,
-        cache_config: CacheConfig | None = None,
+        layer_id: int = 0,
     ) -> None:
         super().__init__()
         self.layer_id = layer_id
@@ -802,19 +385,16 @@ class BailingMoeV25DecoderLayer(nn.Module):
         if self.attention_type == 0:  # Linear attention
             self.self_attn = BailingMoELinearAttention(
                 config,
-                quant_config=quant_config,
-                layer_id=layer_id,
+                vllm_config,
                 prefix=f"{prefix}.self_attn",
-                model_config=model_config,
-                cache_config=cache_config,
             )
         else:  # Full attention
             self.self_attn = BailingMoeV25MLAAttention(
                 config,
-                quant_config=quant_config,
+                quant_config=vllm_config.quant_config,
                 layer_id=layer_id,
                 prefix=f"{prefix}.self_attn",
-                cache_config=cache_config,
+                cache_config=vllm_config.cache_config,
             )
 
         # MLP/MoE
@@ -825,7 +405,7 @@ class BailingMoeV25DecoderLayer(nn.Module):
         if is_moe_layer:
             self.mlp = BailingMoeV25(
                 config,
-                quant_config=quant_config,
+                quant_config=vllm_config.quant_config,
                 layer_id=layer_id,
                 prefix=f"{prefix}.mlp",
             )
@@ -833,7 +413,7 @@ class BailingMoeV25DecoderLayer(nn.Module):
             self.mlp = BailingMLP(
                 intermediate_size=config.intermediate_size,
                 config=config,
-                quant_config=quant_config,
+                quant_config=vllm_config.quant_config,
                 reduce_results=True,
                 prefix=f"{prefix}.mlp",
             )
@@ -896,10 +476,6 @@ class BailingMoeV25Model(nn.Module):
     ):
         super().__init__()
         config = vllm_config.model_config.hf_config
-        model_config = vllm_config.model_config
-        quant_config = vllm_config.quant_config
-        cache_config = vllm_config.cache_config
-
         self.config = config
         self.vocab_size = config.vocab_size
         self.embed_dim = config.hidden_size
@@ -934,11 +510,9 @@ class BailingMoeV25Model(nn.Module):
 
             return BailingMoeV25DecoderLayer(
                 config=layer_config,
-                quant_config=quant_config,
-                layer_id=layer_idx,
+                vllm_config=vllm_config,
                 prefix=prefix,
-                model_config=model_config,
-                cache_config=cache_config,
+                layer_id=layer_idx,
             )
 
         self.start_layer, self.end_layer, self.layers = make_layers(
diff --git a/vllm/model_executor/models/gemma4.py b/vllm/model_executor/models/gemma4.py
index 2355f61ac51..5d0e3efe2e1 100644
--- a/vllm/model_executor/models/gemma4.py
+++ b/vllm/model_executor/models/gemma4.py
@@ -1057,7 +1057,7 @@ class Gemma4Model(nn.Module, EagleModelMixin):
             "normalizer",
             torch.tensor(
                 config.hidden_size**0.5,
-                dtype=self.embed_tokens.weight.dtype,
+                dtype=vllm_config.model_config.dtype,
             ),
             persistent=False,
         )
@@ -1111,7 +1111,7 @@ class Gemma4Model(nn.Module, EagleModelMixin):
             )
             self.hidden_states = torch.zeros(
                 (max_num_tokens, config.hidden_size),
-                dtype=self.embed_tokens.weight.dtype,
+                dtype=vllm_config.model_config.dtype,
                 device=device,
             )
             if (
@@ -1124,7 +1124,7 @@ class Gemma4Model(nn.Module, EagleModelMixin):
                         config.num_hidden_layers,
                         self.hidden_size_per_layer_input,
                     ),
-                    dtype=self.embed_tokens.weight.dtype,
+                    dtype=vllm_config.model_config.dtype,
                     device=device,
                 )
             else:
diff --git a/vllm/model_executor/models/gemma4_mm.py b/vllm/model_executor/models/gemma4_mm.py
index f21dde96af5..2f7def54151 100644
--- a/vllm/model_executor/models/gemma4_mm.py
+++ b/vllm/model_executor/models/gemma4_mm.py
@@ -1011,14 +1011,17 @@ class Gemma4ForConditionalGeneration(
         self.config = config
         self.quant_config = quant_config
         self.multimodal_config = multimodal_config
+        self.model_dtype = vllm_config.model_config.dtype
 
         # Only quantize towers when the quant method supports their
         # dimensions.  BNB/torchao handle arbitrary sizes; other methods
         # (Marlin, FP8, …) require dimensions divisible by 64, which
         # the vision tower (intermediate_size=4304) does not satisfy.
+        # TODO(mgoin): remove this by fixing kernel padding.
         if quant_config and quant_config.get_name() in [
             "bitsandbytes",
             "torchao",
+            "compressed-tensors",
         ]:
             tower_quant = quant_config
         else:
@@ -1081,12 +1084,13 @@ class Gemma4ForConditionalGeneration(
             # Some variants have hidden_size_per_layer_input=None (no PLE).
             ple_dim = config.text_config.hidden_size_per_layer_input
             if ple_dim is not None and ple_dim > 0:
+                embed = self.language_model.model.embed_tokens
                 self.per_layer_embeddings = torch.zeros(
                     vllm_config.scheduler_config.max_num_batched_tokens,
                     config.text_config.num_hidden_layers,
                     ple_dim,
-                    device=self.language_model.model.embed_tokens.weight.device,
-                    dtype=self.language_model.model.embed_tokens.weight.dtype,
+                    device=next(embed.parameters()).device,
+                    dtype=vllm_config.model_config.dtype,
                 )
             else:
                 self.per_layer_embeddings = None
@@ -1246,7 +1250,6 @@ class Gemma4ForConditionalGeneration(
         vt = self.vision_tower
         vision_cfg = self.config.vision_config
         pooling_k2 = vision_cfg.pooling_kernel_size**2
-        target_dtype = self.language_model.model.embed_tokens.weight.dtype
 
         # Concurrent requests with different image resolutions may
         # arrive as a list of per-image tensors, while same-resolution
@@ -1291,7 +1294,7 @@ class Gemma4ForConditionalGeneration(
                     pv_tensor,
                     pp_tensor,
                     pad_tensor,
-                ).to(target_dtype)
+                ).to(self.model_dtype)
                 encoder_outputs = vt.encoder(
                     inputs_embeds=inputs_embeds,
                     attention_mask=~pad_tensor,
@@ -1328,12 +1331,8 @@ class Gemma4ForConditionalGeneration(
             all_valid_states[orig_idx] = valid_states
             valid_lens[orig_idx] = valid_states.shape[0]
 
-        # Use embed_tokens dtype as compute dtype; embedding_projection.weight
-        # may be uint8 under BnB 4-bit, which would corrupt the cast.
-        target_dtype = self.language_model.model.embed_tokens.weight.dtype
-
         # Project all images in a single batched call.
-        flat_valid_states = torch.cat(all_valid_states, dim=0).to(target_dtype)
+        flat_valid_states = torch.cat(all_valid_states, dim=0).to(self.model_dtype)
         flat_proj_embs = self.embed_vision(
             inputs_embeds=flat_valid_states.unsqueeze(0)
         ).squeeze(0)
@@ -1373,7 +1372,6 @@ class Gemma4ForConditionalGeneration(
         vt = self.vision_tower
         vision_cfg = self.config.vision_config
         pooling_k2 = vision_cfg.pooling_kernel_size**2
-        target_dtype = self.language_model.model.embed_tokens.weight.dtype
 
         if isinstance(frame_counts, torch.Tensor):
             fc_list = frame_counts.tolist()
@@ -1405,7 +1403,7 @@ class Gemma4ForConditionalGeneration(
                 pv_chunk,
                 pp_chunk,
                 pad_chunk,
-            ).to(target_dtype)
+            ).to(self.model_dtype)
             encoder_outputs = vt.encoder(
                 inputs_embeds=inputs_embeds,
                 attention_mask=~pad_chunk,
@@ -1440,7 +1438,9 @@ class Gemma4ForConditionalGeneration(
             frame_valid_lens.append(valid_states.shape[0])
 
         # Project all frames in a single batched call.
-        flat_valid_states = torch.cat(all_frame_valid_states, dim=0).to(target_dtype)
+        flat_valid_states = torch.cat(all_frame_valid_states, dim=0).to(
+            self.model_dtype
+        )
         flat_proj_embs = self.embed_vision(
             inputs_embeds=flat_valid_states.unsqueeze(0)
         ).squeeze(0)
diff --git a/vllm/model_executor/models/gemma4_unified.py b/vllm/model_executor/models/gemma4_unified.py
index e5f3784ffe2..66fc914dc75 100644
--- a/vllm/model_executor/models/gemma4_unified.py
+++ b/vllm/model_executor/models/gemma4_unified.py
@@ -307,12 +307,13 @@ class Gemma4UnifiedForConditionalGeneration(Gemma4ForConditionalGeneration):
                 None,
             )
             if ple_dim is not None and ple_dim > 0:
+                embed = self.language_model.model.embed_tokens
                 self.per_layer_embeddings = torch.zeros(
                     vllm_config.scheduler_config.max_num_batched_tokens,
                     config.text_config.num_hidden_layers,
                     ple_dim,
-                    device=self.language_model.model.embed_tokens.weight.device,
-                    dtype=self.language_model.model.embed_tokens.weight.dtype,
+                    device=next(embed.parameters()).device,
+                    dtype=vllm_config.model_config.dtype,
                 )
             else:
                 self.per_layer_embeddings = None
diff --git a/vllm/model_executor/models/granite_speech.py b/vllm/model_executor/models/granite_speech.py
index 5b4959dc205..5f97f8b9a51 100644
--- a/vllm/model_executor/models/granite_speech.py
+++ b/vllm/model_executor/models/granite_speech.py
@@ -614,8 +614,7 @@ class GraniteSpeechForConditionalGeneration(
             )
 
         with self._mark_tower_model(vllm_config, "audio"):
-            # Conformer encoder
-            self.encoder = GraniteSpeechCTCEncoder(
+            self.encoder = self._build_encoder(
                 config=config.encoder_config,
                 quant_config=quant_config,
                 prefix=maybe_prefix(prefix, "encoder"),
@@ -633,6 +632,18 @@ class GraniteSpeechForConditionalGeneration(
             self.language_model.make_empty_intermediate_tensors
         )
 
+    def _build_encoder(
+        self,
+        config: PretrainedConfig,
+        quant_config: QuantizationConfig | None,
+        prefix: str,
+    ) -> "GraniteSpeechCTCEncoder":
+        return GraniteSpeechCTCEncoder(
+            config=config,
+            quant_config=quant_config,
+            prefix=prefix,
+        )
+
     def _parse_and_validate_audio_input(
         self,
         **kwargs: object,
diff --git a/vllm/model_executor/models/granite_speech_plus.py b/vllm/model_executor/models/granite_speech_plus.py
new file mode 100644
index 00000000000..ba95cfed131
--- /dev/null
+++ b/vllm/model_executor/models/granite_speech_plus.py
@@ -0,0 +1,79 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Inference-only IBM Granite Speech Plus model."""
+
+import torch
+from transformers import PretrainedConfig
+
+from vllm.model_executor.layers.quantization import QuantizationConfig
+from vllm.multimodal import MULTIMODAL_REGISTRY
+
+from .granite_speech import (
+    GraniteSpeechCTCEncoder,
+    GraniteSpeechDummyInputsBuilder,
+    GraniteSpeechForConditionalGeneration,
+    GraniteSpeechMultiModalProcessingInfo,
+    GraniteSpeechMultiModalProcessor,
+)
+
+ISO639_1_SUPPORTED_LANGS = {
+    "en": "English",
+    "fr": "French",
+    "de": "German",
+    "pt": "Portuguese",
+    "es": "Spanish",
+}
+
+
+class GraniteSpeechPlusCTCEncoder(GraniteSpeechCTCEncoder):
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        hidden_states = self.input_linear(hidden_states)
+        # cat_hidden_layers selects non-negative layer indices (0 = encoder
+        # input, N = output of layer N) whose hidden states are concatenated
+        # along the feature dim *in addition to* the final hidden states,
+        # which are always appended last.
+        cat_layers = set(self.config.cat_hidden_layers or [])
+        exported_hidden_states = []
+
+        if 0 in cat_layers:
+            exported_hidden_states.append(hidden_states)
+
+        for idx, layer in enumerate(self.layers, start=1):
+            hidden_states = layer(hidden_states, attention_dists=self.attention_dists)
+
+            # Skip the final layer here since its output is always appended
+            # below; capturing it twice would double-append.
+            if idx in cat_layers and idx != self.num_layers:
+                exported_hidden_states.append(hidden_states)
+
+            if idx == self.num_layers // 2:
+                hidden_states_mid = hidden_states.clone()
+                hidden_states_mid, _ = self.out(hidden_states_mid)
+                hidden_states_mid = self.softmax(hidden_states_mid)
+                hidden_states_mid, _ = self.out_mid(hidden_states_mid)
+                hidden_states += hidden_states_mid
+
+        if exported_hidden_states:
+            hidden_states = torch.cat([*exported_hidden_states, hidden_states], dim=-1)
+        return hidden_states
+
+
+@MULTIMODAL_REGISTRY.register_processor(
+    GraniteSpeechMultiModalProcessor,
+    info=GraniteSpeechMultiModalProcessingInfo,
+    dummy_inputs=GraniteSpeechDummyInputsBuilder,
+)
+class GraniteSpeechPlusForConditionalGeneration(GraniteSpeechForConditionalGeneration):
+    supported_languages = ISO639_1_SUPPORTED_LANGS
+
+    def _build_encoder(
+        self,
+        config: PretrainedConfig,
+        quant_config: QuantizationConfig | None,
+        prefix: str,
+    ) -> GraniteSpeechCTCEncoder:
+        return GraniteSpeechPlusCTCEncoder(
+            config=config,
+            quant_config=quant_config,
+            prefix=prefix,
+        )
diff --git a/vllm/model_executor/models/internvl.py b/vllm/model_executor/models/internvl.py
index f3918e302b4..d57614ea980 100644
--- a/vllm/model_executor/models/internvl.py
+++ b/vllm/model_executor/models/internvl.py
@@ -10,7 +10,7 @@
 from abc import abstractmethod
 from collections.abc import Iterable, Mapping, Sequence
 from functools import cached_property
-from typing import Annotated, Literal, TypeAlias, TypeVar
+from typing import Annotated, Any, Literal, TypeAlias, TypeVar
 
 import torch
 import torch.nn as nn
@@ -55,6 +55,7 @@ from vllm.utils.tensor_schema import TensorSchema, TensorShape
 
 from .interfaces import (
     MultiModalEmbeddings,
+    SupportsEncoderCudaGraph,
     SupportsLoRA,
     SupportsMultiModal,
     SupportsPP,
@@ -543,7 +544,13 @@ class InternVLMultiModalProcessor(
     info=InternVLProcessingInfo,
     dummy_inputs=InternVLDummyInputsBuilder,
 )
-class InternVLChatModel(nn.Module, SupportsMultiModal, SupportsPP, SupportsLoRA):
+class InternVLChatModel(
+    nn.Module,
+    SupportsMultiModal,
+    SupportsPP,
+    SupportsLoRA,
+    SupportsEncoderCudaGraph,
+):
     supports_encoder_tp_data = True
 
     @classmethod
@@ -924,3 +931,160 @@ class InternVLChatModel(nn.Module, SupportsMultiModal, SupportsPP, SupportsLoRA)
 
         num_patches = num_vision_tokens // (self.patch_tokens + 1)
         return num_patches * self.num_image_token
+
+    # -- SupportsEncoderCudaGraph protocol methods --
+
+    def get_encoder_cudagraph_config(self):
+        from vllm.v1.worker.encoder_cudagraph_defs import EncoderCudaGraphConfig
+
+        return EncoderCudaGraphConfig(
+            modalities=["image", "video"],
+            # InternVision uses standard ViT attention (no rotary embeddings,
+            # no variable-length sequence metadata), so the only graph-recorded
+            # buffer is pixel_values_flat itself.
+            buffer_keys=["pixel_values_flat"],
+            out_hidden_size=self.config.text_config.hidden_size,
+        )
+
+    def get_input_modality(
+        self,
+        mm_kwargs: dict[str, Any],
+    ) -> str:
+        if "pixel_values_flat" in mm_kwargs:
+            return "image"
+        return "video"
+
+    def get_encoder_cudagraph_budget_range(
+        self,
+        vllm_config: "VllmConfig",
+    ) -> tuple[int, int]:
+        # Min: 1 tile → num_image_token output tokens.
+        min_budget = self.num_image_token
+        max_budget = min(
+            vllm_config.scheduler_config.max_num_batched_tokens,
+            vllm_config.model_config.max_model_len,
+        )
+        return (min_budget, max_budget)
+
+    def _get_internvl_patches_list(
+        self,
+        mm_kwargs: dict[str, Any],
+    ) -> list[int]:
+        """Return per-item tile counts as a plain list of ints."""
+        if self.get_input_modality(mm_kwargs) == "image":
+            patches = mm_kwargs.get("image_num_patches", [])
+        else:
+            patches = mm_kwargs.get("video_num_patches", [])
+        if isinstance(patches, torch.Tensor):
+            return patches.tolist()
+        return [int(n) for n in patches]
+
+    def get_encoder_cudagraph_item_specs(
+        self,
+        mm_kwargs: dict[str, Any],
+    ):
+        from vllm.v1.worker.encoder_cudagraph_defs import EncoderItemSpec
+
+        return [
+            EncoderItemSpec(
+                input_size=n,
+                output_tokens=n * self.num_image_token,
+            )
+            for n in self._get_internvl_patches_list(mm_kwargs)
+        ]
+
+    def select_encoder_cudagraph_items(
+        self,
+        mm_kwargs: dict[str, Any],
+        indices: list[int],
+    ) -> dict[str, Any]:
+        modality = self.get_input_modality(mm_kwargs)
+        pv_key = (
+            "pixel_values_flat" if modality == "image" else "pixel_values_flat_video"
+        )
+        patches_key = (
+            "image_num_patches" if modality == "image" else "video_num_patches"
+        )
+
+        pixel_values = mm_kwargs[pv_key]
+        patches_list = self._get_internvl_patches_list(mm_kwargs)
+
+        if len(indices) == 0:
+            return {pv_key: pixel_values[:0], patches_key: []}
+
+        # Compute cumulative tile offsets for slicing pixel_values.
+        cum_patches = [0]
+        for n in patches_list:
+            cum_patches.append(cum_patches[-1] + n)
+
+        selected_pv = torch.cat(
+            [pixel_values[cum_patches[i] : cum_patches[i + 1]] for i in indices]
+        )
+        selected_patches = [patches_list[i] for i in indices]
+
+        return {pv_key: selected_pv, patches_key: selected_patches}
+
+    def prepare_encoder_cudagraph_capture_inputs(
+        self,
+        token_budget: int,
+        max_batch_size: int,
+        max_frames_per_batch: int,
+        device: torch.device,
+        dtype: torch.dtype,
+    ):
+        from vllm.v1.worker.encoder_cudagraph_defs import (
+            EncoderCudaGraphCaptureInputs,
+        )
+
+        # Size the buffer to hold the maximum possible tiles for this budget.
+        total_tiles = max(token_budget // self.num_image_token, 1)
+        image_size = self.config.vision_config.image_size
+
+        dummy_pixel_values = torch.randn(
+            total_tiles, 3, image_size, image_size, device=device, dtype=dtype
+        )
+
+        return EncoderCudaGraphCaptureInputs(
+            values={"pixel_values_flat": dummy_pixel_values},
+        )
+
+    def prepare_encoder_cudagraph_replay_buffers(
+        self,
+        mm_kwargs: dict[str, Any],
+        max_batch_size: int,
+        max_frames_per_batch: int,
+    ):
+        from vllm.v1.worker.encoder_cudagraph_defs import (
+            EncoderCudaGraphReplayBuffers,
+        )
+
+        modality = self.get_input_modality(mm_kwargs)
+        pv_key = (
+            "pixel_values_flat" if modality == "image" else "pixel_values_flat_video"
+        )
+        return EncoderCudaGraphReplayBuffers(
+            values={"pixel_values_flat": mm_kwargs[pv_key]},
+        )
+
+    def encoder_cudagraph_forward(
+        self,
+        values: dict[str, torch.Tensor],
+    ) -> torch.Tensor:
+        # The graph is always captured with pixel_values_flat as the input
+        # buffer. During video replay the manager copies video tiles into
+        # this same buffer before calling graph.replay(), so we always read
+        # from pixel_values_flat here.
+        pixel_values = values["pixel_values_flat"]
+        out = self.extract_feature(pixel_values)  # [N, num_image_token, H]
+        return out.view(-1, self.config.text_config.hidden_size)
+
+    def encoder_eager_forward(
+        self,
+        mm_kwargs: dict[str, Any],
+    ) -> torch.Tensor:
+        if self.get_input_modality(mm_kwargs) == "image":
+            pixel_values = mm_kwargs["pixel_values_flat"]
+        else:
+            pixel_values = mm_kwargs["pixel_values_flat_video"]
+        out = self.extract_feature(pixel_values)  # [N, num_image_token, H]
+        return out.view(-1, self.config.text_config.hidden_size)
diff --git a/vllm/model_executor/models/kimi_k25.py b/vllm/model_executor/models/kimi_k25.py
index 89cda63c805..7321b913605 100644
--- a/vllm/model_executor/models/kimi_k25.py
+++ b/vllm/model_executor/models/kimi_k25.py
@@ -235,7 +235,7 @@ class KimiK25MultiModalProcessor(BaseMultiModalProcessor[KimiK25ProcessingInfo])
             pixel_values=MultiModalFieldConfig.flat_from_sizes(
                 "vision_chunk", grid_sizes
             ),
-            grid_thws=MultiModalFieldConfig.batched("vision_chunk"),
+            grid_thws=MultiModalFieldConfig.batched("vision_chunk", keep_on_cpu=True),
         )
 
     def _call_hf_processor(
diff --git a/vllm/model_executor/models/kimi_k25_vit.py b/vllm/model_executor/models/kimi_k25_vit.py
index 237c28506ed..29ecb84674a 100644
--- a/vllm/model_executor/models/kimi_k25_vit.py
+++ b/vllm/model_executor/models/kimi_k25_vit.py
@@ -154,9 +154,12 @@ class Learnable2DInterpPosEmbDivided_fixed(nn.Module):
     def reset_parameters(self):
         nn.init.normal_(self.weight)
 
-    def forward(self, x: torch.Tensor, grid_thws: torch.Tensor) -> torch.Tensor:
+    def forward(
+        self, x: torch.Tensor, grid_thws: torch.Tensor | list[list[int]]
+    ) -> torch.Tensor:
         pos_embs = []
-        for t, h, w in grid_thws.tolist():
+        grid_thw_list = grid_thws if isinstance(grid_thws, list) else grid_thws.tolist()
+        for t, h, w in grid_thw_list:
             assert t <= self.num_frames, f"t:{t} > self.num_frames:{self.num_frames}"
             if (h, w) == self.weight.shape[:-1]:
                 pos_emb_2d = self.weight.flatten(end_dim=1)
@@ -218,7 +221,9 @@ class MoonVision3dPatchEmbed(nn.Module):
         else:
             raise NotImplementedError(f"Not support pos_emb_type: {pos_emb_type}")
 
-    def forward(self, x: torch.Tensor, grid_thws: torch.Tensor) -> torch.Tensor:
+    def forward(
+        self, x: torch.Tensor, grid_thws: torch.Tensor | list[list[int]]
+    ) -> torch.Tensor:
         x = self.proj(x).view(x.size(0), -1)
         # apply positional embedding
         x = self.pos_emb(x, grid_thws)
@@ -265,7 +270,7 @@ class Rope2DPosEmbRepeated(nn.Module):
         return freqs_cis
 
     def get_freqs_cis(
-        self, grid_thws: torch.Tensor, device: torch.device
+        self, grid_thws: torch.Tensor | list[list[int]], device: torch.device
     ) -> torch.Tensor:
         """
         Args:
@@ -279,7 +284,7 @@ class Rope2DPosEmbRepeated(nn.Module):
                 "freqs_cis", self._precompute_freqs_cis(device), persistent=False
             )
 
-        shapes = grid_thws.tolist()
+        shapes = grid_thws if isinstance(grid_thws, list) else grid_thws.tolist()
         assert all(
             1 <= h <= self.max_height and 1 <= w <= self.max_width for t, h, w in shapes
         ), (
@@ -401,6 +406,8 @@ class MoonViTEncoderLayer(nn.Module):
         x: torch.Tensor,
         cu_seqlens: torch.Tensor,
         rope_freqs_cis: torch.Tensor | None = None,
+        max_seqlen: torch.Tensor | None = None,
+        sequence_lengths: torch.Tensor | None = None,
     ):
         """Compute self-attention with packed QKV.
 
@@ -422,13 +429,15 @@ class MoonViTEncoderLayer(nn.Module):
 
         xq, xk = apply_rope(xq, xk, rope_freqs_cis)
 
-        max_seqlen = (cu_seqlens[1:] - cu_seqlens[:-1]).max()
+        if max_seqlen is None:
+            max_seqlen = (cu_seqlens[1:] - cu_seqlens[:-1]).max()
         attn_out = self.attn(
             xq.unsqueeze(0),
             xk.unsqueeze(0),
             xv.unsqueeze(0),
             cu_seqlens=cu_seqlens,
             max_seqlen=max_seqlen,
+            sequence_lengths=sequence_lengths,
         )
         attn_out = attn_out.reshape(
             seq_length,
@@ -443,12 +452,18 @@ class MoonViTEncoderLayer(nn.Module):
         hidden_states: torch.Tensor,
         cu_seqlens: torch.Tensor,
         rope_freqs_cis: torch.Tensor | None = None,
+        max_seqlen: torch.Tensor | None = None,
+        sequence_lengths: torch.Tensor | None = None,
     ):
         residual = hidden_states
         hidden_states = self.norm0(hidden_states)
 
         hidden_states = self.attention_qkvpacked(
-            hidden_states, cu_seqlens, rope_freqs_cis
+            hidden_states,
+            cu_seqlens,
+            rope_freqs_cis,
+            max_seqlen=max_seqlen,
+            sequence_lengths=sequence_lengths,
         )
         hidden_states = residual + hidden_states
 
@@ -493,27 +508,70 @@ class MoonViT3dEncoder(nn.Module):
         )
         self.final_layernorm = nn.LayerNorm(hidden_dim)
 
+    def prepare_encoder_metadata(
+        self,
+        grid_thw_list: list[list[int]],
+        *,
+        device: torch.device,
+    ) -> dict[str, torch.Tensor | None]:
+        metadata: dict[str, torch.Tensor | None] = {}
+        metadata["rope_freqs_cis"] = self.rope_2d.get_freqs_cis(
+            grid_thw_list, device=device
+        )
+
+        grid_thw_np = np.array(grid_thw_list, dtype=np.int32)
+        lengths = grid_thw_np[:, 0] * grid_thw_np[:, 1] * grid_thw_np[:, 2]
+        cu_seqlens = np.concatenate(
+            [np.zeros(1, dtype=np.int32), lengths.cumsum(dtype=np.int32)]
+        )
+
+        attn_backend = self.blocks[0].attn.attn_backend
+        metadata["sequence_lengths"] = MMEncoderAttention.maybe_compute_seq_lens(
+            attn_backend, cu_seqlens, device
+        )
+        metadata["max_seqlen"] = torch.tensor(
+            MMEncoderAttention.compute_max_seqlen(attn_backend, cu_seqlens),
+            dtype=torch.int32,
+        )
+        metadata["cu_seqlens"] = MMEncoderAttention.maybe_recompute_cu_seqlens(
+            attn_backend,
+            cu_seqlens,
+            self.blocks[0].hidden_dim,
+            self.blocks[0].tp_size,
+            device,
+        )
+        return metadata
+
     def forward(
         self,
         hidden_states: torch.Tensor,
-        grid_thws: torch.Tensor,
+        grid_thws: torch.Tensor | list[list[int]],
+        *,
+        encoder_metadata: dict[str, torch.Tensor | None] | None = None,
     ) -> torch.Tensor:
-        rope_freqs_cis = self.rope_2d.get_freqs_cis(
-            grid_thws=grid_thws, device=hidden_states.device
-        )
-
-        lengths = torch.cat(
-            (
-                torch.zeros(1, dtype=grid_thws.dtype, device=grid_thws.device),
-                grid_thws[:, 0] * grid_thws[:, 1] * grid_thws[:, 2],
+        if encoder_metadata is None:
+            grid_thw_list = (
+                grid_thws if isinstance(grid_thws, list) else grid_thws.tolist()
+            )
+            encoder_metadata = self.prepare_encoder_metadata(
+                grid_thw_list, device=hidden_states.device
             )
-        )
 
-        cu_seqlens = lengths.to(hidden_states.device).cumsum(dim=0, dtype=torch.int32)
+        rope_freqs_cis = encoder_metadata["rope_freqs_cis"]
+        cu_seqlens = encoder_metadata["cu_seqlens"]
+        max_seqlen = encoder_metadata["max_seqlen"]
+        sequence_lengths = encoder_metadata.get("sequence_lengths")
+        assert rope_freqs_cis is not None
+        assert cu_seqlens is not None
+        assert max_seqlen is not None
 
         for block in self.blocks:
             hidden_states = block(
-                hidden_states, cu_seqlens, rope_freqs_cis=rope_freqs_cis
+                hidden_states,
+                cu_seqlens,
+                rope_freqs_cis=rope_freqs_cis,
+                max_seqlen=max_seqlen,
+                sequence_lengths=sequence_lengths,
             )
 
         hidden_states = self.final_layernorm(hidden_states)
@@ -523,16 +581,17 @@ class MoonViT3dEncoder(nn.Module):
 
 def tpool_patch_merger(
     x: torch.Tensor,
-    grid_thws: torch.Tensor,
+    grid_thws: torch.Tensor | list[list[int]],
     merge_kernel_size: tuple[int, int] = (2, 2),
 ) -> list[torch.Tensor]:
     """Temporal pooling patch merger."""
     kh, kw = merge_kernel_size
-    lengths = (grid_thws[:, 0] * grid_thws[:, 1] * grid_thws[:, 2]).tolist()
+    grid_thw_list = grid_thws if isinstance(grid_thws, list) else grid_thws.tolist()
+    lengths = [t * h * w for t, h, w in grid_thw_list]
     seqs = x.split(lengths, dim=0)
 
     outputs = []
-    for seq, (t, h, w) in zip(seqs, grid_thws.tolist()):
+    for seq, (t, h, w) in zip(seqs, grid_thw_list):
         nh, nw = h // kh, w // kw
         # Reshape: (t*h*w, d) -> (t, nh, kh, nw, kw, d)
         v = seq.view(t, nh, kh, nw, kw, -1)
@@ -589,7 +648,11 @@ class MoonViT3dPretrainedModel(nn.Module):
         )
 
     def forward(
-        self, pixel_values: torch.Tensor, grid_thws: torch.Tensor
+        self,
+        pixel_values: torch.Tensor,
+        grid_thws: torch.Tensor | list[list[int]],
+        *,
+        encoder_metadata: dict[str, torch.Tensor | None] | None = None,
     ) -> torch.Tensor:
         """
         Args:
@@ -599,13 +662,23 @@ class MoonViT3dPretrainedModel(nn.Module):
         Returns:
             torch.Tensor: The output tokens.
         """
-        hidden_states = self.patch_embed(pixel_values, grid_thws)
-        hidden_states = self.encoder(hidden_states, grid_thws)
+        grid_thw_list = grid_thws if isinstance(grid_thws, list) else grid_thws.tolist()
+        if encoder_metadata is None:
+            encoder_metadata = self.encoder.prepare_encoder_metadata(
+                grid_thw_list, device=pixel_values.device
+            )
+
+        hidden_states = self.patch_embed(pixel_values, grid_thw_list)
+        hidden_states = self.encoder(
+            hidden_states,
+            grid_thw_list,
+            encoder_metadata=encoder_metadata,
+        )
         if (
             self.merge_type == "sd2_tpool"
         ):  # spatial downsampling 2x with temporal pooling all
             hidden_states = tpool_patch_merger(
-                hidden_states, grid_thws, merge_kernel_size=self.merge_kernel_size
+                hidden_states, grid_thw_list, merge_kernel_size=self.merge_kernel_size
             )
         else:
             raise NotImplementedError(f"Not support {self.merge_type}")
@@ -649,7 +722,15 @@ def vision_tower_forward(
             rope_type="rope_2d",
         )
     else:
-        vt_outputs = vision_tower(pixel_values, grid_thw)
+        grid_thw_list = grid_thw.tolist()
+        encoder_metadata = vision_tower.encoder.prepare_encoder_metadata(
+            grid_thw_list, device=pixel_values.device
+        )
+        vt_outputs = vision_tower(
+            pixel_values,
+            grid_thw_list,
+            encoder_metadata=encoder_metadata,
+        )
     tensors = mm_projector_forward(mm_projector, list(vt_outputs))
     return list(tensors)
 
diff --git a/vllm/model_executor/models/minicpmv4_6.py b/vllm/model_executor/models/minicpmv4_6.py
index d2d465b7e5a..c49af904769 100644
--- a/vllm/model_executor/models/minicpmv4_6.py
+++ b/vllm/model_executor/models/minicpmv4_6.py
@@ -5,7 +5,9 @@
 from collections.abc import Iterable, Mapping
 from typing import Any
 
+import numpy as np
 import torch
+from PIL import Image as PILImage
 from torch import nn
 from transformers import MiniCPMV4_6Config
 
@@ -30,7 +32,7 @@ from vllm.multimodal.inputs import (
     MultiModalFieldConfig,
     NestedTensors,
 )
-from vllm.multimodal.parse import ImageProcessorItems, VideoProcessorItems
+from vllm.multimodal.parse import ImageProcessorItems, ImageSize, VideoProcessorItems
 from vllm.multimodal.processing.processor import (
     PromptReplacement,
     PromptUpdateDetails,
@@ -239,12 +241,34 @@ class MiniCPMV4_6MultiModalProcessor(MiniCPMVMultiModalProcessor):
 
         per_video_pixel_values: list[torch.Tensor] = []
         per_video_tgt_sizes: list[torch.Tensor] = []
+        per_video_image_sizes: list[torch.Tensor] = []
 
         for video in parsed_videos:
             # video is iterable of frames (PIL Image or numpy array).
             all_slices: list[torch.Tensor] = []
             ts_list: list[torch.Tensor] = []
+            frame_sizes: list[torch.Tensor] = []
             for frame in video:
+                # Record per-frame (W, H) for video_image_sizes so that
+                # get_video_prompt_texts can consume a consistent frame size.
+                if isinstance(frame, PILImage.Image):
+                    w, h = frame.size
+                elif isinstance(frame, np.ndarray):
+                    if frame.ndim == 3 and frame.shape[-1] in (1, 3, 4):
+                        # HWC (e.g. from np.array(PIL.Image))
+                        h, w = frame.shape[0], frame.shape[1]
+                    else:
+                        # CHW
+                        _, h, w = frame.shape
+                elif isinstance(frame, torch.Tensor):
+                    if frame.ndim == 3 and frame.shape[-1] in (1, 3, 4):
+                        h, w = frame.shape[0], frame.shape[1]
+                    else:
+                        _, h, w = frame.shape
+                else:
+                    raise TypeError(f"Unsupported frame type: {type(frame)}")
+                frame_sizes.append(torch.tensor([w, h], dtype=torch.long, device="cpu"))
+
                 ip_out = image_processor([frame], **video_mm_kwargs)
                 pv = ip_out["pixel_values"]  # (1, C, P, sum_W)
                 ts = ip_out["target_sizes"]  # (n_slices, 2)
@@ -275,6 +299,7 @@ class MiniCPMV4_6MultiModalProcessor(MiniCPMVMultiModalProcessor):
 
             per_video_pixel_values.append(out)
             per_video_tgt_sizes.append(torch.cat(ts_list, dim=0))
+            per_video_image_sizes.append(torch.stack(frame_sizes))
 
         if not per_video_pixel_values:
             return {}
@@ -282,6 +307,7 @@ class MiniCPMV4_6MultiModalProcessor(MiniCPMVMultiModalProcessor):
         return {
             "video_pixel_values": per_video_pixel_values,
             "video_tgt_sizes": per_video_tgt_sizes,
+            "video_image_sizes": per_video_image_sizes,
         }
 
     def _get_prompt_updates(
@@ -327,6 +353,31 @@ class MiniCPMV4_6MultiModalProcessor(MiniCPMVMultiModalProcessor):
             )
 
         def get_video_replacement(item_idx: int):
+            # Prefer video_image_sizes from processed data so that the
+            # placeholder count is driven by the same frame sizes that the
+            # vision tower will actually consume.
+            video_mm_kwargs = out_mm_kwargs.get("video")
+            if video_mm_kwargs is not None and item_idx < len(video_mm_kwargs):
+                video_item = video_mm_kwargs[item_idx]
+                image_sizes_elem = video_item.get("video_image_sizes")
+                if image_sizes_elem is not None and image_sizes_elem.data is not None:
+                    # image_sizes_elem.data: (num_frames, 2) – each row is [W, H]
+                    image_sizes = image_sizes_elem.data
+                    num_frames = image_sizes.shape[0]
+                    frame_size = ImageSize(
+                        width=int(image_sizes[0, 0].item()),
+                        height=int(image_sizes[0, 1].item()),
+                    )
+                    return PromptUpdateDetails.select_text(
+                        self.get_video_prompt_texts(
+                            frame_size,
+                            num_frames,
+                            downsample_mode=ds_mode,
+                            video_idx=item_idx,
+                        ),
+                        video_embed_text,
+                    )
+
             videos = mm_items.get_items(
                 "video",
                 (MiniCPMVVideoEmbeddingItems, VideoProcessorItems),
diff --git a/vllm/model_executor/models/minimax_text_01.py b/vllm/model_executor/models/minimax_text_01.py
index c73fbf7009d..890dbe590ae 100644
--- a/vllm/model_executor/models/minimax_text_01.py
+++ b/vllm/model_executor/models/minimax_text_01.py
@@ -15,7 +15,7 @@ from torch import nn
 from transformers import MiniMaxConfig
 
 from vllm.compilation.decorators import support_torch_compile
-from vllm.config import CacheConfig, ModelConfig, VllmConfig
+from vllm.config import CacheConfig, VllmConfig
 from vllm.distributed.parallel_state import (
     get_pp_group,
     get_tensor_model_parallel_rank,
@@ -35,7 +35,9 @@ from vllm.model_executor.layers.linear import (
     RowParallelLinear,
 )
 from vllm.model_executor.layers.logits_processor import LogitsProcessor
-from vllm.model_executor.layers.mamba.linear_attn import MiniMaxText01LinearAttention
+from vllm.model_executor.layers.mamba.linear.minimax_linear_attn import (
+    MiniMaxText01LinearAttention,
+)
 from vllm.model_executor.layers.mamba.mamba_utils import (
     MambaStateCopyFunc,
     MambaStateCopyFuncCalculator,
@@ -277,9 +279,7 @@ class MiniMaxText01DecoderLayer(nn.Module):
     def __init__(
         self,
         config: MiniMaxConfig,
-        model_config: ModelConfig | None = None,
-        cache_config: CacheConfig | None = None,
-        quant_config: QuantizationConfig | None = None,
+        vllm_config: VllmConfig,
         expert_num: int = 1,
         layer_id: int = None,
         linear_layer_id: int | None = None,
@@ -303,25 +303,9 @@ class MiniMaxText01DecoderLayer(nn.Module):
                 config.max_position_embeddings, config.max_model_len
             )
         if config.attention_type == 0:
-            use_headxdim = True
-            hidden_inner = (
-                head_dim * config.num_attention_heads
-                if use_headxdim
-                else config.hidden_size
-            )
             self.self_attn = MiniMaxText01LinearAttention(
-                hidden_size=self.hidden_size,
-                hidden_inner_size=hidden_inner,
-                num_heads=config.num_attention_heads,
-                head_dim=head_dim,
-                max_position=max_position_embeddings,
-                block_size=config.block if hasattr(config, "block") else 256,
-                num_hidden_layer=config.num_hidden_layers,
-                model_config=model_config,
-                cache_config=cache_config,
-                quant_config=quant_config,
-                layer_idx=self._ilayer,
-                linear_layer_idx=linear_layer_id,
+                config,
+                vllm_config,
                 prefix=prefix,
             )
         elif config.attention_type == 1:
@@ -333,9 +317,9 @@ class MiniMaxText01DecoderLayer(nn.Module):
                 max_position=max_position_embeddings,
                 rope_parameters=config.rope_parameters,
                 sliding_window=config.sliding_window,
-                quant_config=quant_config,
+                quant_config=vllm_config.quant_config,
                 layer_idx=self._ilayer,
-                cache_config=cache_config,
+                cache_config=vllm_config.cache_config,
                 prefix=prefix,
             )
         else:
@@ -348,7 +332,7 @@ class MiniMaxText01DecoderLayer(nn.Module):
             self.mlp = MiniMaxText01MLP(
                 hidden_size=self.hidden_size,
                 intermediate_size=config.intermediate_size,
-                quant_config=quant_config,
+                quant_config=vllm_config.quant_config,
                 layer_idx=self._ilayer,
                 prefix=prefix,
             )
@@ -359,7 +343,7 @@ class MiniMaxText01DecoderLayer(nn.Module):
                 hidden_size=config.hidden_size,
                 intermediate_size=config.intermediate_size,
                 layer_idx=self._ilayer,
-                quant_config=quant_config,
+                quant_config=vllm_config.quant_config,
                 prefix=prefix,
             )
 
@@ -410,7 +394,7 @@ class MiniMaxText01DecoderLayer(nn.Module):
             self.shared_mlp = MiniMaxText01MLP(
                 hidden_size=self.hidden_size,
                 intermediate_size=shared_intermediate,
-                quant_config=quant_config,
+                quant_config=vllm_config.quant_config,
                 layer_idx=self._ilayer,
                 prefix=prefix,
             )
@@ -418,7 +402,7 @@ class MiniMaxText01DecoderLayer(nn.Module):
                 self.hidden_size,
                 1,
                 bias=False,
-                quant_config=quant_config,
+                quant_config=vllm_config.quant_config,
                 params_dtype=torch.float32,
             )
             self.coefficient.weight.weight_loader = self.shared_moe_coefficient_loader
@@ -496,9 +480,6 @@ class MiniMaxText01Model(nn.Module):
     def __init__(self, *, vllm_config: VllmConfig, prefix: str = ""):
         super().__init__()
         config: MiniMaxConfig = vllm_config.model_config.hf_config
-        model_config = vllm_config.model_config
-        quant_config = vllm_config.quant_config
-        cache_config = vllm_config.cache_config
         scheduler_config = vllm_config.scheduler_config
         self.config = config
         self.CONCAT_FFN = True
@@ -541,10 +522,8 @@ class MiniMaxText01Model(nn.Module):
             layer_config.layer_idx = layer_idx
 
             decoder_kwargs = {
-                "quant_config": quant_config,
                 "layer_id": layer_idx,
-                "model_config": model_config,
-                "cache_config": cache_config,
+                "vllm_config": vllm_config,
             }
 
             if layer_config.attention_type == 0:
diff --git a/vllm/model_executor/models/qwen3_vl.py b/vllm/model_executor/models/qwen3_vl.py
index 28c62e59bd1..9b8c42713f8 100644
--- a/vllm/model_executor/models/qwen3_vl.py
+++ b/vllm/model_executor/models/qwen3_vl.py
@@ -2269,6 +2269,8 @@ class Qwen3VLForConditionalGeneration(
         input_embeds for the LLM.
         """
 
+        device = video_embeddings.device
+
         # Generate video replacement token IDs using get_video_repl
         # This tokenizes each frame separator independently, then uses pre-tokenized
         # special tokens to ensure consistent tokenization regardless of
@@ -2283,10 +2285,8 @@ class Qwen3VLForConditionalGeneration(
             select_token_id=self.is_multimodal_pruning_enabled,
         )
 
-        repl_token_ids = torch.tensor(video_repl.full)
-        embed_token_id = _cached_tensor(
-            self.config.video_token_id, repl_token_ids.device
-        )
+        repl_token_ids = torch.tensor(video_repl.full, device=device)
+        embed_token_id = _cached_tensor(self.config.video_token_id, device=device)
         is_video_embed = torch.isin(repl_token_ids, embed_token_id)
 
         # Get text embeddings for indicator tokens (has only `visual_dim``).
diff --git a/vllm/model_executor/models/registry.py b/vllm/model_executor/models/registry.py
index 3028f9257b7..3fbebaf7dcd 100644
--- a/vllm/model_executor/models/registry.py
+++ b/vllm/model_executor/models/registry.py
@@ -419,6 +419,10 @@ _MULTIMODAL_MODELS = {
         "granite_speech",
         "GraniteSpeechForConditionalGeneration",
     ),
+    "GraniteSpeechPlusForConditionalGeneration": (
+        "granite_speech_plus",
+        "GraniteSpeechPlusForConditionalGeneration",
+    ),
     "Granite4VisionForConditionalGeneration": (
         "granite4_vision",
         "Granite4VisionForConditionalGeneration",
diff --git a/vllm/models/deepseek_v4/amd/rocm.py b/vllm/models/deepseek_v4/amd/rocm.py
index 2af93fba31e..7298f18365d 100644
--- a/vllm/models/deepseek_v4/amd/rocm.py
+++ b/vllm/models/deepseek_v4/amd/rocm.py
@@ -576,7 +576,7 @@ class DeepseekV4ROCMAiterSparseSWAMetadataBuilder(DeepseekSparseSWAMetadataBuild
 class DeepseekV4ROCMAiterMLASparseBackend(DeepseekV4FlashMLASparseBackend):
     @staticmethod
     def get_name() -> str:
-        return "ROCM_V4_FLASHMLA_SPARSE"
+        return "ROCM_FLASHMLA_SPARSE_DSV4"
 
     @staticmethod
     def get_builder_cls() -> type["DeepseekV4ROCMAiterMLASparseMetadataBuilder"]:
diff --git a/vllm/models/deepseek_v4/attention.py b/vllm/models/deepseek_v4/attention.py
index 55cb3d94ba6..5f13d1bd8d0 100644
--- a/vllm/models/deepseek_v4/attention.py
+++ b/vllm/models/deepseek_v4/attention.py
@@ -55,9 +55,6 @@ from vllm.utils.multi_stream_utils import (
     maybe_execute_in_parallel,
 )
 from vllm.v1.attention.backend import AttentionBackend, AttentionMetadata
-from vllm.v1.attention.backends.mla.flashmla_sparse import (
-    FlashMLASparseBackend,
-)
 from vllm.v1.attention.backends.mla.indexer import (
     DeepseekV4IndexerBackend,
     get_max_prefill_buffer_size,
@@ -73,21 +70,82 @@ if TYPE_CHECKING:
 logger = init_logger(__name__)
 
 
-def _select_v4_sparse_impl() -> "type[DeepseekV4SparseMLAAttentionImpl]":
-    """Pick the platform-specific V4 sparse MLA impl class. Sole platform check."""
+def _resolve_dsv4_backend(vllm_config: VllmConfig | None):
+    """Return the explicitly-requested DSv4 sparse backend enum, or None."""
+    if vllm_config is None:
+        return None
+    attn_config = getattr(vllm_config, "attention_config", None)
+    return getattr(attn_config, "backend", None) if attn_config is not None else None
+
+
+def _select_v4_sparse_impl(
+    vllm_config: VllmConfig | None = None,
+) -> "type[DeepseekV4SparseMLAAttentionImpl]":
+    """Pick the V4 sparse MLA impl class.
+
+    An explicit ``--attention-backend FLASHINFER_MLA_SPARSE_DSV4`` selects the
+    FlashInfer TRTLLM-gen path; otherwise the platform default (FlashMLA on
+    NVIDIA, ROCm Aiter on AMD) is used.
+    """
+    from vllm.v1.attention.backends.registry import AttentionBackendEnum
+
+    backend = _resolve_dsv4_backend(vllm_config)
+    if backend == AttentionBackendEnum.FLASHINFER_MLA_SPARSE_DSV4:
+        from vllm.models.deepseek_v4.nvidia.flashinfer_sparse import (
+            DeepseekV4FlashInferMLASparseImpl,
+        )
+
+        logger.info_once("Using FLASHINFER_MLA_SPARSE_DSV4 backend.")
+        return DeepseekV4FlashInferMLASparseImpl
     if current_platform.is_rocm():
         from vllm.models.deepseek_v4.amd.rocm import (
             DeepseekV4ROCMAiterMLASparseImpl,
         )
 
+        logger.info_once("Using ROCM_FLASHMLA_SPARSE_DSV4 backend.")
         return DeepseekV4ROCMAiterMLASparseImpl
     from vllm.models.deepseek_v4.nvidia.flashmla import (
         DeepseekV4FlashMLASparseImpl,
     )
 
+    logger.info_once("Using FLASHMLA_SPARSE_DSV4 backend.")
     return DeepseekV4FlashMLASparseImpl
 
 
+def _resolve_dsv4_kv_cache_dtype(
+    backend,
+    kv_cache_dtype: str,
+    cache_config: CacheConfig | None,
+) -> tuple[str, torch.dtype]:
+    """Map ``(backend, --kv-cache-dtype)`` to ``(cache_dtype_str, torch_dtype)``.
+
+    FlashInfer V4 reads a contiguous 512-wide KV row (bf16 or per-tensor FP8
+    E4M3); FlashMLA V4 reads the legacy UE8M0 paged layout (uint8 /
+    ``fp8_ds_mla``).  For FlashMLA the canonical ``fp8_ds_mla`` string is
+    written back onto ``cache_config`` so the page-size specs pick the 576B
+    layout.
+    """
+    from vllm.v1.attention.backends.registry import AttentionBackendEnum
+
+    if backend == AttentionBackendEnum.FLASHINFER_MLA_SPARSE_DSV4:
+        if kv_cache_dtype.startswith("fp8"):
+            return kv_cache_dtype, torch.float8_e4m3fn
+        # auto / bfloat16 -> contiguous BF16 cache.
+        return kv_cache_dtype, torch.bfloat16
+
+    # FlashMLA (and ROCm Aiter): legacy UE8M0 paged uint8 cache.
+    assert kv_cache_dtype.startswith("fp8"), (
+        f"DeepseekV4 FlashMLA sparse backend only supports fp8 kv-cache, "
+        f"got {kv_cache_dtype}"
+    )
+    if kv_cache_dtype != "fp8_ds_mla":
+        if cache_config is not None:
+            cache_config.cache_dtype = "fp8_ds_mla"
+        kv_cache_dtype = "fp8_ds_mla"
+        logger.info_once("Using DeepSeek's fp8_ds_mla KV cache format.")
+    return kv_cache_dtype, torch.uint8
+
+
 class DeepseekV4MLA(nn.Module):
     def __init__(
         self,
@@ -194,10 +252,17 @@ class DeepseekV4MLA(nn.Module):
         self.ln_events = [torch.cuda.Event() for _ in range(4)]
 
         assert cache_config is not None, "DeepseekV4 attention requires cache_config"
+        # Resolve the SWA cache tensor dtype from the selected backend: FlashMLA
+        # uses the legacy UE8M0 paged uint8 layout; FlashInfer uses a contiguous
+        # bf16 / per-tensor fp8 row.
+        backend = _resolve_dsv4_backend(vllm_config)
+        _, swa_cache_torch_dtype = _resolve_dsv4_kv_cache_dtype(
+            backend, cache_config.cache_dtype, cache_config
+        )
         self.swa_cache_layer = DeepseekV4SWACache(
             head_dim=self.head_dim,
             window_size=self.window_size,
-            dtype=torch.uint8,
+            dtype=swa_cache_torch_dtype,
             prefix=f"{prefix}.swa_cache",
             cache_config=cache_config,
         )
@@ -478,25 +543,66 @@ class DeepseekV4MLA(nn.Module):
         assert swa_metadata is not None
 
         swa_kv_cache = self.swa_cache_layer.kv_cache
-        swa_kv_cache_2d = swa_kv_cache.view(swa_kv_cache.shape[0], -1)
+        # The fused insert ops require int64 position_ids; the runner's positions
+        # buffer is already int64, so no cast is needed.
+        assert positions.dtype == torch.int64
+        cos_sin_cache = self.rotary_emb.cos_sin_cache
+        cache_dtype = swa_kv_cache.dtype
 
-        # Horizontally fused:
-        #   Q side:  q_head_norm (per-head RMSNorm, no weight) + GPT-J RoPE,
-        #            with zero-fill for the padding head slots.  The kernel
-        #            allocates and returns the padded q tensor.
-        #   KV side: GPT-J RoPE + UE8M0 FP8 quant + paged cache insert
         # kv is unchanged; mla_attn reads kv solely via swa_kv_cache.
-        return torch.ops._C.fused_deepseek_v4_qnorm_rope_kv_rope_quant_insert(
+        if cache_dtype == torch.uint8:
+            # Legacy FlashMLA UE8M0 paged path. Horizontally fused:
+            #   Q side:  per-head RMSNorm (no weight) + GPT-J RoPE, zero-filling
+            #            the padding head slots; the kernel allocates and returns
+            #            the padded q tensor.
+            #   KV side: GPT-J RoPE + UE8M0 FP8 quant + paged cache insert.
+            swa_kv_cache_2d = swa_kv_cache.view(swa_kv_cache.shape[0], -1)
+            return torch.ops._C.fused_deepseek_v4_qnorm_rope_kv_rope_quant_insert(
+                q,
+                kv,
+                swa_kv_cache_2d,
+                swa_metadata.slot_mapping,
+                positions,
+                cos_sin_cache,
+                self.padded_heads,
+                self.eps,
+                swa_metadata.block_size,
+            )
+
+        # FlashInfer full-cache path: contiguous [num_blocks, block_size, 512]
+        # cache (no Q padding). bf16 rewrites q in place; per-tensor fp8 writes a
+        # separately-allocated fp8 q and quantizes the KV row.
+        block_size = swa_metadata.block_size
+        swa_kv_cache_3d = swa_kv_cache.view(-1, block_size, self.head_dim)
+        if cache_dtype == torch.bfloat16:
+            torch.ops._C.fused_deepseek_v4_qnorm_rope_kv_rope_full_cache_bf16_insert(
+                q,
+                kv,
+                swa_kv_cache_3d,
+                swa_metadata.slot_mapping,
+                positions,
+                cos_sin_cache,
+                self.eps,
+                block_size,
+            )
+            return q
+
+        # per-tensor fp8 (torch.float8_e4m3fn)
+        q_fp8 = torch.empty_like(q, dtype=torch.float8_e4m3fn)
+        torch.ops._C.fused_deepseek_v4_qnorm_rope_kv_rope_full_cache_fp8_insert(
             q,
             kv,
-            swa_kv_cache_2d,
+            q_fp8,
+            swa_kv_cache_3d,
             swa_metadata.slot_mapping,
-            positions.to(torch.int64),
-            self.rotary_emb.cos_sin_cache,
-            self.padded_heads,
+            positions,
+            cos_sin_cache,
+            self.mla_attn._flashinfer_fp8_kv_scale,
+            self.mla_attn._flashinfer_fp8_q_scale_inv,
             self.eps,
-            swa_metadata.block_size,
+            block_size,
         )
+        return q_fp8
 
 
 class DeepseekV4MLAAttention(nn.Module, AttentionLayerBase):
@@ -524,7 +630,8 @@ class DeepseekV4MLAAttention(nn.Module, AttentionLayerBase):
         **extra_impl_args,
     ) -> None:
         super().__init__()
-        self.impl_cls = _select_v4_sparse_impl()
+        vllm_config = get_current_vllm_config()
+        self.impl_cls = _select_v4_sparse_impl(vllm_config)
         self.backend_cls = self.impl_cls.backend_cls
         self.num_heads = num_heads
         self.num_kv_heads = 1
@@ -556,34 +663,23 @@ class DeepseekV4MLAAttention(nn.Module, AttentionLayerBase):
         self.swa_cache_layer: DeepseekV4SWACache = swa_cache_layer
 
         # Get vllm config for cache setup
-        vllm_config = get_current_vllm_config()
         self.max_num_batched_tokens = (
             vllm_config.scheduler_config.max_num_batched_tokens
         )
         self.max_model_len = vllm_config.model_config.max_model_len
-        # DeepseekV4 only supports fp8 kv-cache format for now.
+
+        # Resolve the kv-cache dtype from the selected backend. FlashMLA uses
+        # the legacy UE8M0 paged uint8 (fp8_ds_mla) layout; FlashInfer uses a
+        # contiguous bf16 / per-tensor fp8 row.
+        backend = _resolve_dsv4_backend(vllm_config)
         kv_cache_dtype = cache_config.cache_dtype if cache_config is not None else "fp8"
-
-        assert kv_cache_dtype.startswith("fp8"), (
-            f"DeepseekV4 only supports fp8 kv-cache format for now, "
-            f"got {kv_cache_dtype}"
+        self.kv_cache_dtype, self.kv_cache_torch_dtype = _resolve_dsv4_kv_cache_dtype(
+            backend, kv_cache_dtype, cache_config
         )
-        assert issubclass(self.get_attn_backend(), FlashMLASparseBackend), (
-            "Only FlashMLA Sparse Attention backend is supported for DeepseekV4 for now"
-        )
-        # FlashMLA Sparse Attention fp8 backend uses "fp8_ds_mla" kv-cache format
-        # Automatically convert fp8 kv-cache format to "fp8_ds_mla"
-        if (
-            issubclass(self.get_attn_backend(), FlashMLASparseBackend)
-            and kv_cache_dtype.startswith("fp8")
-            and kv_cache_dtype != "fp8_ds_mla"
-        ):
-            assert cache_config is not None
-            cache_config.cache_dtype = "fp8_ds_mla"
-            kv_cache_dtype = "fp8_ds_mla"
-            logger.info_once("Using DeepSeek's fp8_ds_mla KV cache format.")
 
-        self.kv_cache_dtype = kv_cache_dtype
+        # Per-impl layer buffers (e.g. FlashInfer FP8 scale buffers). No-op for
+        # the FlashMLA / ROCm impls.
+        self.impl_cls.init_layer_buffers(self)
 
         # Register with compilation context for metadata lookup
         compilation_config = vllm_config.compilation_config
@@ -602,14 +698,17 @@ class DeepseekV4MLAAttention(nn.Module, AttentionLayerBase):
             self.compress_ratio <= 1
         ):  # SWA part. Allocated separately as DeepseekV4SWACache.
             return None
+        # FlashMLA uses the UE8M0 paged uint8 layout (576B aligned); FlashInfer
+        # uses a contiguous bf16 / per-tensor fp8 cache with no extra alignment.
+        is_flashmla = self.kv_cache_dtype == "fp8_ds_mla"
         return MLAAttentionSpec(
             block_size=vllm_config.cache_config.block_size,
             num_kv_heads=1,
             head_size=self.head_dim,
-            dtype=torch.uint8,
+            dtype=torch.uint8 if is_flashmla else self.kv_cache_torch_dtype,
             compress_ratio=self.compress_ratio,
             cache_dtype_str=self.kv_cache_dtype,
-            alignment=576,  # NOTE: FlashMLA requires 576B alignment
+            alignment=576 if is_flashmla else None,  # FlashMLA needs 576B
             model_version="deepseek_v4",
         )
 
diff --git a/vllm/models/deepseek_v4/common/ops/__init__.py b/vllm/models/deepseek_v4/common/ops/__init__.py
index dc6f3c608d9..ff6ee22996d 100644
--- a/vllm/models/deepseek_v4/common/ops/__init__.py
+++ b/vllm/models/deepseek_v4/common/ops/__init__.py
@@ -2,6 +2,7 @@
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
 
 from .cache_utils import (
+    build_flashinfer_mixed_sparse_indices,
     combine_topk_swa_indices,
     compute_global_topk_indices_and_lens,
     dequantize_and_gather_k_cache,
@@ -15,6 +16,7 @@ from .save_partial_states import save_partial_states
 
 __all__ = [
     "MXFP4_BLOCK_SIZE",
+    "build_flashinfer_mixed_sparse_indices",
     "combine_topk_swa_indices",
     "compute_global_topk_indices_and_lens",
     "dequantize_and_gather_k_cache",
diff --git a/vllm/models/deepseek_v4/common/ops/cache_utils.py b/vllm/models/deepseek_v4/common/ops/cache_utils.py
index ac66751e311..8adf219dbbe 100644
--- a/vllm/models/deepseek_v4/common/ops/cache_utils.py
+++ b/vllm/models/deepseek_v4/common/ops/cache_utils.py
@@ -592,3 +592,308 @@ def _combine_topk_swa_indices_kernel(
 
         combined_len = topk_len + swa_len
         tl.store(combined_lens_ptr + token_idx, combined_len)
+
+
+def build_flashinfer_mixed_sparse_indices(
+    decode_swa_indices: torch.Tensor,
+    decode_compressed_indices: torch.Tensor | None,
+    decode_compressed_topk_lens: torch.Tensor | None,
+    prefill_topk_indices: torch.Tensor,
+    query_start_loc: torch.Tensor,
+    seq_lens: torch.Tensor,
+    token_to_req_indices: torch.Tensor,
+    swa_block_table: torch.Tensor,
+    swa_block_size: int,
+    compressed_block_table: torch.Tensor | None,
+    compressed_block_size: int,
+    window_size: int,
+    compress_ratio: int,
+    topk: int,
+    decode_compressed_indices_are_local: bool = False,
+    decode_is_valid_token: torch.Tensor | None = None,
+) -> tuple[torch.Tensor, torch.Tensor]:
+    """Build the FlashInfer DSV4 sparse-index matrix for decode-first batches.
+
+    Produces ``sparse_indices`` of shape ``[num_tokens, window_size +
+    padded_topk]`` (the first ``window_size`` columns are SWA slot ids, the rest
+    are compressed/top-k slot ids) and ``sparse_topk_lens`` (active length per
+    token). Decode tokens read precomputed SWA/compressed indices; prefill tokens
+    derive their SWA window from the position and translate local compressed
+    indices to global slots via the block tables.
+    """
+    assert decode_swa_indices.dtype == torch.int32
+    assert decode_swa_indices.dim() == 2
+    assert decode_swa_indices.shape[-1] == window_size
+    if decode_compressed_topk_lens is not None:
+        assert decode_compressed_topk_lens.dtype == torch.int32
+    assert prefill_topk_indices.dtype == torch.int32
+    assert prefill_topk_indices.dim() == 2
+    assert query_start_loc.dtype == torch.int32
+    assert seq_lens.dtype == torch.int32
+    assert token_to_req_indices.dtype == torch.int32
+    assert swa_block_table.dtype == torch.int32
+
+    num_decode_tokens = decode_swa_indices.shape[0]
+    num_prefill_tokens = prefill_topk_indices.shape[0]
+    num_tokens = num_decode_tokens + num_prefill_tokens
+    assert token_to_req_indices.shape[0] >= num_tokens
+    if decode_compressed_topk_lens is not None:
+        assert decode_compressed_topk_lens.shape[0] >= num_decode_tokens
+
+    decode_compressed_topk = 0
+    if decode_compressed_indices is None:
+        decode_compressed_indices = prefill_topk_indices
+    else:
+        assert decode_compressed_indices.dtype == torch.int32
+        assert decode_compressed_indices.dim() == 2
+        assert decode_compressed_indices.shape[0] == num_decode_tokens
+        decode_compressed_topk = decode_compressed_indices.shape[-1]
+    if decode_compressed_topk > 0 and decode_compressed_indices_are_local:
+        assert decode_is_valid_token is not None
+        assert decode_is_valid_token.dtype == torch.bool
+        assert decode_is_valid_token.shape[0] >= num_decode_tokens
+    else:
+        decode_is_valid_token = token_to_req_indices
+
+    if compressed_block_table is None:
+        compressed_block_table = swa_block_table
+    assert compressed_block_table.dtype == torch.int32
+    has_decode_compressed_lens = decode_compressed_topk_lens is not None
+    if decode_compressed_topk_lens is None:
+        decode_compressed_topk_lens = token_to_req_indices
+
+    # The FlashInfer TRTLLM-gen sparse-MLA kernels require every per-token topk
+    # index row to start on a 16-byte boundary: the kernel loads the compressed
+    # indices with 128-bit (16-byte) vectorized loads, so a misaligned row would
+    # fault or read across rows. 16 bytes = 4 int32 indices, so round the topk
+    # width (and hence the row stride, since the SWA columns are fixed-width) up
+    # to a multiple of 4. The extra columns are filled with -1 (invalid) and bounded
+    # by ``sparse_topk_lens``, so padding never changes the attention result.
+    padded_topk = max(topk, decode_compressed_topk)
+    padded_topk = (padded_topk + 3) // 4 * 4
+    sparse_indices = torch.empty(
+        (num_tokens, window_size + padded_topk),
+        dtype=torch.int32,
+        device=decode_swa_indices.device,
+    )
+    sparse_topk_lens = torch.empty(
+        num_tokens, dtype=torch.int32, device=decode_swa_indices.device
+    )
+    if num_tokens == 0:
+        return sparse_indices, sparse_topk_lens
+
+    window_block_size = triton.next_power_of_2(max(window_size, 1))
+    topk_block_size = triton.next_power_of_2(max(padded_topk, 1))
+    max_block_size = max(window_block_size, topk_block_size)
+    num_warps = 4 if max_block_size >= 256 else 1
+
+    _build_flashinfer_mixed_sparse_indices_kernel[(num_tokens,)](
+        sparse_indices,
+        sparse_indices.stride(0),
+        sparse_topk_lens,
+        decode_swa_indices,
+        decode_swa_indices.stride(0),
+        decode_compressed_indices,
+        decode_compressed_indices.stride(0),
+        decode_compressed_topk_lens,
+        decode_is_valid_token,
+        prefill_topk_indices,
+        prefill_topk_indices.stride(0),
+        query_start_loc,
+        seq_lens,
+        token_to_req_indices,
+        swa_block_table,
+        swa_block_table.stride(0),
+        swa_block_size,
+        compressed_block_table,
+        compressed_block_table.stride(0),
+        compressed_block_size,
+        NUM_DECODE_TOKENS=num_decode_tokens,
+        WINDOW_SIZE=window_size,
+        COMPRESS_RATIO=compress_ratio,
+        TOP_K=topk,
+        PADDED_TOP_K=padded_topk,
+        PREFILL_TOPK_STRIDE=prefill_topk_indices.shape[-1],
+        DECODE_COMPRESSED_TOPK=decode_compressed_topk,
+        DECODE_COMPRESSED_INDICES_ARE_LOCAL=decode_compressed_indices_are_local,
+        HAS_DECODE_COMPRESSED_LENS=has_decode_compressed_lens,
+        WINDOW_BLOCK_SIZE=window_block_size,
+        TOPK_BLOCK_SIZE=topk_block_size,
+        num_warps=num_warps,
+    )
+    return sparse_indices, sparse_topk_lens
+
+
+@triton.jit(
+    do_not_specialize=[
+        "sparse_indices_stride",
+        "decode_swa_stride",
+        "decode_compressed_stride",
+        "prefill_topk_stride",
+        "swa_block_table_stride",
+        "swa_block_size",
+        "compressed_block_table_stride",
+        "compressed_block_size",
+        "NUM_DECODE_TOKENS",
+        "PREFILL_TOPK_STRIDE",
+    ]
+)
+def _build_flashinfer_mixed_sparse_indices_kernel(
+    sparse_indices_ptr,
+    sparse_indices_stride,
+    sparse_topk_lens_ptr,
+    decode_swa_indices_ptr,
+    decode_swa_stride,
+    decode_compressed_indices_ptr,
+    decode_compressed_stride,
+    decode_compressed_topk_lens_ptr,
+    decode_is_valid_token_ptr,
+    prefill_topk_indices_ptr,
+    prefill_topk_stride,
+    query_start_loc_ptr,
+    seq_lens_ptr,
+    token_to_req_indices_ptr,
+    swa_block_table_ptr,
+    swa_block_table_stride,
+    swa_block_size,
+    compressed_block_table_ptr,
+    compressed_block_table_stride,
+    compressed_block_size,
+    NUM_DECODE_TOKENS,
+    WINDOW_SIZE: tl.constexpr,
+    COMPRESS_RATIO: tl.constexpr,
+    TOP_K: tl.constexpr,
+    PADDED_TOP_K: tl.constexpr,
+    PREFILL_TOPK_STRIDE,
+    DECODE_COMPRESSED_TOPK: tl.constexpr,
+    DECODE_COMPRESSED_INDICES_ARE_LOCAL: tl.constexpr,
+    HAS_DECODE_COMPRESSED_LENS: tl.constexpr,
+    WINDOW_BLOCK_SIZE: tl.constexpr,
+    TOPK_BLOCK_SIZE: tl.constexpr,
+):
+    token_idx = tl.program_id(0)
+
+    if token_idx < NUM_DECODE_TOKENS:
+        for i in range(0, WINDOW_SIZE, WINDOW_BLOCK_SIZE):
+            offset = i + tl.arange(0, WINDOW_BLOCK_SIZE)
+            mask = offset < WINDOW_SIZE
+            values = tl.load(
+                decode_swa_indices_ptr + token_idx * decode_swa_stride + offset,
+                mask=mask,
+                other=-1,
+            )
+            tl.store(
+                sparse_indices_ptr + token_idx * sparse_indices_stride + offset,
+                values,
+                mask=mask,
+            )
+
+        compressed_len = tl.zeros((), dtype=tl.int32)
+        for i in range(0, PADDED_TOP_K, TOPK_BLOCK_SIZE):
+            offset = i + tl.arange(0, TOPK_BLOCK_SIZE)
+            mask = offset < PADDED_TOP_K
+            values = tl.load(
+                decode_compressed_indices_ptr
+                + token_idx * decode_compressed_stride
+                + offset,
+                mask=offset < DECODE_COMPRESSED_TOPK,
+                other=-1,
+            )
+            if DECODE_COMPRESSED_INDICES_ARE_LOCAL:
+                token_valid = tl.load(decode_is_valid_token_ptr + token_idx)
+                is_valid = values >= 0
+                req_idx = tl.load(token_to_req_indices_ptr + token_idx)
+                block_indices = values // compressed_block_size
+                block_numbers = tl.load(
+                    compressed_block_table_ptr
+                    + req_idx * compressed_block_table_stride
+                    + block_indices,
+                    mask=mask & is_valid,
+                    other=-1,
+                )
+                block_offsets = values % compressed_block_size
+                values = block_numbers * compressed_block_size + block_offsets
+                values = tl.where(is_valid, values, -1)
+                compressed_len += tl.sum((is_valid & token_valid).to(tl.int32), axis=0)
+            tl.store(
+                sparse_indices_ptr
+                + token_idx * sparse_indices_stride
+                + WINDOW_SIZE
+                + offset,
+                values,
+                mask=mask,
+            )
+
+        if DECODE_COMPRESSED_TOPK == 0:
+            compressed_len = tl.zeros((), dtype=tl.int32)
+        elif not DECODE_COMPRESSED_INDICES_ARE_LOCAL:
+            if HAS_DECODE_COMPRESSED_LENS:
+                compressed_len = tl.load(decode_compressed_topk_lens_ptr + token_idx)
+            else:
+                compressed_len = tl.full((), DECODE_COMPRESSED_TOPK, dtype=tl.int32)
+
+        tl.store(sparse_topk_lens_ptr + token_idx, WINDOW_SIZE + compressed_len)
+        return
+
+    prefill_idx = token_idx - NUM_DECODE_TOKENS
+    req_idx = tl.load(token_to_req_indices_ptr + token_idx)
+    query_start = tl.load(query_start_loc_ptr + req_idx)
+    query_end = tl.load(query_start_loc_ptr + req_idx + 1)
+    query_len = query_end - query_start
+    seq_len = tl.load(seq_lens_ptr + req_idx)
+    start_pos = seq_len - query_len
+    token_idx_in_query = token_idx - query_start
+    pos = start_pos + token_idx_in_query
+    swa_len = tl.minimum(pos + 1, WINDOW_SIZE)
+    swa_start_pos = pos - swa_len + 1
+    topk_len = tl.minimum((pos + 1) // COMPRESS_RATIO, TOP_K)
+
+    for i in range(0, WINDOW_SIZE, WINDOW_BLOCK_SIZE):
+        offset = i + tl.arange(0, WINDOW_BLOCK_SIZE)
+        mask = offset < WINDOW_SIZE
+        pos_offset = swa_start_pos + offset
+        block_indices = pos_offset // swa_block_size
+        block_numbers = tl.load(
+            swa_block_table_ptr + req_idx * swa_block_table_stride + block_indices,
+            mask=mask & (offset < swa_len),
+            other=-1,
+        )
+        block_offsets = pos_offset % swa_block_size
+        slot_ids = block_numbers * swa_block_size + block_offsets
+        slot_ids = tl.where(offset < swa_len, slot_ids, -1)
+        tl.store(
+            sparse_indices_ptr + token_idx * sparse_indices_stride + offset,
+            slot_ids,
+            mask=mask,
+        )
+
+    for i in range(0, PADDED_TOP_K, TOPK_BLOCK_SIZE):
+        offset = i + tl.arange(0, TOPK_BLOCK_SIZE)
+        mask = offset < PADDED_TOP_K
+        local_idx = tl.load(
+            prefill_topk_indices_ptr + prefill_idx * prefill_topk_stride + offset,
+            mask=(offset < PREFILL_TOPK_STRIDE) & (offset < topk_len),
+            other=-1,
+        )
+        is_valid = local_idx >= 0
+        block_indices = local_idx // compressed_block_size
+        block_numbers = tl.load(
+            compressed_block_table_ptr
+            + req_idx * compressed_block_table_stride
+            + block_indices,
+            mask=mask & is_valid,
+            other=-1,
+        )
+        block_offsets = local_idx % compressed_block_size
+        slot_ids = block_numbers * compressed_block_size + block_offsets
+        slot_ids = tl.where((offset < topk_len) & is_valid, slot_ids, -1)
+        tl.store(
+            sparse_indices_ptr
+            + token_idx * sparse_indices_stride
+            + WINDOW_SIZE
+            + offset,
+            slot_ids,
+            mask=mask,
+        )
+
+    tl.store(sparse_topk_lens_ptr + token_idx, WINDOW_SIZE + topk_len)
diff --git a/vllm/models/deepseek_v4/compressor.py b/vllm/models/deepseek_v4/compressor.py
index f36dc8f1762..2ceec0789a1 100644
--- a/vllm/models/deepseek_v4/compressor.py
+++ b/vllm/models/deepseek_v4/compressor.py
@@ -155,13 +155,17 @@ class CompressorStateCache(torch.nn.Module, AttentionLayerBase):
             raise ValueError(f"Invalid compress ratio: {compress_ratio}")
 
     def get_kv_cache_spec(self, vllm_config: VllmConfig) -> KVCacheSpec:
+        # FlashMLA's UE8M0 paged layout needs 576B alignment; the FlashInfer
+        # full-cache path shares state pages with contiguous KV pages, so
+        # padding would break page matching.
+        is_flashmla = vllm_config.cache_config.cache_dtype == "fp8_ds_mla"
         return SlidingWindowMLASpec(  # only has one vector instead of K + V
             block_size=self.block_size,
             num_kv_heads=1,
             head_size=self.state_dim,
             dtype=self.dtype,
             sliding_window=self.sliding_window,
-            alignment=576,  # NOTE: FlashMLA requires 576B alignment
+            alignment=576 if is_flashmla else None,
         )
 
     def forward(self): ...
@@ -333,26 +337,40 @@ class DeepseekCompressor(nn.Module):
         # - position used: (positions // compress_ratio) * compress_ratio
         cos_sin_cache = rotary_emb.cos_sin_cache
         k_cache_metadata = cast(Any, attn_metadata[self.k_cache_prefix])
-        kv_cache = self._static_forward_context[self.k_cache_prefix].kv_cache
+        k_cache_layer = self._static_forward_context[self.k_cache_prefix]
+        kv_cache = k_cache_layer.kv_cache
 
-        if current_platform.is_cuda():
-            # NVIDIA GPUs.
-            if self.head_dim == 512:
-                from .nvidia.ops.sparse_attn_compress_cutedsl import (
-                    compress_norm_rope_store_cutedsl,
-                )
+        # FlashInfer V4 reads a contiguous bf16 / per-tensor fp8 cache row; the
+        # legacy FlashMLA path uses the UE8M0 paged uint8 layout.
+        store_full_kv = self.head_dim == 512 and kv_cache.dtype != torch.uint8
+        store_full_fp8 = kv_cache.dtype == torch.float8_e4m3fn
+        fp8_scale = (
+            getattr(k_cache_layer, "_flashinfer_fp8_kv_scale", None)
+            if store_full_fp8
+            else None
+        )
 
-                # Main compressor path.
-                # Use a cutedsl kernel for better performance.
-                compress_norm_rope_store_fn = compress_norm_rope_store_cutedsl
-            else:
-                # Indexer path (head_dim == 128).
-                # Use a triton kernel.
-                compress_norm_rope_store_fn = compress_norm_rope_store_triton
+        # cutedsl (head=512) accepts the full-cache flags; triton (indexer/AMD)
+        # does not, so the two callables have different signatures.
+        compress_norm_rope_store_fn: Any
+        if current_platform.is_cuda() and self.head_dim == 512:
+            from .nvidia.ops.sparse_attn_compress_cutedsl import (
+                compress_norm_rope_store_cutedsl,
+            )
+
+            # head=512 on CUDA always uses cutedsl, for both the legacy UE8M0
+            # layout and the FlashInfer full-cache layout. The full-cache flags
+            # are consumed only here.
+            compress_norm_rope_store_fn = compress_norm_rope_store_cutedsl
+            extra_kwargs: dict[str, Any] = dict(
+                store_full_kv=store_full_kv,
+                store_full_fp8=store_full_fp8,
+                fp8_scale=fp8_scale,
+            )
         else:
-            # AMD GPUs.
-            # Always use a triton kernel.
+            # Indexer path (head_dim == 128) or AMD: triton, legacy UE8M0 only.
             compress_norm_rope_store_fn = compress_norm_rope_store_triton
+            extra_kwargs = {}
 
         compress_norm_rope_store_fn(
             state_cache=state_cache,
@@ -377,4 +395,5 @@ class DeepseekCompressor(nn.Module):
             quant_block=self._quant_block,
             token_stride=self._token_stride,
             scale_dim=self._scale_dim,
+            **extra_kwargs,
         )
diff --git a/vllm/models/deepseek_v4/nvidia/flashinfer_sparse.py b/vllm/models/deepseek_v4/nvidia/flashinfer_sparse.py
new file mode 100644
index 00000000000..71ea4fe506e
--- /dev/null
+++ b/vllm/models/deepseek_v4/nvidia/flashinfer_sparse.py
@@ -0,0 +1,407 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""DeepSeek V4 FlashInfer TRTLLM-gen sparse MLA backend.
+
+Uses FlashInfer's public ``trtllm_batch_decode_sparse_mla_dsv4`` launcher with a
+contiguous bf16 / per-tensor FP8 KV cache. Shares the V4 sparse-index pipeline
+(SWA cache + compressor + indexer, 256-token blocks, head_size 512) with the
+FlashMLA V4 backend; only the attention forward differs.
+"""
+
+from typing import TYPE_CHECKING, cast
+
+import torch
+
+from vllm.forward_context import get_forward_context
+from vllm.models.deepseek_v4.common.ops import (
+    build_flashinfer_mixed_sparse_indices,
+)
+from vllm.models.deepseek_v4.nvidia.flashmla import (
+    DeepseekV4FlashMLASparseBackend,
+    DeepseekV4SparseMLAAttentionImpl,
+)
+from vllm.utils.flashinfer import flashinfer_trtllm_batch_decode_sparse_mla_dsv4
+from vllm.v1.attention.backends.mla.flashmla_sparse import FlashMLASparseMetadata
+
+if TYPE_CHECKING:
+    from vllm.models.deepseek_v4.attention import DeepseekV4MLAAttention
+    from vllm.v1.attention.backends.mla.sparse_swa import DeepseekSparseSWAMetadata
+
+# 128 MB TRTLLM-gen workspace, allocated once per device and zero-initialized
+# (required for first use). Reused across all FlashInfer V4 layers.
+_FLASHINFER_DSV4_WORKSPACE_BUFFER_SIZE = 128 * 1024 * 1024
+_flashinfer_dsv4_workspace_by_device: dict[torch.device, torch.Tensor] = {}
+
+
+def _get_flashinfer_dsv4_workspace(device: torch.device) -> torch.Tensor:
+    workspace = _flashinfer_dsv4_workspace_by_device.get(device)
+    if workspace is None:
+        workspace = torch.zeros(
+            _FLASHINFER_DSV4_WORKSPACE_BUFFER_SIZE,
+            dtype=torch.uint8,
+            device=device,
+        )
+        _flashinfer_dsv4_workspace_by_device[device] = workspace
+    return workspace
+
+
+class DeepseekV4FlashInferMLASparseBackend(DeepseekV4FlashMLASparseBackend):
+    """Shares the FlashMLA V4 metadata/cache pipeline; swaps the attention impl.
+
+    Inheriting from the FlashMLA V4 backend reuses its ``FlashMLASparseMetadata``
+    builder (which the V4 sparse-index pipeline needs — the V3.2 FlashInfer
+    builder lacks the ``c128a_*`` fields), 256-token blocks, head_size 512, and
+    the contiguous (num_blocks, block_size, 512) cache shape for non-``fp8_ds_mla``
+    dtypes.
+    """
+
+    @staticmethod
+    def get_name() -> str:
+        return "FLASHINFER_MLA_SPARSE_DSV4"
+
+    @staticmethod
+    def get_impl_cls() -> type["DeepseekV4FlashInferMLASparseImpl"]:
+        return DeepseekV4FlashInferMLASparseImpl
+
+
+class DeepseekV4FlashInferMLASparseImpl(DeepseekV4SparseMLAAttentionImpl):
+    """FlashInfer TRTLLM-gen sparse MLA implementation for DeepSeek V4."""
+
+    backend_cls = DeepseekV4FlashInferMLASparseBackend
+
+    @classmethod
+    def get_padded_num_q_heads(cls, num_heads: int) -> int:
+        # FP8 decode kernel only supports h_q = 64 or 128.
+        if num_heads > 128:
+            raise ValueError(
+                f"DeepseekV4 Flashinfer MLA Sparse does not support {num_heads} heads "
+                "(FP8 decode kernel requires h_q in {64, 128})."
+            )
+        return 64 if num_heads <= 64 else 128
+
+    @classmethod
+    def init_layer_buffers(cls, layer: "DeepseekV4MLAAttention") -> None:
+        # Per-tensor FP8 scale buffers + precomputed scalar BMM scales. Only the
+        # per-tensor FP8 cache path consumes these; bf16 reads ``layer.scale``.
+        if layer.kv_cache_torch_dtype != torch.float8_e4m3fn:
+            return
+        # TODO: load real per-tensor Q/KV scales from the checkpoint; unit
+        # scales until the scale tensor names are wired.
+        fp8_q_scale = 1.0
+        fp8_kv_scale = 1.0
+        layer.register_buffer(
+            "_flashinfer_fp8_q_scale",
+            torch.tensor([fp8_q_scale], dtype=torch.float32),
+            persistent=False,
+        )
+        layer.register_buffer(
+            "_flashinfer_fp8_q_scale_inv",
+            torch.tensor([1.0 / fp8_q_scale], dtype=torch.float32),
+            persistent=False,
+        )
+        layer.register_buffer(
+            "_flashinfer_fp8_kv_scale",
+            torch.tensor([fp8_kv_scale], dtype=torch.float32),
+            persistent=False,
+        )
+        # TRTLLM-gen takes scalar scale args on a distinct (correct) C++ path
+        # vs 1-elem tensors, so these are Python floats. bmm1 folds the softmax
+        # scale and the Q/KV per-tensor scales; bmm2 is the KV scale.
+        layer._flashinfer_fp8_bmm1_scale = layer.scale * fp8_q_scale * fp8_kv_scale
+        layer._flashinfer_fp8_bmm2_scale = fp8_kv_scale
+
+    @classmethod
+    def forward_mqa(  # type: ignore[override]
+        cls,
+        layer: "DeepseekV4MLAAttention",
+        q: torch.Tensor,
+        kv: torch.Tensor,
+        positions: torch.Tensor,
+        output: torch.Tensor,
+    ) -> None:
+        # The TRTLLM-gen kernel requires h_q in {64, 128}, so the output buffer
+        # is allocated at the padded head count while q arrives at the local
+        # head count; _forward pads q to match before the launcher.
+        assert output.shape[0] == q.shape[0] and output.shape[-1] == q.shape[-1], (
+            f"output buffer shape {output.shape} incompatible with q shape {q.shape}"
+        )
+        assert output.shape[1] >= q.shape[1], (
+            f"output heads {output.shape[1]} must be >= q heads {q.shape[1]}"
+        )
+        # Per-tensor FP8 q produces a bf16 attention output.
+        expected_output_dtype = (
+            torch.bfloat16 if q.dtype == torch.float8_e4m3fn else q.dtype
+        )
+        assert output.dtype == expected_output_dtype, (
+            f"output dtype {output.dtype} must match expected {expected_output_dtype} "
+            f"for q dtype {q.dtype}"
+        )
+
+        forward_context = get_forward_context()
+        attn_metadata = forward_context.attn_metadata
+        if attn_metadata is None:
+            # Warmup dummy run: FlashInfer reads the cache directly and lazily
+            # allocates its workspace, so nothing to reserve here.
+            output.zero_()
+            return
+
+        assert isinstance(attn_metadata, dict)
+        flashmla_metadata = cast(
+            FlashMLASparseMetadata | None, attn_metadata.get(layer.prefix)
+        )
+        swa_metadata = cast(
+            "DeepseekSparseSWAMetadata | None",
+            attn_metadata.get(layer.swa_cache_layer.prefix),
+        )
+        assert swa_metadata is not None
+
+        swa_only = layer.compress_ratio <= 1
+        # SWA-only layers don't allocate their own compressed KV cache.
+        self_kv_cache = layer.kv_cache if not swa_only else None
+        swa_kv_cache = layer.swa_cache_layer.kv_cache
+
+        cls._forward(
+            layer=layer,
+            q=q,
+            kv_cache=self_kv_cache,
+            swa_k_cache=swa_kv_cache,
+            swa_metadata=swa_metadata,
+            attn_metadata=flashmla_metadata,
+            swa_only=swa_only,
+            output=output,
+        )
+
+    @classmethod
+    def _build_sparse_index_metadata(
+        cls,
+        layer: "DeepseekV4MLAAttention",
+        kv_cache: torch.Tensor | None,
+        swa_k_cache: torch.Tensor,
+        swa_metadata: "DeepseekSparseSWAMetadata",
+        attn_metadata: FlashMLASparseMetadata | None,
+        swa_only: bool,
+    ) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor]:
+        """Build the combined sparse-index tensors for the mixed batch.
+
+        Returns ``(compressed_kv_cache, seq_lens, sparse_indices,
+        sparse_topk_lens)``.
+        """
+        num_decodes = swa_metadata.num_decodes
+        num_prefills = swa_metadata.num_prefills
+        num_decode_tokens = swa_metadata.num_decode_tokens
+        num_prefill_tokens = swa_metadata.num_prefill_tokens
+        num_reqs = num_decodes + num_prefills
+        num_tokens = num_decode_tokens + num_prefill_tokens
+
+        assert swa_metadata.seq_lens is not None
+        assert swa_metadata.query_start_loc is not None
+        assert swa_metadata.token_to_req_indices is not None
+        assert swa_metadata.decode_swa_indices is not None
+        assert swa_metadata.block_table is not None
+
+        decode_swa_indices = swa_metadata.decode_swa_indices.reshape(
+            num_decode_tokens, layer.window_size
+        )
+        decode_compressed_topk_lens = None
+        decode_compressed_indices_are_local = False
+        decode_is_valid_token = None
+
+        if swa_only:
+            assert layer.topk_indices_buffer is not None
+            compressed_kv_cache = swa_k_cache
+            decode_compressed_indices = None
+            prefill_topk_indices = layer.topk_indices_buffer[
+                num_decode_tokens:num_tokens, :0
+            ]
+            compressed_block_table = None
+            compressed_block_size = swa_metadata.block_size
+            top_k = 0
+        else:
+            assert kv_cache is not None
+            assert attn_metadata is not None
+            compressed_kv_cache = kv_cache
+            compressed_block_table = attn_metadata.block_table[:num_reqs]
+            compressed_block_size = attn_metadata.block_size // layer.compress_ratio
+
+            if layer.compress_ratio == 4:
+                assert layer.topk_indices_buffer is not None
+                if num_prefill_tokens > 0:
+                    prefill_topk_indices = layer.topk_indices_buffer[
+                        num_decode_tokens:num_tokens
+                    ]
+                    top_k = prefill_topk_indices.shape[-1]
+                else:
+                    prefill_topk_indices = layer.topk_indices_buffer[:0, :0]
+                    top_k = 0
+
+                decode_compressed_indices_are_local = True
+                assert swa_metadata.is_valid_token is not None
+                decode_is_valid_token = swa_metadata.is_valid_token[:num_decode_tokens]
+                if num_decode_tokens > 0:
+                    decode_compressed_indices = layer.topk_indices_buffer[
+                        :num_decode_tokens
+                    ]
+                else:
+                    # Keep the logical width aligned with the mixed-batch case so
+                    # pure-prefill steps reuse the same Triton specialization.
+                    decode_compressed_indices = prefill_topk_indices[:0]
+            else:
+                if num_prefill_tokens > 0:
+                    assert attn_metadata.c128a_prefill_topk_indices is not None
+                    prefill_topk_indices = attn_metadata.c128a_prefill_topk_indices
+                    top_k = prefill_topk_indices.shape[-1]
+                else:
+                    prefill_topk_indices = decode_swa_indices[:0, :0]
+                    top_k = 0
+
+                if num_decode_tokens > 0:
+                    assert attn_metadata.c128a_global_decode_topk_indices is not None
+                    assert attn_metadata.c128a_decode_topk_lens is not None
+                    decode_compressed_indices = (
+                        attn_metadata.c128a_global_decode_topk_indices.view(
+                            num_decode_tokens, -1
+                        )
+                    )
+                    decode_compressed_topk_lens = attn_metadata.c128a_decode_topk_lens
+                    if num_prefill_tokens == 0:
+                        prefill_topk_indices = decode_compressed_indices[:0, :0]
+                else:
+                    decode_compressed_indices = prefill_topk_indices[:0]
+                    decode_compressed_topk_lens = swa_metadata.seq_lens[:0]
+
+        query_start_loc = swa_metadata.query_start_loc[: num_reqs + 1]
+        seq_lens = swa_metadata.seq_lens[:num_reqs]
+        assert seq_lens.dtype == torch.int32
+        sparse_indices, sparse_topk_lens = build_flashinfer_mixed_sparse_indices(
+            decode_swa_indices,
+            decode_compressed_indices,
+            decode_compressed_topk_lens,
+            prefill_topk_indices[:num_prefill_tokens],
+            query_start_loc,
+            seq_lens,
+            swa_metadata.token_to_req_indices[:num_tokens],
+            swa_metadata.block_table[:num_reqs],
+            swa_metadata.block_size,
+            compressed_block_table,
+            compressed_block_size,
+            layer.window_size,
+            layer.compress_ratio,
+            top_k,
+            decode_compressed_indices_are_local=decode_compressed_indices_are_local,
+            decode_is_valid_token=decode_is_valid_token,
+        )
+        return compressed_kv_cache, seq_lens, sparse_indices, sparse_topk_lens
+
+    @classmethod
+    def _forward(
+        cls,
+        layer: "DeepseekV4MLAAttention",
+        q: torch.Tensor,
+        kv_cache: torch.Tensor | None,
+        swa_k_cache: torch.Tensor,
+        swa_metadata: "DeepseekSparseSWAMetadata",
+        attn_metadata: FlashMLASparseMetadata | None,
+        swa_only: bool,
+        output: torch.Tensor,
+    ) -> None:
+        assert layer.kv_cache_torch_dtype in (torch.bfloat16, torch.float8_e4m3fn)
+        num_decodes = swa_metadata.num_decodes
+        num_prefills = swa_metadata.num_prefills
+        num_decode_tokens = swa_metadata.num_decode_tokens
+        num_prefill_tokens = swa_metadata.num_prefill_tokens
+        num_reqs = num_decodes + num_prefills
+        num_tokens = num_decode_tokens + num_prefill_tokens
+        if num_tokens == 0:
+            return
+
+        (
+            compressed_kv_cache,
+            seq_lens,
+            sparse_indices,
+            sparse_topk_lens,
+        ) = cls._build_sparse_index_metadata(
+            layer=layer,
+            kv_cache=kv_cache,
+            swa_k_cache=swa_k_cache,
+            swa_metadata=swa_metadata,
+            attn_metadata=attn_metadata,
+            swa_only=swa_only,
+        )
+
+        # CUDA graph execution can pad q/output past the scheduled token count;
+        # restrict to the real tokens (the launcher validates sparse indices).
+        query = q[:num_tokens]
+        output = output[:num_tokens]
+        bmm1_scale: float | torch.Tensor = layer.scale
+        bmm2_scale: float | torch.Tensor = 1.0
+        if layer.kv_cache_torch_dtype == torch.float8_e4m3fn:
+            assert query.dtype == torch.float8_e4m3fn
+            bmm1_scale = layer._flashinfer_fp8_bmm1_scale
+            bmm2_scale = layer._flashinfer_fp8_bmm2_scale
+        else:
+            assert query.dtype == torch.bfloat16
+            query = query.contiguous()
+
+        # The TRTLLM-gen sparse-MLA kernel requires h_q in {64, 128}; zero-pad
+        # the query heads to the allocated output head count. Padded heads attend
+        # to the shared KV and are sliced off downstream (output is padded too).
+        padded_heads = output.shape[1]
+        if query.shape[1] < padded_heads:
+            padded_query = query.new_zeros(
+                (query.shape[0], padded_heads, query.shape[2])
+            )
+            padded_query[:, : query.shape[1], :] = query
+            query = padded_query
+
+        workspace = _get_flashinfer_dsv4_workspace(q.device)
+        query_start_loc = swa_metadata.query_start_loc
+        query_start_loc_cpu = swa_metadata.query_start_loc_cpu
+        assert query_start_loc is not None and query_start_loc_cpu is not None
+
+        # Keep Perkz's two-call decode/prefill split: the TRTLLM-gen launcher is
+        # tuned for uniform-q batches, and collapsing the mixed batch into a
+        # single call is the suspected source of the prior IMA.
+        if num_decode_tokens > 0:
+            decode_cu = query_start_loc[: num_decodes + 1]
+            decode_cu_cpu = query_start_loc_cpu[: num_decodes + 1]
+            decode_lens_cpu = decode_cu_cpu[1:] - decode_cu_cpu[:-1]
+            flashinfer_trtllm_batch_decode_sparse_mla_dsv4(
+                query=query[:num_decode_tokens],
+                swa_kv_cache=swa_k_cache,
+                workspace_buffer=workspace,
+                sparse_indices=sparse_indices[:num_decode_tokens],
+                compressed_kv_cache=compressed_kv_cache,
+                sparse_topk_lens=sparse_topk_lens[:num_decode_tokens],
+                seq_lens=seq_lens[:num_decodes],
+                out=output[:num_decode_tokens],
+                bmm1_scale=bmm1_scale,
+                bmm2_scale=bmm2_scale,
+                sinks=layer.attn_sink,
+                cum_seq_lens_q=decode_cu,
+                max_q_len=int(decode_lens_cpu.max().item()),
+            )
+
+        if num_prefill_tokens > 0:
+            # The prefill query view re-anchors at offset 0, so rebase the
+            # cumulative query offsets to start at 0.
+            prefill_cu = (
+                query_start_loc[num_decodes : num_reqs + 1]
+                - query_start_loc[num_decodes]
+            )
+            prefill_cu_cpu = query_start_loc_cpu[num_decodes : num_reqs + 1]
+            prefill_lens_cpu = prefill_cu_cpu[1:] - prefill_cu_cpu[:-1]
+            flashinfer_trtllm_batch_decode_sparse_mla_dsv4(
+                query=query[num_decode_tokens:num_tokens],
+                swa_kv_cache=swa_k_cache,
+                workspace_buffer=workspace,
+                sparse_indices=sparse_indices[num_decode_tokens:num_tokens],
+                compressed_kv_cache=compressed_kv_cache,
+                sparse_topk_lens=sparse_topk_lens[num_decode_tokens:num_tokens],
+                seq_lens=seq_lens[num_decodes:num_reqs],
+                out=output[num_decode_tokens:num_tokens],
+                bmm1_scale=bmm1_scale,
+                bmm2_scale=bmm2_scale,
+                sinks=layer.attn_sink,
+                cum_seq_lens_q=prefill_cu,
+                max_q_len=int(prefill_lens_cpu.max().item()),
+            )
diff --git a/vllm/models/deepseek_v4/nvidia/flashmla.py b/vllm/models/deepseek_v4/nvidia/flashmla.py
index 5c8b08d4c12..e9b9c678306 100644
--- a/vllm/models/deepseek_v4/nvidia/flashmla.py
+++ b/vllm/models/deepseek_v4/nvidia/flashmla.py
@@ -75,6 +75,15 @@ class DeepseekV4SparseMLAAttentionImpl(SparseMLAAttentionImpl[FlashMLASparseMeta
         """
         raise NotImplementedError
 
+    @classmethod
+    def init_layer_buffers(cls, layer: "DeepseekV4MLAAttention") -> None:
+        """Register impl-specific buffers on the layer at construction.
+
+        No-op by default; FlashInfer overrides this to register its per-tensor
+        FP8 scale buffers.
+        """
+        return None
+
 
 class DeepseekV4FlashMLASparseBackend(FlashMLASparseBackend):
     @staticmethod
@@ -83,7 +92,7 @@ class DeepseekV4FlashMLASparseBackend(FlashMLASparseBackend):
 
     @staticmethod
     def get_name() -> str:
-        return "V4_FLASHMLA_SPARSE"
+        return "FLASHMLA_SPARSE_DSV4"
 
     @staticmethod
     def get_impl_cls() -> type["DeepseekV4SparseMLAAttentionImpl"]:
diff --git a/vllm/models/deepseek_v4/nvidia/ops/sparse_attn_compress_cutedsl.py b/vllm/models/deepseek_v4/nvidia/ops/sparse_attn_compress_cutedsl.py
index ed16ca6d3b5..4ff4b232d10 100644
--- a/vllm/models/deepseek_v4/nvidia/ops/sparse_attn_compress_cutedsl.py
+++ b/vllm/models/deepseek_v4/nvidia/ops/sparse_attn_compress_cutedsl.py
@@ -508,30 +508,34 @@ class SparseAttnCompressNormRopeStoreC4Kernel:
         )
 
 
-class SparseAttnCompressKernel:
-    head_tile = 64
-    rows_per_warp = 16
-    row_pairs_per_warp = rows_per_warp // 2
-    elems_per_lane = 4
-    lanes_per_row = head_tile // elems_per_lane
-    num_warps = 8
-    stats_warp_stride = num_warps + 1
-    tb_size = num_warps * 32
-    rcp_ln2 = 1.4426950408889634
-
+class SparseAttnCompressNormRopeStoreFullC4Kernel(
+    SparseAttnCompressNormRopeStoreC4Kernel
+):
     def __init__(
         self,
         head_size: int,
         state_width: int,
+        rope_head_dim: int,
+        fp8_max: float,
+        quant_block: int,
+        token_stride: int,
+        scale_dim: int,
         compress_ratio: int,
         overlap: bool,
+        store_full_fp8: bool = False,
     ):
-        self.head_dim = head_size
-        self.num_splits = head_size // self.head_tile
-        self.state_width = state_width
-        self.compress_ratio = compress_ratio
-        self.overlap = overlap
-        self.window = (1 + int(overlap)) * compress_ratio
+        super().__init__(
+            head_size,
+            state_width,
+            rope_head_dim,
+            fp8_max,
+            quant_block,
+            token_stride,
+            scale_dim,
+            compress_ratio,
+            overlap,
+        )
+        self.store_full_fp8 = store_full_fp8
 
     @cute.jit
     def __call__(
@@ -542,10 +546,16 @@ class SparseAttnCompressKernel:
         slot_mapping: cute.Tensor,
         block_table: cute.Tensor,
         block_size: Int64,
-        compressed_kv: cute.Tensor,
+        rms_norm_weight: cute.Tensor,
+        rms_norm_eps: Float32,
+        cos_sin_cache: cute.Tensor,
+        k_cache: cute.Tensor,
+        kv_slot_mapping: cute.Tensor,
+        kv_cache_block_size: Int64,
+        fp8_scale: cute.Tensor,
         stream: CUstream,
     ):
-        grid = (slot_mapping.shape[0] * self.num_splits, 1, 1)
+        grid = (slot_mapping.shape[0], 1, 1)
         self.kernel(
             state_cache,
             token_to_req_indices,
@@ -553,7 +563,13 @@ class SparseAttnCompressKernel:
             slot_mapping,
             block_table,
             block_size,
-            compressed_kv,
+            rms_norm_weight,
+            rms_norm_eps,
+            cos_sin_cache,
+            k_cache,
+            kv_slot_mapping,
+            kv_cache_block_size,
+            fp8_scale,
         ).launch(grid=grid, block=(self.tb_size, 1, 1), stream=stream)
 
     @cute.kernel
@@ -565,18 +581,21 @@ class SparseAttnCompressKernel:
         slot_mapping: cute.Tensor,
         block_table: cute.Tensor,
         block_size: Int64,
-        compressed_kv: cute.Tensor,
+        rms_norm_weight: cute.Tensor,
+        rms_norm_eps: Float32,
+        cos_sin_cache: cute.Tensor,
+        k_cache: cute.Tensor,
+        kv_slot_mapping: cute.Tensor,
+        kv_cache_block_size: Int64,
+        fp8_scale: cute.Tensor,
     ):
-        block_id, _, _ = cute.arch.block_idx()
+        token_idx, _, _ = cute.arch.block_idx()
         tid, _, _ = cute.arch.thread_idx()
         warp_id = cute.arch.make_warp_uniform(tid // 32)
         lane_id = tid % 32
-        row_lane = lane_id // self.lanes_per_row
-        col_group = lane_id % self.lanes_per_row
-
-        token_idx = block_id // self.num_splits
-        split_idx = block_id - token_idx * self.num_splits
-        col_base = split_idx * self.head_tile + col_group * self.elems_per_lane
+        group_lane = lane_id % self.lanes_per_group
+        group_idx = warp_id * self.groups_per_warp + lane_id // self.lanes_per_group
+        elem_base = group_idx * self.quant_block + group_lane * self.elems_per_lane
 
         slot_id = slot_mapping[token_idx]
         has_position = token_idx < positions.shape[0]
@@ -587,65 +606,39 @@ class SparseAttnCompressKernel:
             (position + Int64(1)) % Int64(self.compress_ratio) == Int64(0)
         )
         has_req_idx = token_idx < token_to_req_indices.shape[0]
-        active = slot_id >= Int64(0) and has_req_idx and boundary
+        has_kv_slot_idx = token_idx < kv_slot_mapping.shape[0]
+        kv_slot_idx = Int64(-1)
+        if has_kv_slot_idx:
+            kv_slot_idx = kv_slot_mapping[token_idx]
+        active = (
+            slot_id >= Int64(0) and has_req_idx and boundary and kv_slot_idx >= Int64(0)
+        )
 
         if active:
+            req_idx = token_to_req_indices[token_idx]
+            start = position - Int64(self.window - 1)
+
             smem = cutlass.utils.SmemAllocator()
-            s_max = smem.allocate_tensor(
-                Float32,
-                cute.make_layout(
-                    (
-                        self.lanes_per_row,
-                        self.elems_per_lane,
-                        self.stats_warp_stride,
-                    ),
-                    stride=(
-                        self.elems_per_lane * self.stats_warp_stride,
-                        self.stats_warp_stride,
-                        1,
-                    ),
-                ),
-                byte_alignment=4,
+            s_block_numbers = smem.allocate_tensor(
+                Int32, cute.make_layout((self.window,)), byte_alignment=4
             )
-            s_sum = smem.allocate_tensor(
-                Float32,
-                cute.make_layout(
-                    (
-                        self.lanes_per_row,
-                        self.elems_per_lane,
-                        self.stats_warp_stride,
-                    ),
-                    stride=(
-                        self.elems_per_lane * self.stats_warp_stride,
-                        self.stats_warp_stride,
-                        1,
-                    ),
-                ),
-                byte_alignment=4,
+            partial_sums = smem.allocate_tensor(
+                Float32, cute.make_layout((self.num_warps,)), byte_alignment=4
             )
-            s_product = smem.allocate_tensor(
-                Float32,
-                cute.make_layout(
-                    (
-                        self.lanes_per_row,
-                        self.elems_per_lane,
-                        self.stats_warp_stride,
-                    ),
-                    stride=(
-                        self.elems_per_lane * self.stats_warp_stride,
-                        self.stats_warp_stride,
-                        1,
-                    ),
-                ),
-                byte_alignment=4,
+            rrms_shared = smem.allocate_tensor(
+                Float32, cute.make_layout((1,)), byte_alignment=4
             )
 
-            row_pair_layout = cute.make_layout(
-                (self.row_pairs_per_warp, self.elems_per_lane),
-                stride=(self.elems_per_lane, 1),
-            )
-            kv_vals = cute.make_rmem_tensor(row_pair_layout, Float32)
-            score_vals = cute.make_rmem_tensor(row_pair_layout, Float32)
+            for row in cutlass.range_constexpr(self.window):
+                pos = start + Int64(row)
+                if tid == row:
+                    block_number_i32 = Int32(0)
+                    if pos >= Int64(0):
+                        block_index = pos // block_size
+                        block_number_i32 = block_table[req_idx, block_index]
+                    s_block_numbers[row] = block_number_i32
+            cute.arch.sync_threads()
+
             local_max = cute.make_rmem_tensor((self.elems_per_lane,), Float32)
             local_sum = cute.make_rmem_tensor((self.elems_per_lane,), Float32)
             local_product = cute.make_rmem_tensor((self.elems_per_lane,), Float32)
@@ -655,100 +648,491 @@ class SparseAttnCompressKernel:
                 local_sum[e] = Float32(0.0)
                 local_product[e] = Float32(0.0)
 
-            req_idx = token_to_req_indices[token_idx]
-            start = position - Int64(self.window - 1)
             cp_f32x4 = cute.make_copy_atom(
                 cute.nvgpu.CopyUniversalOp(), Float32, num_bits_per_copy=128
             )
-            row_mask_and_clamp = const_expr(
-                (cute.arch.WARP_SIZE - self.lanes_per_row) << 8
-                | (cute.arch.WARP_SIZE - 1)
+            copy_layout = cute.make_layout(
+                (self.copy_chunks, self.copy_elems),
+                stride=(self.copy_elems, 1),
             )
+            kv_vals = cute.make_rmem_tensor(copy_layout, Float32)
+            score_vals = cute.make_rmem_tensor(copy_layout, Float32)
 
-            for i in cutlass.range_constexpr(self.row_pairs_per_warp):
-                row = warp_id * self.rows_per_warp + i * 2 + row_lane
-                pos = start + row.to(Int64)
-                valid = row < self.window and pos >= Int64(0)
-                head_offset = ((row // self.compress_ratio) * self.head_dim).to(Int64)
-
-                for e in cutlass.range_constexpr(self.elems_per_lane):
-                    kv = Float32(0.0)
-                    score = -Float32.inf
-                    kv_vals[i, e] = kv
-                    score_vals[i, e] = score
-
-                block_index = Int64(0)
-                block_offset = Int64(0)
-                block_number_i32 = Int32(0)
-                if valid:
+            for row in cutlass.range_constexpr(self.window):
+                pos = start + Int64(row)
+                if pos >= Int64(0):
                     block_index = pos // block_size
                     block_offset = pos - block_index * block_size
-                    if col_group == 0:
-                        block_number_i32 = block_table[req_idx, block_index]
-                block_number_i32 = cute.arch.shuffle_sync(
-                    block_number_i32,
-                    offset=0,
-                    mask_and_clamp=row_mask_and_clamp,
-                )
-
-                if valid:
-                    block_number = block_number_i32.to(Int64)
+                    block_number = s_block_numbers[row].to(Int64)
+                    head_offset = Int64((row // self.compress_ratio) * self.head_dim)
                     row_tensor = state_cache[block_number, block_offset, None]
-                    col_tile = (head_offset + col_base.to(Int64)) // Int64(
-                        self.elems_per_lane
+                    for chunk in cutlass.range_constexpr(self.copy_chunks):
+                        copy_elem = const_expr(chunk * self.copy_elems)
+                        col_tile = (
+                            head_offset + (elem_base + Int32(copy_elem)).to(Int64)
+                        ) // Int64(self.copy_elems)
+                        kv_src = cute.local_tile(
+                            row_tensor,
+                            tiler=(self.copy_elems,),
+                            coord=(col_tile,),
+                        )
+                        score_src = cute.local_tile(
+                            row_tensor,
+                            tiler=(self.copy_elems,),
+                            coord=(
+                                col_tile + Int64(self.state_width // self.copy_elems),
+                            ),
+                        )
+                        cute.copy(cp_f32x4, kv_src, kv_vals[chunk, None])
+                        cute.copy(cp_f32x4, score_src, score_vals[chunk, None])
+
+                    for e in cutlass.range_constexpr(self.elems_per_lane):
+                        chunk = const_expr(e // self.copy_elems)
+                        copy_elem = const_expr(e % self.copy_elems)
+                        score = score_vals[chunk, copy_elem]
+                        kv = kv_vals[chunk, copy_elem]
+                        new_max = cute.arch.fmax(local_max[e], score)
+                        old_scale = cute.math.exp2(
+                            (local_max[e] - new_max) * Float32(self.rcp_ln2),
+                            fastmath=True,
+                        )
+                        new_scale = cute.math.exp2(
+                            (score - new_max) * Float32(self.rcp_ln2),
+                            fastmath=True,
+                        )
+                        local_sum[e] = local_sum[e] * old_scale + new_scale
+                        local_product[e] = local_product[e] * old_scale + kv * new_scale
+                        local_max[e] = new_max
+
+            x = cute.make_rmem_tensor((self.elems_per_lane,), Float32)
+            local_sumsq = Float32(0.0)
+            for e in cutlass.range_constexpr(self.elems_per_lane):
+                x[e] = local_product[e] / local_sum[e]
+                local_sumsq += x[e] * x[e]
+
+            warp_sum = local_sumsq
+            for step in cutlass.range_constexpr(5):
+                offset = const_expr(16 >> step)
+                warp_sum += cute.arch.shuffle_sync_bfly(warp_sum, offset)
+
+            if lane_id == 0:
+                partial_sums[warp_id] = warp_sum
+            cute.arch.sync_threads()
+            if tid == 0:
+                total = Float32(0.0)
+                for i in cutlass.range_constexpr(self.num_warps):
+                    total += partial_sums[i]
+                rrms_shared[0] = cute.math.rsqrt(
+                    total / Float32(self.head_dim) + rms_norm_eps, fastmath=True
+                )
+            cute.arch.sync_threads()
+
+            rrms = rrms_shared[0]
+            for e in cutlass.range_constexpr(self.elems_per_lane):
+                elem = elem_base + e
+                x[e] = x[e] * rrms * rms_norm_weight[elem].to(Float32)
+
+            page = kv_slot_idx // kv_cache_block_size
+            kv_offset = kv_slot_idx - page * kv_cache_block_size
+            value_base = page * k_cache.stride[0] + kv_offset * k_cache.stride[1]
+
+            if const_expr(self.store_full_fp8):
+                k_cache_u16 = cute.recast_tensor(k_cache, Uint16)
+                inv_fp8 = Float32(1.0) / fp8_scale[0]
+                if group_idx == self.nope_blocks:
+                    compressed_pos = (position // Int64(self.compress_ratio)) * Int64(
+                        self.compress_ratio
                     )
-                    kv_src = cute.local_tile(
-                        row_tensor,
-                        tiler=(self.elems_per_lane,),
-                        coord=(col_tile,),
+                    for pair in cutlass.range_constexpr(self.elems_per_lane // 2):
+                        elem = const_expr(pair * 2)
+                        pair_idx = (elem_base - self.nope_dim) // 2 + Int32(pair)
+                        cos_v = cos_sin_cache[compressed_pos, pair_idx]
+                        sin_v = cos_sin_cache[
+                            compressed_pos, pair_idx + Int32(self.rope_dim // 2)
+                        ]
+                        real = x[elem] * cos_v - x[elem + 1] * sin_v
+                        imag = x[elem] * sin_v + x[elem + 1] * cos_v
+                        packed_bf16 = _fp32x2_to_bf16x2(real, imag)
+                        b0, b1 = _bf16x2_to_fp32(packed_bf16)
+                        y0 = cutlass.min(
+                            cutlass.max(b0 * inv_fp8, Float32(-self.fp8_max)),
+                            Float32(self.fp8_max),
+                        )
+                        y1 = cutlass.min(
+                            cutlass.max(b1 * inv_fp8, Float32(-self.fp8_max)),
+                            Float32(self.fp8_max),
+                        )
+                        packed_fp8 = _fp32x2_to_fp8e4m3x2(y0, y1)
+                        out_base = value_base + (elem_base + Int32(elem)).to(Int64)
+                        k_cache_u16.iterator[out_base // Int64(2)] = packed_fp8
+                else:
+                    for pair in cutlass.range_constexpr(self.elems_per_lane // 2):
+                        elem = const_expr(pair * 2)
+                        packed_bf16 = _fp32x2_to_bf16x2(x[elem], x[elem + 1])
+                        b0, b1 = _bf16x2_to_fp32(packed_bf16)
+                        y0 = cutlass.min(
+                            cutlass.max(b0 * inv_fp8, Float32(-self.fp8_max)),
+                            Float32(self.fp8_max),
+                        )
+                        y1 = cutlass.min(
+                            cutlass.max(b1 * inv_fp8, Float32(-self.fp8_max)),
+                            Float32(self.fp8_max),
+                        )
+                        packed_fp8 = _fp32x2_to_fp8e4m3x2(y0, y1)
+                        out_base = value_base + (elem_base + Int32(elem)).to(Int64)
+                        k_cache_u16.iterator[out_base // Int64(2)] = packed_fp8
+            else:
+                k_cache_u32 = cute.recast_tensor(k_cache, Uint32)
+                if group_idx == self.nope_blocks:
+                    compressed_pos = (position // Int64(self.compress_ratio)) * Int64(
+                        self.compress_ratio
                     )
-                    score_src = cute.local_tile(
-                        row_tensor,
-                        tiler=(self.elems_per_lane,),
-                        coord=(
-                            col_tile + Int64(self.state_width // self.elems_per_lane),
-                        ),
-                    )
-                    cute.copy(cp_f32x4, kv_src, kv_vals[i, None])
-                    cute.copy(cp_f32x4, score_src, score_vals[i, None])
+                    for pair in cutlass.range_constexpr(self.elems_per_lane // 2):
+                        elem = const_expr(pair * 2)
+                        pair_idx = (elem_base - self.nope_dim) // 2 + Int32(pair)
+                        cos_v = cos_sin_cache[compressed_pos, pair_idx]
+                        sin_v = cos_sin_cache[
+                            compressed_pos, pair_idx + Int32(self.rope_dim // 2)
+                        ]
+                        real = x[elem] * cos_v - x[elem + 1] * sin_v
+                        imag = x[elem] * sin_v + x[elem + 1] * cos_v
+                        packed_bf16 = _fp32x2_to_bf16x2(real, imag)
+                        out_base = value_base + ((elem_base + Int32(elem)) * 2).to(
+                            Int64
+                        )
+                        k_cache_u32.iterator[out_base // Int64(4)] = packed_bf16
+                else:
+                    for pair in cutlass.range_constexpr(self.elems_per_lane // 2):
+                        elem = const_expr(pair * 2)
+                        packed_bf16 = _fp32x2_to_bf16x2(x[elem], x[elem + 1])
+                        out_base = value_base + ((elem_base + Int32(elem)) * 2).to(
+                            Int64
+                        )
+                        k_cache_u32.iterator[out_base // Int64(4)] = packed_bf16
+
+    @cache
+    @staticmethod
+    def compile(
+        head_size: int = 512,
+        state_width: int = 1024,
+        rope_head_dim: int = 64,
+        fp8_max: float = 448.0,
+        quant_block: int = 64,
+        token_stride: int = 576,
+        scale_dim: int = 8,
+        kv_block_stride: int = 74752,
+        compress_ratio: int = 4,
+        overlap: bool = True,
+        store_full_fp8: bool = False,
+        norm_weight_dtype: type[cutlass.Numeric] = Float32,
+    ):
+        if compress_ratio != 4 or not overlap:
+            raise ValueError("CuTe DSL C4 fused sparse-attn requires C4 overlap.")
+        if head_size != 512:
+            raise ValueError(
+                "CuTe DSL C4 fused sparse-attn currently requires head_size=512."
+            )
+        if state_width != 2 * head_size:
+            raise ValueError(
+                "CuTe DSL C4 fused sparse-attn requires state_width=2*head_size."
+            )
+        if quant_block != 64:
+            raise ValueError(
+                "CuTe DSL C4 fused sparse-attn currently requires quant_block=64."
+            )
+        if rope_head_dim != 64:
+            raise ValueError(
+                "CuTe DSL C4 fused sparse-attn currently requires rope_head_dim=64."
+            )
+        num_positions = cute.sym_int()
+        num_slots = cute.sym_int()
+        num_req_indices = cute.sym_int()
+        num_kv_slots = cute.sym_int()
+        num_state_blocks = cute.sym_int()
+        num_kv_blocks = cute.sym_int()
+        state_cache_block_size = cute.sym_int()
+        block_table_width = cute.sym_int()
+        max_pos = cute.sym_int()
+        state_cache_width = state_width * 2
+
+        state_cache = cute.runtime.make_fake_tensor(
+            Float32,
+            (num_state_blocks, state_cache_block_size, state_cache_width),
+            stride=(
+                cute.sym_int64(divisibility=16),
+                cute.sym_int64(divisibility=16),
+                1,
+            ),
+            assumed_align=16,
+        )
+        token_to_req_indices = make_fake_tensor(
+            Int32, (num_req_indices,), divisibility=4
+        )
+        positions = make_fake_tensor(Int64, (num_positions,), divisibility=8)
+        slot_mapping = make_fake_tensor(Int64, (num_slots,), divisibility=8)
+        block_table = make_fake_tensor(
+            Int32, (cute.sym_int(), block_table_width), divisibility=1
+        )
+        rms_norm_weight = make_fake_tensor(
+            norm_weight_dtype, (head_size,), divisibility=4
+        )
+        cos_sin_cache = cute.runtime.make_fake_tensor(
+            Float32,
+            (max_pos, rope_head_dim),
+            stride=(cute.sym_int64(divisibility=4), 1),
+            assumed_align=4,
+        )
+        k_cache = cute.runtime.make_fake_tensor(
+            Uint8,
+            (num_kv_blocks, cute.sym_int(), cute.sym_int()),
+            stride=(
+                cute.sym_int64(divisibility=16),
+                cute.sym_int64(divisibility=8),
+                1,
+            ),
+            assumed_align=16,
+        )
+        kv_slot_mapping = make_fake_tensor(Int64, (num_kv_slots,), divisibility=8)
+        fp8_scale = make_fake_tensor(Float32, (1,), divisibility=1)
+
+        kernel = SparseAttnCompressNormRopeStoreFullC4Kernel(
+            head_size,
+            state_width,
+            rope_head_dim,
+            fp8_max,
+            quant_block,
+            token_stride,
+            scale_dim,
+            compress_ratio,
+            overlap,
+            store_full_fp8,
+        )
+        stream = cute.runtime.make_fake_stream(use_tvm_ffi_env_stream=True)
+        return cute.compile(
+            kernel,
+            state_cache,
+            token_to_req_indices,
+            positions,
+            slot_mapping,
+            block_table,
+            Int64(0),
+            rms_norm_weight,
+            Float32(0.0),
+            cos_sin_cache,
+            k_cache,
+            kv_slot_mapping,
+            Int64(0),
+            fp8_scale,
+            stream,
+            options="--enable-tvm-ffi",
+        )
+
+
+class SparseAttnCompressC128Block8Kernel:
+    head_tile = 64
+    rows_per_warp = 16
+    elems_per_lane = 2
+    lanes_per_row = head_tile // elems_per_lane
+    num_warps = 8
+    stats_lane_stride = lanes_per_row + 1
+    final_reduce_steps = 3
+    final_reduce_initial_offset = 4
+    tb_size = num_warps * 32
+    compress_ratio = 128
+    state_block_size = 8
+    rcp_ln2 = 1.4426950408889634
+
+    def __init__(
+        self,
+        head_size: int,
+        state_width: int,
+    ):
+        self.head_dim = head_size
+        self.num_splits = head_size // self.head_tile
+        self.state_width = state_width
+
+    @cute.jit
+    def __call__(
+        self,
+        state_cache: cute.Tensor,
+        token_to_req_indices: cute.Tensor,
+        positions: cute.Tensor,
+        slot_mapping: cute.Tensor,
+        block_table: cute.Tensor,
+        compressed_kv: cute.Tensor,
+        stream: CUstream,
+    ):
+        grid = (slot_mapping.shape[0] * self.num_splits, 1, 1)
+        self.kernel(
+            state_cache,
+            token_to_req_indices,
+            positions,
+            slot_mapping,
+            block_table,
+            compressed_kv,
+        ).launch(grid=grid, block=(self.tb_size, 1, 1), stream=stream)
+
+    @cute.kernel
+    def kernel(
+        self,
+        state_cache: cute.Tensor,
+        token_to_req_indices: cute.Tensor,
+        positions: cute.Tensor,
+        slot_mapping: cute.Tensor,
+        block_table: cute.Tensor,
+        compressed_kv: cute.Tensor,
+    ):
+        block_id, _, _ = cute.arch.block_idx()
+        tid, _, _ = cute.arch.thread_idx()
+        warp_id = cute.arch.make_warp_uniform(tid // 32)
+        lane_id = tid % 32
+        col_group = lane_id % self.lanes_per_row
+
+        token_idx = block_id // self.num_splits
+        split_idx = block_id - token_idx * self.num_splits
+        col_base = split_idx * self.head_tile + col_group * self.elems_per_lane
+
+        position = Int64(0)
+        req_idx = Int32(0)
+        slot_id = Int64(-1)
+        has_position = token_idx < positions.shape[0]
+        has_req_idx = token_idx < token_to_req_indices.shape[0]
+        if lane_id == 0:
+            slot_id = slot_mapping[token_idx]
+        if lane_id == 0 and has_position:
+            position = positions[token_idx]
+        if lane_id == 0 and has_req_idx:
+            req_idx = token_to_req_indices[token_idx]
+        slot_id = cute.arch.shuffle_sync(slot_id, offset=0)
+        position = cute.arch.shuffle_sync(position, offset=0)
+        req_idx = cute.arch.shuffle_sync(req_idx, offset=0)
+        boundary = has_position and (
+            (position + Int64(1)) % Int64(self.compress_ratio) == Int64(0)
+        )
+        start = position - Int64(self.compress_ratio - 1)
+        active = slot_id >= Int64(0) and has_req_idx and boundary
+
+        if active:
+            smem = cutlass.utils.SmemAllocator()
+            s_max = smem.allocate_tensor(
+                Float32,
+                cute.make_layout(
+                    (
+                        self.num_warps,
+                        self.lanes_per_row,
+                        self.elems_per_lane,
+                    ),
+                    stride=(
+                        self.stats_lane_stride * self.elems_per_lane,
+                        self.elems_per_lane,
+                        1,
+                    ),
+                ),
+                byte_alignment=4,
+            )
+            s_sum = smem.allocate_tensor(
+                Float32,
+                cute.make_layout(
+                    (
+                        self.num_warps,
+                        self.lanes_per_row,
+                        self.elems_per_lane,
+                    ),
+                    stride=(
+                        self.stats_lane_stride * self.elems_per_lane,
+                        self.elems_per_lane,
+                        1,
+                    ),
+                ),
+                byte_alignment=4,
+            )
+            s_product = smem.allocate_tensor(
+                Float32,
+                cute.make_layout(
+                    (
+                        self.num_warps,
+                        self.lanes_per_row,
+                        self.elems_per_lane,
+                    ),
+                    stride=(
+                        self.stats_lane_stride * self.elems_per_lane,
+                        self.elems_per_lane,
+                        1,
+                    ),
+                ),
+                byte_alignment=4,
+            )
+
+            row_layout = cute.make_layout(
+                (self.rows_per_warp, self.elems_per_lane),
+                stride=(self.elems_per_lane, 1),
+            )
+            kv_vals = cute.make_rmem_tensor(row_layout, Float32)
+            score_vals = cute.make_rmem_tensor(row_layout, Float32)
+            local_max = cute.make_rmem_tensor((self.elems_per_lane,), Float32)
+            local_sum = cute.make_rmem_tensor((self.elems_per_lane,), Float32)
+            local_product = cute.make_rmem_tensor((self.elems_per_lane,), Float32)
+
+            for e in cutlass.range_constexpr(self.elems_per_lane):
+                local_max[e] = -Float32.inf
+                local_sum[e] = Float32(0.0)
+                local_product[e] = Float32(0.0)
+
+            first_block_index = start // Int64(self.state_block_size)
+            warp_block_index = first_block_index + (warp_id * 2).to(Int64)
+            block0_i32 = Int32(0)
+            block1_i32 = Int32(0)
+            if lane_id == 0:
+                block0_i32 = block_table[req_idx, warp_block_index]
+                block1_i32 = block_table[req_idx, warp_block_index + Int64(1)]
+            block0_i32 = cute.arch.shuffle_sync(block0_i32, offset=0)
+            block1_i32 = cute.arch.shuffle_sync(block1_i32, offset=0)
+
+            cp_f32x2 = cute.make_copy_atom(
+                cute.nvgpu.CopyUniversalOp(), Float32, num_bits_per_copy=64
+            )
+            final_mask_and_clamp = const_expr(
+                (cute.arch.WARP_SIZE - self.num_warps) << 8 | (cute.arch.WARP_SIZE - 1)
+            )
+            col_tile = col_base.to(Int64) // Int64(self.elems_per_lane)
+            score_col_tile = col_tile + Int64(self.state_width // self.elems_per_lane)
+
+            for i in cutlass.range_constexpr(self.rows_per_warp):
+                block_number_i32 = block0_i32
+                block_offset = Int64(i)
+                if const_expr(i >= self.state_block_size):
+                    block_number_i32 = block1_i32
+                    block_offset = Int64(i - self.state_block_size)
+                row_tensor = state_cache[block_number_i32.to(Int64), block_offset, None]
+                kv_src = cute.local_tile(
+                    row_tensor,
+                    tiler=(self.elems_per_lane,),
+                    coord=(col_tile,),
+                )
+                score_src = cute.local_tile(
+                    row_tensor,
+                    tiler=(self.elems_per_lane,),
+                    coord=(score_col_tile,),
+                )
+                cute.copy(cp_f32x2, kv_src, kv_vals[i, None])
+                cute.copy(cp_f32x2, score_src, score_vals[i, None])
 
                 for e in cutlass.range_constexpr(self.elems_per_lane):
                     local_max[e] = cute.arch.fmax(local_max[e], score_vals[i, e])
 
             for e in cutlass.range_constexpr(self.elems_per_lane):
-                if local_max[e] > -Float32.inf:
-                    for i in cutlass.range_constexpr(self.row_pairs_per_warp):
-                        exp_score = cute.math.exp2(
-                            (score_vals[i, e] - local_max[e]) * Float32(self.rcp_ln2),
-                            fastmath=True,
-                        )
-                        local_sum[e] += exp_score
-                        local_product[e] += kv_vals[i, e] * exp_score
+                for i in cutlass.range_constexpr(self.rows_per_warp):
+                    exp_score = cute.math.exp2(
+                        (score_vals[i, e] - local_max[e]) * Float32(self.rcp_ln2),
+                        fastmath=True,
+                    )
+                    local_sum[e] += exp_score
+                    local_product[e] += kv_vals[i, e] * exp_score
 
             for e in cutlass.range_constexpr(self.elems_per_lane):
-                pair_max = cute.arch.shuffle_sync_bfly(local_max[e], offset=16)
-                pair_sum = cute.arch.shuffle_sync_bfly(local_sum[e], offset=16)
-                pair_product = cute.arch.shuffle_sync_bfly(local_product[e], offset=16)
-                warp_max = cute.arch.fmax(local_max[e], pair_max)
-                warp_sum = Float32(0.0)
-                warp_product = Float32(0.0)
-                if warp_max > -Float32.inf:
-                    local_scale = cute.math.exp2(
-                        (local_max[e] - warp_max) * Float32(self.rcp_ln2),
-                        fastmath=True,
-                    )
-                    pair_scale = cute.math.exp2(
-                        (pair_max - warp_max) * Float32(self.rcp_ln2),
-                        fastmath=True,
-                    )
-                    warp_sum = local_sum[e] * local_scale + pair_sum * pair_scale
-                    warp_product = (
-                        local_product[e] * local_scale + pair_product * pair_scale
-                    )
-                if lane_id < self.lanes_per_row:
-                    s_max[col_group, e, warp_id] = warp_max
-                    s_sum[col_group, e, warp_id] = warp_sum
-                    s_product[col_group, e, warp_id] = warp_product
+                s_max[warp_id, col_group, e] = local_max[e]
+                s_sum[warp_id, col_group, e] = local_sum[e]
+                s_product[warp_id, col_group, e] = local_product[e]
             cute.arch.sync_threads()
 
             out_group = tid // self.num_warps
@@ -761,16 +1145,16 @@ class SparseAttnCompressKernel:
                 out_lane = out_idx // self.elems_per_lane
                 out_elem = out_idx % self.elems_per_lane
 
-                local_warp_max = s_max[out_lane, out_elem, final_lane]
+                local_warp_max = s_max[final_lane, out_lane, out_elem]
                 global_max = local_warp_max
-                for step in cutlass.range_constexpr(3):
-                    offset = const_expr(4 >> step)
+                for step in cutlass.range_constexpr(self.final_reduce_steps):
+                    offset = const_expr(self.final_reduce_initial_offset >> step)
                     global_max = cute.arch.fmax(
                         global_max,
                         cute.arch.shuffle_sync_bfly(
                             global_max,
                             offset=offset,
-                            mask_and_clamp=row_mask_and_clamp,
+                            mask_and_clamp=final_mask_and_clamp,
                         ),
                     )
 
@@ -778,19 +1162,19 @@ class SparseAttnCompressKernel:
                     (local_warp_max - global_max) * Float32(self.rcp_ln2),
                     fastmath=True,
                 )
-                global_sum = s_sum[out_lane, out_elem, final_lane] * scale
-                global_product = s_product[out_lane, out_elem, final_lane] * scale
-                for step in cutlass.range_constexpr(3):
-                    offset = const_expr(4 >> step)
+                global_sum = s_sum[final_lane, out_lane, out_elem] * scale
+                global_product = s_product[final_lane, out_lane, out_elem] * scale
+                for step in cutlass.range_constexpr(self.final_reduce_steps):
+                    offset = const_expr(self.final_reduce_initial_offset >> step)
                     global_sum += cute.arch.shuffle_sync_bfly(
                         global_sum,
                         offset=offset,
-                        mask_and_clamp=row_mask_and_clamp,
+                        mask_and_clamp=final_mask_and_clamp,
                     )
                     global_product += cute.arch.shuffle_sync_bfly(
                         global_product,
                         offset=offset,
-                        mask_and_clamp=row_mask_and_clamp,
+                        mask_and_clamp=final_mask_and_clamp,
                     )
 
                 if final_lane == 0:
@@ -804,10 +1188,8 @@ class SparseAttnCompressKernel:
     def compile(
         head_size: int = 512,
         state_width: int = 512,
-        compress_ratio: int = 128,
-        overlap: bool = False,
     ):
-        if head_size % SparseAttnCompressKernel.head_tile != 0:
+        if head_size % SparseAttnCompressC128Block8Kernel.head_tile != 0:
             raise ValueError("head_size must be divisible by the 64-wide head tile.")
         num_positions = cute.sym_int()
         num_slots = cute.sym_int()
@@ -838,15 +1220,13 @@ class SparseAttnCompressKernel:
         compressed_kv = cute.runtime.make_fake_tensor(
             Float32,
             (num_slots, head_size),
-            stride=(cute.sym_int64(divisibility=4), 1),
+            stride=(head_size, 1),
             assumed_align=4,
         )
 
-        kernel = SparseAttnCompressKernel(
+        kernel = SparseAttnCompressC128Block8Kernel(
             head_size,
             state_width,
-            compress_ratio,
-            overlap,
         )
         stream = cute.runtime.make_fake_stream(use_tvm_ffi_env_stream=True)
         return cute.compile(
@@ -856,7 +1236,6 @@ class SparseAttnCompressKernel:
             positions,
             slot_mapping,
             block_table,
-            Int64(0),
             compressed_kv,
             stream,
             options="--enable-tvm-ffi",
@@ -875,6 +1254,7 @@ class SparseAttnNormRopeStoreKernel:
         token_stride: int,
         scale_dim: int,
         compress_ratio: int,
+        static_kv_cache_block_size: int,
     ):
         self.head_dim = head_size
         self.rope_dim = rope_head_dim
@@ -887,6 +1267,7 @@ class SparseAttnNormRopeStoreKernel:
         self.nope_blocks = self.nope_dim // quant_block
         self.tb_size = head_size // 2
         self.compress_ratio = compress_ratio
+        self.static_kv_cache_block_size = static_kv_cache_block_size
 
     @cute.jit
     def __call__(
@@ -899,7 +1280,6 @@ class SparseAttnNormRopeStoreKernel:
         cos_sin_cache: cute.Tensor,
         k_cache: cute.Tensor,
         kv_slot_mapping: cute.Tensor,
-        kv_cache_block_size: Int64,
         stream: CUstream,
     ):
         grid = (slot_mapping.shape[0], 1, 1)
@@ -912,7 +1292,6 @@ class SparseAttnNormRopeStoreKernel:
             cos_sin_cache,
             k_cache,
             kv_slot_mapping,
-            kv_cache_block_size,
         ).launch(grid=grid, block=(self.tb_size, 1, 1), stream=stream)
 
     @cute.kernel
@@ -926,7 +1305,6 @@ class SparseAttnNormRopeStoreKernel:
         cos_sin_cache: cute.Tensor,
         k_cache: cute.Tensor,
         kv_slot_mapping: cute.Tensor,
-        kv_cache_block_size: Int64,
     ):
         token_idx, _, _ = cute.arch.block_idx()
         tid, _, _ = cute.arch.thread_idx()
@@ -934,21 +1312,41 @@ class SparseAttnNormRopeStoreKernel:
         lane_id = tid % 32
         elem0 = tid * 2
 
-        slot_id = slot_mapping[token_idx]
-        has_position = token_idx < positions.shape[0]
         position = Int64(0)
-        if has_position:
+        kv_slot_idx = Int64(-1)
+        has_position = token_idx < positions.shape[0]
+        slot_id = Int64(-1)
+        if lane_id == 0:
+            slot_id = slot_mapping[token_idx]
+        if lane_id == 0 and has_position:
             position = positions[token_idx]
+        has_kv_slot_idx = token_idx < kv_slot_mapping.shape[0]
+        if lane_id == 0 and has_kv_slot_idx:
+            kv_slot_idx = kv_slot_mapping[token_idx]
+        slot_id = cute.arch.shuffle_sync(slot_id, offset=0)
+        position = cute.arch.shuffle_sync(position, offset=0)
+        kv_slot_idx = cute.arch.shuffle_sync(kv_slot_idx, offset=0)
         boundary = has_position and (
             (position + Int64(1)) % Int64(self.compress_ratio) == Int64(0)
         )
-        has_kv_slot_idx = token_idx < kv_slot_mapping.shape[0]
-        kv_slot_idx = Int64(-1)
-        if has_kv_slot_idx:
-            kv_slot_idx = kv_slot_mapping[token_idx]
         active = slot_id >= Int64(0) and boundary and kv_slot_idx >= Int64(0)
 
         if active:
+            k_cache_u16 = cute.recast_tensor(k_cache, Uint16)
+            k_cache_u32 = cute.recast_tensor(k_cache, Uint32)
+            static_block_size = Int64(self.static_kv_cache_block_size)
+            page = kv_slot_idx // static_block_size
+            kv_offset = kv_slot_idx - page * static_block_size
+            scale_row_offset = static_block_size * Int64(self.token_stride)
+            value_base = page * k_cache.stride[0] + kv_offset * Int64(self.token_stride)
+            scale_base = (
+                page * k_cache.stride[0]
+                + scale_row_offset
+                + kv_offset * Int64(self.scale_dim)
+            )
+            weight0 = rms_norm_weight[elem0].to(Float32)
+            weight1 = rms_norm_weight[elem0 + 1].to(Float32)
+
             base = token_idx.to(Int64) * compressed_kv.stride[0] + elem0.to(Int64)
             x0 = compressed_kv.iterator[base]
             x1 = compressed_kv.iterator[base + Int64(1)]
@@ -963,42 +1361,32 @@ class SparseAttnNormRopeStoreKernel:
             partial_sums = smem.allocate_tensor(
                 Float32, cute.make_layout((self.num_warps,)), byte_alignment=4
             )
-            rrms_shared = smem.allocate_tensor(
-                Float32, cute.make_layout((1,)), byte_alignment=4
-            )
 
             if lane_id == 0:
                 partial_sums[warp_id] = warp_sum
             cute.arch.sync_threads()
-            if tid == 0:
-                total = Float32(0.0)
-                for i in cutlass.range_constexpr(self.num_warps):
-                    total += partial_sums[i]
-                rrms_shared[0] = cute.math.rsqrt(
-                    total / Float32(self.head_dim) + rms_norm_eps, fastmath=True
-                )
-            cute.arch.sync_threads()
 
-            rrms = rrms_shared[0]
-            x0 = x0 * rrms * rms_norm_weight[elem0].to(Float32)
-            x1 = x1 * rrms * rms_norm_weight[elem0 + 1].to(Float32)
-
-            k_cache_u16 = cute.recast_tensor(k_cache, Uint16)
-            k_cache_u32 = cute.recast_tensor(k_cache, Uint32)
-            page = kv_slot_idx // kv_cache_block_size
-            kv_offset = kv_slot_idx - page * kv_cache_block_size
-            value_base = page * k_cache.stride[0] + kv_offset * Int64(self.token_stride)
-            scale_base = (
-                page * k_cache.stride[0]
-                + kv_cache_block_size * Int64(self.token_stride)
-                + kv_offset * Int64(self.scale_dim)
+            total = partial_sums[lane_id % self.num_warps]
+            sum_mask_and_clamp = const_expr(
+                (cute.arch.WARP_SIZE - self.num_warps) << 8 | (cute.arch.WARP_SIZE - 1)
             )
+            for step in cutlass.range_constexpr(3):
+                offset = const_expr(4 >> step)
+                total += cute.arch.shuffle_sync_bfly(
+                    total,
+                    offset,
+                    mask_and_clamp=sum_mask_and_clamp,
+                )
+
+            rrms = cute.math.rsqrt(
+                total / Float32(self.head_dim) + rms_norm_eps, fastmath=True
+            )
+            x0 = x0 * rrms * weight0
+            x1 = x1 * rrms * weight1
 
             if warp_id == self.nope_blocks:
                 pair_idx = lane_id
-                compressed_pos = (position // Int64(self.compress_ratio)) * Int64(
-                    self.compress_ratio
-                )
+                compressed_pos = position - Int64(self.compress_ratio - 1)
                 cs_base = compressed_pos * cos_sin_cache.stride[0] + pair_idx.to(Int64)
                 cos_v = cos_sin_cache.iterator[cs_base]
                 sin_v = cos_sin_cache.iterator[cs_base + Int64(self.rope_dim // 2)]
@@ -1058,6 +1446,7 @@ class SparseAttnNormRopeStoreKernel:
         kv_block_stride: int = 74752,
         compress_ratio: int = 128,
         norm_weight_dtype: type[cutlass.Numeric] = Float32,
+        static_kv_cache_block_size: int = 0,
     ):
         if quant_block != 64:
             raise ValueError(
@@ -1074,6 +1463,275 @@ class SparseAttnNormRopeStoreKernel:
         expected_scale_dim = (head_size - rope_head_dim) // quant_block + 1
         if scale_dim < expected_scale_dim:
             raise ValueError("scale_dim is too small for the UE8M0 scale row.")
+        if static_kv_cache_block_size <= 0:
+            raise ValueError(
+                "CuTe DSL sparse-attn store requires a positive static "
+                "kv_cache_block_size."
+            )
+        num_positions = cute.sym_int()
+        num_slots = cute.sym_int()
+        num_kv_slots = cute.sym_int()
+        max_pos = cute.sym_int()
+        num_blocks = cute.sym_int()
+
+        compressed_kv = cute.runtime.make_fake_tensor(
+            Float32,
+            (num_slots, head_size),
+            stride=(head_size, 1),
+            assumed_align=4,
+        )
+        positions = make_fake_tensor(Int64, (num_positions,), divisibility=8)
+        slot_mapping = make_fake_tensor(Int64, (num_slots,), divisibility=8)
+        rms_norm_weight = make_fake_tensor(
+            norm_weight_dtype, (head_size,), divisibility=4
+        )
+        cos_sin_cache = cute.runtime.make_fake_tensor(
+            Float32,
+            (max_pos, rope_head_dim),
+            stride=(rope_head_dim, 1),
+            assumed_align=4,
+        )
+        k_cache = cute.runtime.make_fake_tensor(
+            Uint8,
+            (num_blocks, cute.sym_int(), cute.sym_int()),
+            stride=(
+                kv_block_stride,
+                cute.sym_int64(divisibility=8),
+                1,
+            ),
+            assumed_align=16,
+        )
+        kv_slot_mapping = make_fake_tensor(Int64, (num_kv_slots,), divisibility=8)
+
+        kernel = SparseAttnNormRopeStoreKernel(
+            head_size,
+            rope_head_dim,
+            fp8_max,
+            quant_block,
+            token_stride,
+            scale_dim,
+            compress_ratio,
+            static_kv_cache_block_size,
+        )
+        stream = cute.runtime.make_fake_stream(use_tvm_ffi_env_stream=True)
+        return cute.compile(
+            kernel,
+            compressed_kv,
+            positions,
+            slot_mapping,
+            rms_norm_weight,
+            Float32(0.0),
+            cos_sin_cache,
+            k_cache,
+            kv_slot_mapping,
+            stream,
+            options="--enable-tvm-ffi",
+        )
+
+
+class SparseAttnNormRopeStoreFullKernel:
+    def __init__(
+        self,
+        head_size: int,
+        rope_head_dim: int,
+        fp8_max: float,
+        quant_block: int,
+        token_stride: int,
+        scale_dim: int,
+        compress_ratio: int,
+        store_full_fp8: bool = False,
+    ):
+        # Standalone (not inheriting the #44230-restructured legacy kernel):
+        # set attrs directly so the full-cache C128 path is decoupled.
+        self.head_dim = head_size
+        self.rope_dim = rope_head_dim
+        self.nope_dim = head_size - rope_head_dim
+        self.fp8_max = fp8_max
+        self.quant_block = quant_block
+        self.token_stride = token_stride
+        self.scale_dim = scale_dim
+        self.num_warps = head_size // quant_block
+        self.nope_blocks = self.nope_dim // quant_block
+        self.tb_size = head_size // 2
+        self.compress_ratio = compress_ratio
+        self.store_full_fp8 = store_full_fp8
+
+    @cute.jit
+    def __call__(
+        self,
+        compressed_kv: cute.Tensor,
+        positions: cute.Tensor,
+        slot_mapping: cute.Tensor,
+        rms_norm_weight: cute.Tensor,
+        rms_norm_eps: Float32,
+        cos_sin_cache: cute.Tensor,
+        k_cache: cute.Tensor,
+        kv_slot_mapping: cute.Tensor,
+        kv_cache_block_size: Int64,
+        fp8_scale: cute.Tensor,
+        stream: CUstream,
+    ):
+        grid = (slot_mapping.shape[0], 1, 1)
+        self.kernel(
+            compressed_kv,
+            positions,
+            slot_mapping,
+            rms_norm_weight,
+            rms_norm_eps,
+            cos_sin_cache,
+            k_cache,
+            kv_slot_mapping,
+            kv_cache_block_size,
+            fp8_scale,
+        ).launch(grid=grid, block=(self.tb_size, 1, 1), stream=stream)
+
+    @cute.kernel
+    def kernel(
+        self,
+        compressed_kv: cute.Tensor,
+        positions: cute.Tensor,
+        slot_mapping: cute.Tensor,
+        rms_norm_weight: cute.Tensor,
+        rms_norm_eps: Float32,
+        cos_sin_cache: cute.Tensor,
+        k_cache: cute.Tensor,
+        kv_slot_mapping: cute.Tensor,
+        kv_cache_block_size: Int64,
+        fp8_scale: cute.Tensor,
+    ):
+        token_idx, _, _ = cute.arch.block_idx()
+        tid, _, _ = cute.arch.thread_idx()
+        warp_id = cute.arch.make_warp_uniform(tid // 32)
+        lane_id = tid % 32
+        elem0 = tid * 2
+
+        slot_id = slot_mapping[token_idx]
+        has_position = token_idx < positions.shape[0]
+        position = Int64(0)
+        if has_position:
+            position = positions[token_idx]
+        boundary = has_position and (
+            (position + Int64(1)) % Int64(self.compress_ratio) == Int64(0)
+        )
+        has_kv_slot_idx = token_idx < kv_slot_mapping.shape[0]
+        kv_slot_idx = Int64(-1)
+        if has_kv_slot_idx:
+            kv_slot_idx = kv_slot_mapping[token_idx]
+        active = slot_id >= Int64(0) and boundary and kv_slot_idx >= Int64(0)
+
+        if active:
+            base = token_idx.to(Int64) * compressed_kv.stride[0] + elem0.to(Int64)
+            x0 = compressed_kv.iterator[base]
+            x1 = compressed_kv.iterator[base + Int64(1)]
+
+            local_sumsq = x0 * x0 + x1 * x1
+            warp_sum = local_sumsq
+            for step in cutlass.range_constexpr(5):
+                offset = const_expr(16 >> step)
+                warp_sum += cute.arch.shuffle_sync_bfly(warp_sum, offset)
+
+            smem = cutlass.utils.SmemAllocator()
+            partial_sums = smem.allocate_tensor(
+                Float32, cute.make_layout((self.num_warps,)), byte_alignment=4
+            )
+            rrms_shared = smem.allocate_tensor(
+                Float32, cute.make_layout((1,)), byte_alignment=4
+            )
+
+            if lane_id == 0:
+                partial_sums[warp_id] = warp_sum
+            cute.arch.sync_threads()
+            if tid == 0:
+                total = Float32(0.0)
+                for i in cutlass.range_constexpr(self.num_warps):
+                    total += partial_sums[i]
+                rrms_shared[0] = cute.math.rsqrt(
+                    total / Float32(self.head_dim) + rms_norm_eps, fastmath=True
+                )
+            cute.arch.sync_threads()
+
+            rrms = rrms_shared[0]
+            x0 = x0 * rrms * rms_norm_weight[elem0].to(Float32)
+            x1 = x1 * rrms * rms_norm_weight[elem0 + 1].to(Float32)
+
+            page = kv_slot_idx // kv_cache_block_size
+            kv_offset = kv_slot_idx - page * kv_cache_block_size
+            value_base = page * k_cache.stride[0] + kv_offset * k_cache.stride[1]
+
+            if const_expr(self.store_full_fp8):
+                k_cache_u16 = cute.recast_tensor(k_cache, Uint16)
+                inv_fp8 = Float32(1.0) / fp8_scale[0]
+                fp8_v0 = x0
+                fp8_v1 = x1
+                if warp_id == self.nope_blocks:
+                    compressed_pos = (position // Int64(self.compress_ratio)) * Int64(
+                        self.compress_ratio
+                    )
+                    pair_idx = lane_id
+                    cs_base = compressed_pos * cos_sin_cache.stride[0] + pair_idx.to(
+                        Int64
+                    )
+                    cos_v = cos_sin_cache.iterator[cs_base]
+                    sin_v = cos_sin_cache.iterator[cs_base + Int64(self.rope_dim // 2)]
+                    fp8_v0 = x0 * cos_v - x1 * sin_v
+                    fp8_v1 = x0 * sin_v + x1 * cos_v
+                fp8_packed_bf16 = _fp32x2_to_bf16x2(fp8_v0, fp8_v1)
+                b0, b1 = _bf16x2_to_fp32(fp8_packed_bf16)
+                y0 = cutlass.min(
+                    cutlass.max(b0 * inv_fp8, Float32(-self.fp8_max)),
+                    Float32(self.fp8_max),
+                )
+                y1 = cutlass.min(
+                    cutlass.max(b1 * inv_fp8, Float32(-self.fp8_max)),
+                    Float32(self.fp8_max),
+                )
+                packed_fp8 = _fp32x2_to_fp8e4m3x2(y0, y1)
+                out_base = value_base + elem0.to(Int64)
+                k_cache_u16.iterator[out_base // Int64(2)] = packed_fp8
+            else:
+                k_cache_u32 = cute.recast_tensor(k_cache, Uint32)
+                bf16_v0 = x0
+                bf16_v1 = x1
+                if warp_id == self.nope_blocks:
+                    compressed_pos = (position // Int64(self.compress_ratio)) * Int64(
+                        self.compress_ratio
+                    )
+                    pair_idx = lane_id
+                    cs_base = compressed_pos * cos_sin_cache.stride[0] + pair_idx.to(
+                        Int64
+                    )
+                    cos_v = cos_sin_cache.iterator[cs_base]
+                    sin_v = cos_sin_cache.iterator[cs_base + Int64(self.rope_dim // 2)]
+                    bf16_v0 = x0 * cos_v - x1 * sin_v
+                    bf16_v1 = x0 * sin_v + x1 * cos_v
+                bf16_packed = _fp32x2_to_bf16x2(bf16_v0, bf16_v1)
+                out_base = value_base + (elem0 * 2).to(Int64)
+                k_cache_u32.iterator[out_base // Int64(4)] = bf16_packed
+
+    @cache
+    @staticmethod
+    def compile(
+        head_size: int = 512,
+        rope_head_dim: int = 64,
+        fp8_max: float = 448.0,
+        quant_block: int = 64,
+        token_stride: int = 576,
+        scale_dim: int = 8,
+        kv_block_stride: int = 74752,
+        compress_ratio: int = 128,
+        store_full_fp8: bool = False,
+        norm_weight_dtype: type[cutlass.Numeric] = Float32,
+    ):
+        if quant_block != 64:
+            raise ValueError(
+                "CuTe DSL sparse-attn store currently requires quant_block=64."
+            )
+        if rope_head_dim != 64:
+            raise ValueError(
+                "CuTe DSL sparse-attn store currently requires rope_head_dim=64."
+            )
+        if head_size % quant_block != 0:
+            raise ValueError("head_size must be divisible by quant_block.")
         num_positions = cute.sym_int()
         num_slots = cute.sym_int()
         num_kv_slots = cute.sym_int()
@@ -1108,8 +1766,9 @@ class SparseAttnNormRopeStoreKernel:
             assumed_align=16,
         )
         kv_slot_mapping = make_fake_tensor(Int64, (num_kv_slots,), divisibility=8)
+        fp8_scale = make_fake_tensor(Float32, (1,), divisibility=1)
 
-        kernel = SparseAttnNormRopeStoreKernel(
+        kernel = SparseAttnNormRopeStoreFullKernel(
             head_size,
             rope_head_dim,
             fp8_max,
@@ -1117,6 +1776,7 @@ class SparseAttnNormRopeStoreKernel:
             token_stride,
             scale_dim,
             compress_ratio,
+            store_full_fp8,
         )
         stream = cute.runtime.make_fake_stream(use_tvm_ffi_env_stream=True)
         return cute.compile(
@@ -1130,12 +1790,77 @@ class SparseAttnNormRopeStoreKernel:
             k_cache,
             kv_slot_mapping,
             Int64(0),
+            fp8_scale,
             stream,
             options="--enable-tvm-ffi",
         )
 
 
-def compress_kv_sparse_attn_cutedsl(
+def compile_split_sparse_attn_cutedsl(
+    head_size: int,
+    state_width: int,
+    block_size: int,
+    rope_head_dim: int,
+    fp8_max: float,
+    quant_block: int,
+    token_stride: int,
+    scale_dim: int,
+    kv_cache_block_size: int,
+    kv_block_stride: int,
+    compress_ratio: int,
+    overlap: bool,
+    rms_norm_weight_dtype: torch.dtype,
+    store_full_kv: bool = False,
+    store_full_fp8: bool = False,
+):
+    if not (
+        head_size == 512
+        and state_width == head_size
+        and compress_ratio == 128
+        and not overlap
+        and block_size == 8
+    ):
+        raise ValueError(
+            "CuTe DSL split sparse-attn wrapper only supports the real "
+            "DeepSeek V4 C128 layout: head_size=512, state_width=512, "
+            "compress_ratio=128, overlap=False, block_size=8."
+        )
+    compress = SparseAttnCompressC128Block8Kernel.compile(
+        head_size=head_size,
+        state_width=state_width,
+    )
+    norm_weight_dtype = _TORCH_TO_CUTE[rms_norm_weight_dtype]
+    if store_full_kv:
+        # FlashInfer contiguous bf16/fp8 cache: standalone full-cache store.
+        store = SparseAttnNormRopeStoreFullKernel.compile(
+            head_size=head_size,
+            rope_head_dim=rope_head_dim,
+            fp8_max=fp8_max,
+            quant_block=quant_block,
+            token_stride=token_stride,
+            scale_dim=scale_dim,
+            kv_block_stride=kv_block_stride,
+            compress_ratio=compress_ratio,
+            store_full_fp8=store_full_fp8,
+            norm_weight_dtype=norm_weight_dtype,
+        )
+    else:
+        store = SparseAttnNormRopeStoreKernel.compile(
+            head_size,
+            rope_head_dim,
+            fp8_max,
+            quant_block,
+            token_stride,
+            scale_dim,
+            kv_block_stride,
+            compress_ratio,
+            norm_weight_dtype,
+            kv_cache_block_size,
+        )
+    return compress, store
+
+
+def split_kv_compress_norm_rope_insert_sparse_attn_cutedsl(
     state_cache: torch.Tensor,
     token_to_req_indices: torch.Tensor,
     positions: torch.Tensor,
@@ -1143,34 +1868,6 @@ def compress_kv_sparse_attn_cutedsl(
     block_table: torch.Tensor,
     block_size: int,
     compressed_kv: torch.Tensor,
-    head_size: int = 512,
-    state_width: int = 512,
-    compress_ratio: int = 128,
-    overlap: bool = False,
-) -> None:
-    if positions.numel() == 0:
-        return
-    compiled = SparseAttnCompressKernel.compile(
-        head_size=head_size,
-        state_width=state_width,
-        compress_ratio=compress_ratio,
-        overlap=overlap,
-    )
-    compiled(
-        state_cache,
-        token_to_req_indices,
-        positions,
-        slot_mapping,
-        block_table,
-        block_size,
-        compressed_kv,
-    )
-
-
-def norm_rope_insert_sparse_attn_cutedsl(
-    compressed_kv: torch.Tensor,
-    positions: torch.Tensor,
-    slot_mapping: torch.Tensor,
     rms_norm_weight: torch.Tensor,
     rms_norm_eps: float,
     cos_sin_cache: torch.Tensor,
@@ -1179,38 +1876,84 @@ def norm_rope_insert_sparse_attn_cutedsl(
     kv_cache_block_size: int,
     kv_block_stride: int,
     head_size: int = 512,
+    state_width: int = 512,
     rope_head_dim: int = 64,
     fp8_max: float = 448.0,
     quant_block: int = 64,
     token_stride: int = 576,
     scale_dim: int = 8,
     compress_ratio: int = 128,
+    overlap: bool = False,
+    store_full_kv: bool = False,
+    store_full_fp8: bool = False,
+    fp8_scale: torch.Tensor | None = None,
 ) -> None:
-    if positions.numel() == 0:
-        return
-    norm_weight_dtype = _TORCH_TO_CUTE.get(rms_norm_weight.dtype)
-    if norm_weight_dtype is None:
-        raise ValueError(
-            "CuTe DSL sparse-attn store supports rms_norm_weight dtype "
-            f"bf16/fp32, got {rms_norm_weight.dtype}."
-        )
     if k_cache.ndim != 3:
         raise ValueError(
             "CuTe DSL sparse-attn store expects the real DeepSeek V4 "
             f"3D k_cache layout [num_blocks, block_size, 584], got ndim={k_cache.ndim}."
         )
-    compiled = SparseAttnNormRopeStoreKernel.compile(
-        head_size=head_size,
-        rope_head_dim=rope_head_dim,
-        fp8_max=fp8_max,
-        quant_block=quant_block,
-        token_stride=token_stride,
-        scale_dim=scale_dim,
-        kv_block_stride=kv_block_stride,
-        compress_ratio=compress_ratio,
-        norm_weight_dtype=norm_weight_dtype,
+    if not store_full_kv and kv_cache_block_size != k_cache.shape[1]:
+        raise ValueError(
+            "CuTe DSL split sparse-attn wrapper expected kv_cache_block_size "
+            f"to match k_cache.shape[1], got {kv_cache_block_size} and "
+            f"{k_cache.shape[1]}."
+        )
+    if positions.numel() == 0:
+        return
+    if rms_norm_weight.dtype not in _TORCH_TO_CUTE:
+        raise ValueError(
+            "CuTe DSL sparse-attn store supports rms_norm_weight dtype "
+            f"bf16/fp32, got {rms_norm_weight.dtype}."
+        )
+    if store_full_fp8 and not store_full_kv:
+        raise ValueError("store_full_fp8 requires store_full_kv.")
+    compress, store = compile_split_sparse_attn_cutedsl(
+        head_size,
+        state_width,
+        block_size,
+        rope_head_dim,
+        fp8_max,
+        quant_block,
+        token_stride,
+        scale_dim,
+        kv_cache_block_size,
+        kv_block_stride,
+        compress_ratio,
+        overlap,
+        rms_norm_weight.dtype,
+        store_full_kv=store_full_kv,
+        store_full_fp8=store_full_fp8,
     )
-    compiled(
+    compress(
+        state_cache,
+        token_to_req_indices,
+        positions,
+        slot_mapping,
+        block_table,
+        compressed_kv,
+    )
+
+    if store_full_kv:
+        # Byte-addressed contiguous cache; block size + per-tensor scale are
+        # passed at call time (not baked into compile).
+        if fp8_scale is None:
+            fp8_scale = torch.ones(1, dtype=torch.float32, device=k_cache.device)
+        store(
+            compressed_kv,
+            positions,
+            slot_mapping,
+            rms_norm_weight,
+            rms_norm_eps,
+            cos_sin_cache,
+            k_cache.view(torch.uint8),
+            kv_slot_mapping,
+            kv_cache_block_size,
+            fp8_scale,
+        )
+        return
+
+    store(
         compressed_kv,
         positions,
         slot_mapping,
@@ -1219,7 +1962,6 @@ def norm_rope_insert_sparse_attn_cutedsl(
         cos_sin_cache,
         k_cache,
         kv_slot_mapping,
-        kv_cache_block_size,
     )
 
 
@@ -1246,6 +1988,9 @@ def fused_kv_compress_norm_rope_insert_sparse_attn_cutedsl(
     scale_dim: int = 8,
     compress_ratio: int = 4,
     overlap: bool = True,
+    store_full_kv: bool = False,
+    store_full_fp8: bool = False,
+    fp8_scale: torch.Tensor | None = None,
 ) -> None:
     if positions.numel() == 0:
         return
@@ -1260,6 +2005,43 @@ def fused_kv_compress_norm_rope_insert_sparse_attn_cutedsl(
             "CuTe DSL sparse-attn fused store expects the real DeepSeek V4 "
             f"3D k_cache layout [num_blocks, block_size, 584], got ndim={k_cache.ndim}."
         )
+    if store_full_fp8 and not store_full_kv:
+        raise ValueError("store_full_fp8 requires store_full_kv.")
+    if store_full_kv:
+        # FlashInfer contiguous bf16/fp8 cache: byte-addressed full-cache C4 store.
+        if fp8_scale is None:
+            fp8_scale = torch.ones(1, dtype=torch.float32, device=k_cache.device)
+        compiled = SparseAttnCompressNormRopeStoreFullC4Kernel.compile(
+            head_size=head_size,
+            state_width=state_width,
+            rope_head_dim=rope_head_dim,
+            fp8_max=fp8_max,
+            quant_block=quant_block,
+            token_stride=token_stride,
+            scale_dim=scale_dim,
+            kv_block_stride=kv_block_stride,
+            compress_ratio=compress_ratio,
+            overlap=overlap,
+            store_full_fp8=store_full_fp8,
+            norm_weight_dtype=norm_weight_dtype,
+        )
+        compiled(
+            state_cache,
+            token_to_req_indices,
+            positions,
+            slot_mapping,
+            block_table,
+            block_size,
+            rms_norm_weight,
+            rms_norm_eps,
+            cos_sin_cache,
+            k_cache.view(torch.uint8),
+            kv_slot_mapping,
+            kv_cache_block_size,
+            fp8_scale,
+        )
+        return
+
     compiled = SparseAttnCompressNormRopeStoreC4Kernel.compile(
         head_size=head_size,
         state_width=state_width,
@@ -1312,6 +2094,9 @@ def compress_norm_rope_store_cutedsl(
     quant_block: int,
     token_stride: int,
     scale_dim: int,
+    store_full_kv: bool = False,
+    store_full_fp8: bool = False,
+    fp8_scale: torch.Tensor | None = None,
 ) -> None:
     if compress_ratio == 4:
         # For C4A, the single fused kernel is faster than the two-kernel version.
@@ -1338,6 +2123,9 @@ def compress_norm_rope_store_cutedsl(
             scale_dim=scale_dim,
             compress_ratio=compress_ratio,
             overlap=overlap,
+            store_full_kv=store_full_kv,
+            store_full_fp8=store_full_fp8,
+            fp8_scale=fp8_scale,
         )
     else:
         # For C128, the two-kernel version is faster than the single fused kernel.
@@ -1346,7 +2134,7 @@ def compress_norm_rope_store_cutedsl(
             dtype=torch.float32,
             device=state_cache.device,
         )
-        compress_kv_sparse_attn_cutedsl(
+        split_kv_compress_norm_rope_insert_sparse_attn_cutedsl(
             state_cache,
             token_to_req_indices,
             positions,
@@ -1354,15 +2142,6 @@ def compress_norm_rope_store_cutedsl(
             block_table,
             block_size,
             compressed_kv,
-            head_size=head_dim,
-            state_width=state_width,
-            compress_ratio=compress_ratio,
-            overlap=overlap,
-        )
-        norm_rope_insert_sparse_attn_cutedsl(
-            compressed_kv,
-            positions,
-            slot_mapping,
             rms_norm_weight,
             rms_norm_eps,
             cos_sin_cache,
@@ -1371,10 +2150,15 @@ def compress_norm_rope_store_cutedsl(
             kv_cache.shape[1],  # paged KV cache block size
             kv_cache.stride(0),
             head_size=head_dim,
+            state_width=state_width,
             rope_head_dim=rope_head_dim,
             fp8_max=448.0,
             quant_block=quant_block,
             token_stride=token_stride,
             scale_dim=scale_dim,
             compress_ratio=compress_ratio,
+            overlap=overlap,
+            store_full_kv=store_full_kv,
+            store_full_fp8=store_full_fp8,
+            fp8_scale=fp8_scale,
         )
diff --git a/vllm/multimodal/parse.py b/vllm/multimodal/parse.py
index f2187effab0..cdedd194227 100644
--- a/vllm/multimodal/parse.py
+++ b/vllm/multimodal/parse.py
@@ -378,7 +378,14 @@ class VideoProcessorItems(ProcessorBatchItems[HfVideoItem | None]):
         if isinstance(image, PILImage.Image):
             return ImageSize(*image.size)
         if isinstance(image, (np.ndarray, torch.Tensor)):
-            _, h, w = image.shape
+            if image.ndim == 3 and image.shape[-1] in (1, 3, 4):
+                # HWC format (e.g. from np.array(PIL.Image) via
+                # _get_video_with_metadata).  PIL images are always
+                # channels-last.
+                h, w = image.shape[0], image.shape[1]
+            else:
+                # CHW format (standard PyTorch / numpy convention).
+                _, h, w = image.shape
             return ImageSize(w, h)
 
         assert_never(image)
diff --git a/vllm/parser/abstract_parser.py b/vllm/parser/abstract_parser.py
index 9e4d1830b4d..d5ea574bf76 100644
--- a/vllm/parser/abstract_parser.py
+++ b/vllm/parser/abstract_parser.py
@@ -706,6 +706,9 @@ class DelegatingParser(Parser):
         tool_call_id_type: str = "random",
         function_name_returned: bool = False,
     ) -> tuple[DeltaMessage | None, bool]:
+        if request.tool_choice == "none":
+            return (DeltaMessage(content=delta_text) if delta_text else None), False
+
         assert self._tool_parser is not None
         supports_required_and_named = self._tool_parser.supports_required_and_named
         if (
diff --git a/vllm/utils/flashinfer.py b/vllm/utils/flashinfer.py
index f7ed180a730..95f8b4b7ec0 100644
--- a/vllm/utils/flashinfer.py
+++ b/vllm/utils/flashinfer.py
@@ -72,6 +72,14 @@ def _missing(*_: Any, **__: Any) -> NoReturn:
     )
 
 
+def _missing_dsv4_sparse_mla(*_: Any, **__: Any) -> NoReturn:
+    raise RuntimeError(
+        "flashinfer.mla.trtllm_batch_decode_sparse_mla_dsv4 is not available. "
+        "Install a FlashInfer build that includes DeepSeek V4 sparse MLA "
+        "TRTLLM-GEN support."
+    )
+
+
 def _get_submodule(module_name: str) -> Any | None:
     """Safely import a submodule and return it, or None if not available."""
     try:
@@ -141,6 +149,14 @@ flashinfer_b12x_fused_moe = _lazy_import_wrapper(
 trtllm_fp4_block_scale_moe = _lazy_import_wrapper(
     "flashinfer", "trtllm_fp4_block_scale_moe"
 )
+# DeepSeek V4 sparse MLA TRTLLM-GEN decode launcher (public wrapper). Handles
+# the SWA + compressed KV pools, the concatenated sparse-index matrix, and
+# per-tensor FP8 / BF16 inputs with BF16 output.
+flashinfer_trtllm_batch_decode_sparse_mla_dsv4 = _lazy_import_wrapper(
+    "flashinfer.mla",
+    "trtllm_batch_decode_sparse_mla_dsv4",
+    fallback_fn=_missing_dsv4_sparse_mla,
+)
 # Special case for autotune since it returns a context manager
 autotune = _lazy_import_wrapper(
     "flashinfer.autotuner",
@@ -965,6 +981,7 @@ __all__ = [
     "flashinfer_b12x_fused_moe",
     "flashinfer_convert_sf_to_mma_layout",
     "trtllm_fp4_block_scale_moe",
+    "flashinfer_trtllm_batch_decode_sparse_mla_dsv4",
     "autotune",
     "has_flashinfer_moe",
     "has_flashinfer_comm",
diff --git a/vllm/v1/attention/backends/flashinfer.py b/vllm/v1/attention/backends/flashinfer.py
index 83e3072546f..73e1cce56d5 100755
--- a/vllm/v1/attention/backends/flashinfer.py
+++ b/vllm/v1/attention/backends/flashinfer.py
@@ -62,7 +62,6 @@ from vllm.v1.attention.backends.utils import (
     KVCacheLayoutType,
     get_dcp_local_seq_lens,
     get_kv_cache_layout,
-    get_num_attention_heads_from_layers,
     get_per_layer_parameters,
     infer_global_hyperparameters,
     split_decodes_and_prefills,
@@ -608,10 +607,9 @@ class FlashInferMetadataBuilder(AttentionMetadataBuilder[FlashInferMetadata]):
             self.use_dcp and vllm_config.parallel_config.dcp_comm_backend == "a2a"
         )
 
-        # Compatible with models with non-uniform per-layer head counts.
-        self.num_qo_heads = get_num_attention_heads_from_layers(
-            vllm_config, layer_names
-        ) or self.model_config.get_num_attention_heads(self.vllm_config.parallel_config)
+        self.num_qo_heads = self.model_config.get_num_attention_heads(
+            self.vllm_config.parallel_config
+        )
 
         self.num_kv_heads = self.kv_cache_spec.num_kv_heads
         self.head_dim = self.kv_cache_spec.head_size
diff --git a/vllm/v1/attention/backends/mla/sparse_swa.py b/vllm/v1/attention/backends/mla/sparse_swa.py
index f0e444e493c..59698442f98 100644
--- a/vllm/v1/attention/backends/mla/sparse_swa.py
+++ b/vllm/v1/attention/backends/mla/sparse_swa.py
@@ -73,9 +73,14 @@ class DeepseekV4SWACache(torch.nn.Module, AttentionLayerBase):
         # determines the SWA block size of 64 tokens per block.
         # TODO(yifan): make SWA block size automatically determined and configurable.
         self.block_size = 64
-        assert self.dtype == torch.uint8
+        # uint8: legacy FlashMLA UE8M0 paged layout. bfloat16 / float8_e4m3fn:
+        # FlashInfer contiguous full-cache layout.
+        assert self.dtype in (torch.uint8, torch.bfloat16, torch.float8_e4m3fn)
 
     def get_kv_cache_spec(self, vllm_config: VllmConfig) -> KVCacheSpec:
+        # FlashMLA's UE8M0 paged layout needs 576B alignment; FlashInfer's
+        # contiguous bf16/fp8 cache uses the natural element-size page.
+        is_flashmla = self.cache_config.cache_dtype == "fp8_ds_mla"
         return SlidingWindowMLASpec(
             block_size=self.block_size,
             num_kv_heads=1,
@@ -83,7 +88,7 @@ class DeepseekV4SWACache(torch.nn.Module, AttentionLayerBase):
             dtype=self.dtype,
             sliding_window=self.window_size,
             cache_dtype_str=self.cache_config.cache_dtype,
-            alignment=576,  # NOTE: FlashMLA requires 576B alignment
+            alignment=576 if is_flashmla else None,
             model_version="deepseek_v4",
         )
 
diff --git a/vllm/v1/attention/backends/registry.py b/vllm/v1/attention/backends/registry.py
index 87abb688431..0f91dac5aeb 100644
--- a/vllm/v1/attention/backends/registry.py
+++ b/vllm/v1/attention/backends/registry.py
@@ -76,6 +76,17 @@ class AttentionBackendEnum(Enum, metaclass=_AttentionBackendEnumMeta):
     FLASHMLA_SPARSE = (
         "vllm.v1.attention.backends.mla.flashmla_sparse.FlashMLASparseBackend"
     )
+    # DeepSeek V4 sparse MLA backends (model-driven; selected via the V4 layer).
+    FLASHMLA_SPARSE_DSV4 = (
+        "vllm.models.deepseek_v4.nvidia.flashmla.DeepseekV4FlashMLASparseBackend"
+    )
+    FLASHINFER_MLA_SPARSE_DSV4 = (
+        "vllm.models.deepseek_v4.nvidia.flashinfer_sparse."
+        "DeepseekV4FlashInferMLASparseBackend"
+    )
+    ROCM_FLASHMLA_SPARSE_DSV4 = (
+        "vllm.models.deepseek_v4.amd.rocm.DeepseekV4ROCMAiterMLASparseBackend"
+    )
     FLASH_ATTN_MLA = "vllm.v1.attention.backends.mla.flashattn_mla.FlashAttnMLABackend"
     NO_ATTENTION = "vllm.v1.attention.backends.no_attention.NoAttentionBackend"
     FLEX_ATTENTION = "vllm.v1.attention.backends.flex_attention.FlexAttentionBackend"
diff --git a/vllm/v1/attention/backends/triton_attn.py b/vllm/v1/attention/backends/triton_attn.py
index 008b74c9ff7..716d56e8176 100644
--- a/vllm/v1/attention/backends/triton_attn.py
+++ b/vllm/v1/attention/backends/triton_attn.py
@@ -30,10 +30,7 @@ from vllm.v1.attention.backend import (
     CommonAttentionMetadata,
     MultipleOf,
 )
-from vllm.v1.attention.backends.utils import (
-    get_kv_cache_layout,
-    get_num_attention_heads_from_layers,
-)
+from vllm.v1.attention.backends.utils import get_kv_cache_layout
 from vllm.v1.attention.ops.triton_prefill_attention import context_attention_fwd
 from vllm.v1.attention.ops.triton_reshape_and_cache_flash import (
     triton_reshape_and_cache_flash,
@@ -142,10 +139,9 @@ class TritonAttentionMetadataBuilder(AttentionMetadataBuilder[TritonAttentionMet
         self.block_size = kv_cache_spec.block_size
 
         model_config = vllm_config.model_config
-        # Compatible with models with non-uniform per-layer head counts.
-        self.num_heads_q = get_num_attention_heads_from_layers(
-            vllm_config, layer_names
-        ) or model_config.get_num_attention_heads(vllm_config.parallel_config)
+        self.num_heads_q = model_config.get_num_attention_heads(
+            vllm_config.parallel_config
+        )
         self.num_heads_kv = model_config.get_num_kv_heads(vllm_config.parallel_config)
         self.headdim = model_config.get_head_size()
 
diff --git a/vllm/v1/attention/backends/utils.py b/vllm/v1/attention/backends/utils.py
index b73d17e8e5c..d09c01eb905 100644
--- a/vllm/v1/attention/backends/utils.py
+++ b/vllm/v1/attention/backends/utils.py
@@ -136,32 +136,6 @@ def get_per_layer_parameters(
     return per_layer_params
 
 
-def get_num_attention_heads_from_layers(
-    vllm_config: VllmConfig, layer_names: list[str]
-) -> int | None:
-    """Per-TP-rank ``num_heads`` shared by the named Attention layers.
-
-    Use in metadata builders whose plan-time allocations depend on the
-    head count: the model-wide ``get_num_attention_heads()`` is wrong
-    for models with non-uniform per-layer head counts. All layers in
-    one attention group must agree on ``num_heads``; this is asserted.
-    Returns ``None`` when no matching Attention layer is found.
-    """
-    attn_layers = get_layers_from_vllm_config(
-        vllm_config,
-        AttentionLayerBase,  # type: ignore[type-abstract]
-        layer_names,
-    )
-    if not attn_layers:
-        return None
-    heads = {layer.impl.num_heads for layer in attn_layers.values()}
-    assert len(heads) == 1, (
-        f"All layers in one attention group must share num_heads; "
-        f"got {heads} for {layer_names}."
-    )
-    return heads.pop()
-
-
 def infer_global_hyperparameters(
     per_layer_params: dict[str, PerLayerParameters],
 ) -> PerLayerParameters:
diff --git a/vllm/v1/core/block_pool.py b/vllm/v1/core/block_pool.py
index 513e4bf380b..4202f527082 100644
--- a/vllm/v1/core/block_pool.py
+++ b/vllm/v1/core/block_pool.py
@@ -416,21 +416,29 @@ class BlockPool:
             if self.metrics_collector:
                 self.metrics_collector.on_block_accessed(block)
 
-    def free_blocks(self, ordered_blocks: Iterable[KVCacheBlock]) -> None:
+    def free_blocks(
+        self, ordered_blocks: Iterable[KVCacheBlock], prepend: bool = False
+    ) -> None:
         """Free a list of blocks. The blocks should be ordered by their
         eviction priority, where the first block will be evicted first.
 
         Args:
             ordered_blocks: A list of blocks to free ordered by their eviction
                 priority.
+            prepend: Whether to put newly-free blocks at the front of the free
+                queue to be prioritized for reuse.
         """
         # Materialize the iterable to allow multiple passes.
         blocks_list = list(ordered_blocks)
         for block in blocks_list:
             block.ref_cnt -= 1
-        self.free_block_queue.append_n(
-            [block for block in blocks_list if block.ref_cnt == 0 and not block.is_null]
-        )
+        freed_blocks = [
+            block for block in blocks_list if block.ref_cnt == 0 and not block.is_null
+        ]
+        if prepend:
+            self.free_block_queue.prepend_n(freed_blocks)
+        else:
+            self.free_block_queue.append_n(freed_blocks)
 
     def evict_blocks(self, block_ids: set[int]) -> None:
         """evict blocks from the prefix cache by their block IDs.
diff --git a/vllm/v1/core/kv_cache_coordinator.py b/vllm/v1/core/kv_cache_coordinator.py
index 387f1a1e335..89b1e84a44e 100644
--- a/vllm/v1/core/kv_cache_coordinator.py
+++ b/vllm/v1/core/kv_cache_coordinator.py
@@ -4,6 +4,7 @@ from abc import ABC, abstractmethod
 from collections.abc import Sequence
 from typing import NamedTuple
 
+from vllm import envs
 from vllm.v1.core.block_pool import BlockPool
 from vllm.v1.core.kv_cache_metrics import KVCacheMetricsCollector
 from vllm.v1.core.kv_cache_utils import (
@@ -21,10 +22,41 @@ from vllm.v1.kv_cache_interface import (
     FullAttentionSpec,
     KVCacheConfig,
     KVCacheSpec,
+    SlidingWindowSpec,
 )
 from vllm.v1.request import Request
 
 
+def _validate_prefix_cache_retention_interval(
+    retention_interval: int | None,
+    scheduler_block_size: int,
+    kv_cache_config: KVCacheConfig,
+) -> None:
+    if retention_interval is None:
+        return
+
+    # Retention only sparsifies sliding-window checkpoints for now; every other
+    # manager (full attention, Mamba, chunked-local) caches densely and
+    # ignores it to be conservative.
+    # TODO: Support Mamba/linear attention.
+    if not any(
+        isinstance(g.kv_cache_spec, SlidingWindowSpec)
+        for g in kv_cache_config.kv_cache_groups
+    ):
+        raise ValueError(
+            "VLLM_PREFIX_CACHE_RETENTION_INTERVAL is set but this model has "
+            "no sliding-window KV cache group, so retention has no effect. "
+            "Unset it (the feature only applies to sliding-window attention)."
+        )
+
+    if retention_interval < 0 or retention_interval % scheduler_block_size != 0:
+        raise ValueError(
+            f"VLLM_PREFIX_CACHE_RETENTION_INTERVAL ({retention_interval}) "
+            "must be non-negative and a multiple of scheduler_block_size "
+            f"({scheduler_block_size})."
+        )
+
+
 class KVCacheCoordinator(ABC):
     """
     Coordinate the KV cache of different KV cache groups.
@@ -86,6 +118,14 @@ class KVCacheCoordinator(ABC):
             for i, kv_cache_group in enumerate(self.kv_cache_config.kv_cache_groups)
         )
 
+        # A positive retention interval must be a multiple of the base hit granularity
+        # (``scheduler_block_size``) to land on real cache-hit boundaries.
+        # 0 = keep only the latest replay boundary; None = dense;
+        self.retention_interval = envs.VLLM_PREFIX_CACHE_RETENTION_INTERVAL
+        _validate_prefix_cache_retention_interval(
+            self.retention_interval, self.scheduler_block_size, kv_cache_config
+        )
+
     def get_num_blocks_to_allocate(
         self,
         request_id: str,
@@ -215,7 +255,11 @@ class KVCacheCoordinator(ABC):
                 (including tokens that are already cached).
         """
         for manager in self.single_type_managers:
-            manager.cache_blocks(request, num_computed_tokens)
+            manager.cache_blocks(
+                request,
+                num_computed_tokens,
+                retention_interval=self.retention_interval,
+            )
 
     def free(self, request_id: str) -> None:
         """
@@ -525,8 +569,14 @@ class HybridKVCacheCoordinator(KVCacheCoordinator):
                     num_computed_tokens,
                     aligned_num_computed_tokens + manager.block_size,
                 )
+            # The manager already knows the fine hit granularity
+            # (``scheduler_block_size``); retention is passed separately so it
+            # can keep both the coarse segment tails and the fine replay
+            # boundary (which needs the fine value).
             manager.cache_blocks(
-                request, num_tokens_to_cache, alignment_tokens=self.scheduler_block_size
+                request,
+                num_tokens_to_cache,
+                retention_interval=self.retention_interval,
             )
 
     def find_longest_cache_hit(
diff --git a/vllm/v1/core/kv_cache_utils.py b/vllm/v1/core/kv_cache_utils.py
index cfa79f077a1..ae3db581c0d 100644
--- a/vllm/v1/core/kv_cache_utils.py
+++ b/vllm/v1/core/kv_cache_utils.py
@@ -327,6 +327,27 @@ class FreeKVCacheBlockQueue:
 
         self.num_free_blocks += 1
 
+    def prepend_n(self, blocks: list[KVCacheBlock]) -> None:
+        """Put a list of blocks at the front of the free list."""
+        if len(blocks) == 0:
+            return
+
+        first_block = self.fake_free_list_head.next_free_block
+        assert first_block is not None, (
+            "next_free_block of fake_free_list_head should always exist"
+        )
+
+        prev_block = self.fake_free_list_head
+        for block in blocks:
+            block.prev_free_block = prev_block
+            prev_block.next_free_block = block
+            prev_block = block
+
+        prev_block.next_free_block = first_block
+        first_block.prev_free_block = prev_block
+
+        self.num_free_blocks += len(blocks)
+
     def append_n(self, blocks: list[KVCacheBlock]) -> None:
         """Put a list of blocks back into the free list
 
diff --git a/vllm/v1/core/sched/scheduler.py b/vllm/v1/core/sched/scheduler.py
index c39e80c24eb..897d063e830 100644
--- a/vllm/v1/core/sched/scheduler.py
+++ b/vllm/v1/core/sched/scheduler.py
@@ -293,9 +293,6 @@ class Scheduler(SchedulerInterface):
         num_new_local_computed_tokens: int = 0,
         num_external_computed_tokens: int = 0,
     ) -> int:
-        assert num_external_computed_tokens == 0, (
-            "External KV connector is not verified yet"
-        )
         num_computed_tokens = (
             request.num_computed_tokens
             + num_new_local_computed_tokens
@@ -716,7 +713,8 @@ class Scheduler(SchedulerInterface):
                             # The request cannot be scheduled.
                             break
 
-                if self.need_mamba_block_aligned_split:
+                # Skip block alignment when setting up async receive (no local work).
+                if self.need_mamba_block_aligned_split and not load_kv_async:
                     num_new_tokens = self._mamba_block_aligned_split(
                         request,
                         num_new_tokens,
diff --git a/vllm/v1/core/single_type_kv_cache_manager.py b/vllm/v1/core/single_type_kv_cache_manager.py
index 281b79639db..a2f2ea6d96a 100644
--- a/vllm/v1/core/single_type_kv_cache_manager.py
+++ b/vllm/v1/core/single_type_kv_cache_manager.py
@@ -62,6 +62,7 @@ class SingleTypeKVCacheManager(ABC):
                 block until the request finishes.
         """
         self.scheduler_block_size = scheduler_block_size
+        # The block size for this manager; used for actual block allocation.
         self.block_size = kv_cache_spec.block_size
         self.dcp_world_size = dcp_world_size
         self.pcp_world_size = pcp_world_size
@@ -298,7 +299,7 @@ class SingleTypeKVCacheManager(ABC):
         self,
         request: Request,
         num_tokens: int,
-        alignment_tokens: int | None = None,
+        retention_interval: int | None = None,
     ) -> None:
         """
         Cache the blocks for the request.
@@ -307,12 +308,10 @@ class SingleTypeKVCacheManager(ABC):
             request: The request.
             num_tokens: The total number of tokens that need to be cached
                 (including tokens that are already cached).
-            alignment_tokens: The cache-hit alignment (in tokens) used by the
-                coordinator's ``find_longest_cache_hit``. When greater than
-                this group's ``block_size``, managers whose hit logic only
-                returns a subset of blocks per alignment-aligned segment
-                (SWA) skip the rest since they can never participate in a
-                future cache hit.
+            retention_interval: Sparse local-checkpoint granularity. ``None``
+                keeps dense checkpointing; ``0`` keeps only the latest replay
+                boundary; a positive multiple of ``scheduler_block_size`` keeps
+                a tail once per that-sized segment. Only SWA acts on it.
         """
         num_cached_blocks = self.num_cached_block.get(request.request_id, 0)
         num_full_blocks = num_tokens // self.block_size
@@ -320,17 +319,15 @@ class SingleTypeKVCacheManager(ABC):
         if num_cached_blocks >= num_full_blocks:
             return
 
-        # Fast path: when the coordinator imposes no alignment constraint
-        if alignment_tokens is None or alignment_tokens <= self.block_size:
-            block_mask = None
-        else:
-            block_mask = self.reachable_block_mask(
-                num_cached_blocks,
-                num_full_blocks,
-                alignment_tokens,
-                self.kv_cache_spec,
-                self.use_eagle,
-            )
+        block_mask = self.reachable_block_mask(
+            start_block=num_cached_blocks,
+            end_block=num_full_blocks,
+            alignment_tokens=self.scheduler_block_size,
+            kv_cache_spec=self.kv_cache_spec,
+            use_eagle=self.use_eagle,
+            retention_interval=retention_interval,
+            num_prompt_tokens=request.num_prompt_tokens,
+        )
         self.block_pool.cache_full_blocks(
             request=request,
             blocks=self.req_to_blocks[request.request_id],
@@ -347,10 +344,12 @@ class SingleTypeKVCacheManager(ABC):
     def reachable_block_mask(
         cls,
         start_block: int,
-        num_blocks: int,
-        alignment_tokens: int,
+        end_block: int,
+        alignment_tokens: int | None,
         kv_cache_spec: KVCacheSpec,
         use_eagle: bool,
+        retention_interval: int | None = None,
+        num_prompt_tokens: int | None = None,
     ) -> list[bool] | None:
         """Per-block mask for ``cache_full_blocks``. ``None`` means cache
         every (non-null) block — the default for full attention.
@@ -476,7 +475,12 @@ class SingleTypeKVCacheManager(ABC):
         # range), so we must cap to the number of blocks that currently exist for
         # this request.
         num_skipped_blocks = min(num_skipped_blocks, len(blocks))
-        removed_blocks: list[KVCacheBlock] = []
+
+        # Reuse skipped local blocks in order:
+        #   scratch blocks: no prefix-cache value, reuse first.
+        #   cached blocks: reusable prefix-cache value, reuse last.
+        removed_cached_blocks: list[KVCacheBlock] = []
+        removed_uncached_blocks: list[KVCacheBlock] = []
         # Because the block starts from index 0, the num_skipped_block-th block
         # corresponds to index num_skipped_blocks - 1.
         for i in range(num_skipped_blocks - 1, -1, -1):
@@ -485,9 +489,16 @@ class SingleTypeKVCacheManager(ABC):
                 # should also have been set to null blocks by the previous calls
                 # to this function.
                 break
-            removed_blocks.append(blocks[i])
+            if blocks[i].block_hash is None:
+                removed_uncached_blocks.append(blocks[i])
+            else:
+                removed_cached_blocks.append(blocks[i])
             blocks[i] = self._null_block
-        self.block_pool.free_blocks(removed_blocks)
+        # `prepend=True` makes uncached scratch blocks the next allocation
+        # candidates, while cached blocks stay behind them as best-effort
+        # prefix-cache entries.
+        self.block_pool.free_blocks(removed_cached_blocks)
+        self.block_pool.free_blocks(removed_uncached_blocks, prepend=True)
 
     def get_num_skipped_tokens(self, num_computed_tokens: int) -> int:
         """
@@ -677,30 +688,81 @@ class SlidingWindowManager(SingleTypeKVCacheManager):
     def reachable_block_mask(
         cls,
         start_block: int,
-        num_blocks: int,
-        alignment_tokens: int,
+        end_block: int,
+        alignment_tokens: int | None,
         kv_cache_spec: KVCacheSpec,
         use_eagle: bool,
+        retention_interval: int | None = None,
+        num_prompt_tokens: int | None = None,
     ) -> list[bool] | None:
-        assert alignment_tokens > kv_cache_spec.block_size
         assert isinstance(kv_cache_spec, SlidingWindowSpec)
-        per_segment = alignment_tokens // kv_cache_spec.block_size
+        if alignment_tokens is None:
+            # Fast path: when the coordinator imposes no alignment constraint.
+            return None
+        assert alignment_tokens % kv_cache_spec.block_size == 0
+
+        block_size = kv_cache_spec.block_size
+        # Contiguous blocks a hit needs at a boundary (incl. the EAGLE peek).
         need = cls._contiguous_blocks_for_hit(
             window_size=kv_cache_spec.sliding_window,
-            block_size=kv_cache_spec.block_size,
+            block_size=block_size,
             use_eagle=use_eagle,
         )
-        if need >= per_segment:
-            return None
         # The matched run's right edge sits on the aligned boundary block when
         # EAGLE peeks one block past it (shift=1), otherwise on the last block
-        # before the boundary (shift=0). A block is reachable iff it falls in
-        # the ``need``-wide run ending at some boundary's right edge.
+        # before the boundary (shift=0).
         shift = 1 if use_eagle else 0
-        return [
-            i >= shift and (i - shift) % per_segment >= per_segment - need
-            for i in range(start_block, num_blocks)
-        ]
+
+        mask = [False] * (end_block - start_block)
+
+        # (1) Segment-boundary tails. ``retention_interval``:
+        #   None -> dense (a tail at every ``alignment_tokens`` boundary);
+        #   0    -> no dense tails (only the replay boundary below);
+        #   >0   -> a tail once per ``retention_interval``-sized segment.
+        segment_tokens = (
+            alignment_tokens
+            if retention_interval is None
+            else (None if retention_interval == 0 else retention_interval)
+        )
+        if segment_tokens is not None:
+            per_segment = segment_tokens // block_size
+            if need >= per_segment:
+                # Every block is reachable; cache them all.
+                return None
+            for i in range(start_block, end_block):
+                if i >= shift and (i - shift) % per_segment >= per_segment - need:
+                    mask[i - start_block] = True
+
+        # (2) Replay-boundary tail. ``get_computed_blocks`` caps hits at
+        # ``num_prompt - 1`` (to recompute the last token's logits), so an exact
+        # prompt replay can only land on the latest *fine*-aligned boundary.
+        # Sparse retention would otherwise skip it, so keep its tail explicitly.
+        if retention_interval is not None and num_prompt_tokens is not None:
+            latest = (num_prompt_tokens - 1) // alignment_tokens * alignment_tokens
+            prompt_end_block = latest // block_size + shift
+            for i in range(
+                max(start_block, prompt_end_block - need),
+                min(end_block, prompt_end_block),
+            ):
+                mask[i - start_block] = True
+
+        return mask
+
+    def free(self, request_id: str) -> None:
+        # similar to remove_skipped_blocks(), prepend the uncached blocks
+        # and append the cached blocks to the free queue
+        req_blocks = self.req_to_blocks.pop(request_id, [])
+        if req_blocks:
+            cached_blocks: list[KVCacheBlock] = []
+            uncached_blocks: list[KVCacheBlock] = []
+            for block in reversed(req_blocks):
+                if block.block_hash is None:
+                    uncached_blocks.append(block)
+                else:
+                    cached_blocks.append(block)
+            self.block_pool.free_blocks(cached_blocks)
+            self.block_pool.free_blocks(uncached_blocks, prepend=True)
+        self.num_cached_block.pop(request_id, None)
 
     def get_num_skipped_tokens(self, num_computed_tokens: int) -> int:
         """
@@ -1152,10 +1214,10 @@ class MambaManager(SingleTypeKVCacheManager):
         self,
         request: Request,
         num_tokens: int,
-        alignment_tokens: int | None = None,
+        retention_interval: int | None = None,
     ) -> None:
         num_cached_blocks_before = self.num_cached_block.get(request.request_id, 0)
-        super().cache_blocks(request, num_tokens, alignment_tokens=alignment_tokens)
+        super().cache_blocks(request, num_tokens, retention_interval=retention_interval)
         num_cached_blocks_after = self.num_cached_block.get(request.request_id, 0)
         if num_cached_blocks_after > num_cached_blocks_before:
             for block in self.req_to_blocks[request.request_id][
@@ -1188,7 +1250,7 @@ class CrossAttentionManager(SingleTypeKVCacheManager):
         self,
         request: Request,
         num_tokens: int,
-        alignment_tokens: int | None = None,
+        retention_interval: int | None = None,
     ) -> None:
         # We do not cache blocks for cross-attention to be shared between
         # requests, so this method is not relevant.
diff --git a/vllm/v1/kv_cache_interface.py b/vllm/v1/kv_cache_interface.py
index 3bbfba1a0fe..2f8048c7966 100644
--- a/vllm/v1/kv_cache_interface.py
+++ b/vllm/v1/kv_cache_interface.py
@@ -547,10 +547,12 @@ class SlidingWindowMLASpec(SlidingWindowSpec):
 
     @property
     def real_page_size_bytes(self) -> int:
-        if self.model_version == "deepseek_v4":
-            # DeepseekV4: 448B NoPE + 128B RoPE + 8B fp8 scale = 584B per token.
+        if self.model_version == "deepseek_v4" and self.cache_dtype_str == "fp8_ds_mla":
+            # DeepseekV4 FlashMLA: 448B NoPE + 128B RoPE + 8B fp8 scale = 584B
+            # per token. FlashInfer's contiguous bf16/fp8 cache falls through to
+            # the element-size formula below.
             return self.storage_block_size * 584
-        assert self.model_version is None, (
+        assert self.model_version in (None, "deepseek_v4"), (
             f"Unsupported model version: {self.model_version}"
         )
         return (
diff --git a/vllm/v1/sample/ops/topk_topp_sampler.py b/vllm/v1/sample/ops/topk_topp_sampler.py
index 66806ab8a9b..baa0e77119b 100644
--- a/vllm/v1/sample/ops/topk_topp_sampler.py
+++ b/vllm/v1/sample/ops/topk_topp_sampler.py
@@ -4,7 +4,6 @@
 
 import torch
 import torch.nn as nn
-from packaging import version
 
 from vllm import envs
 from vllm._aiter_ops import rocm_aiter_ops
@@ -19,17 +18,16 @@ if HAS_TRITON:
 logger = init_logger(__name__)
 
 
-_FLASHINFER_MIN_VERSION = "0.2.3"
-
-
 def flashinfer_sampler_supported() -> bool:
     """Decide whether FlashInfer's top-p/top-k sampler can be used.
 
     Returns False (with appropriate logging) when ``VLLM_USE_FLASHINFER_SAMPLER``
     is 0, when the platform isn't CUDA, when the GPU's compute capability is
-    unsupported, or when the installed flashinfer is missing or too old. Raises
-    ``RuntimeError`` if the user explicitly opted in via the env var but
-    FlashInfer is unavailable.
+    unsupported. Raises ``RuntimeError`` if the user explicitly opted in
+    via the env var but FlashInfer is unavailable.
+
+    Assumes flashinfer is installed, as guaranteed by ``requirements/cuda.txt``;
+    otherwise importing the FlashInfer backend below raises ``ImportError``.
 
     Note: callers must additionally ensure ``logprobs_mode`` doesn't require
     post-top-k/top-p logits/logprobs for any request whose logprobs will be
@@ -52,19 +50,6 @@ def flashinfer_sampler_supported() -> bool:
         unsupported_reason = (
             f"unsupported compute capability {capability.as_version_str()}"
         )
-    else:
-        try:
-            import flashinfer
-
-            if version.parse(flashinfer.__version__) < version.parse(
-                _FLASHINFER_MIN_VERSION
-            ):
-                unsupported_reason = (
-                    f"flashinfer {flashinfer.__version__} is too old "
-                    f"(>={_FLASHINFER_MIN_VERSION} required)"
-                )
-        except ImportError:
-            unsupported_reason = "flashinfer is not installed"
 
     if unsupported_reason is None:
         logger.info_once("Using FlashInfer for top-p & top-k sampling.", scope="global")
diff --git a/vllm/v1/spec_decode/gemma4.py b/vllm/v1/spec_decode/gemma4.py
index b0a02774faf..7f67ae9f499 100644
--- a/vllm/v1/spec_decode/gemma4.py
+++ b/vllm/v1/spec_decode/gemma4.py
@@ -81,11 +81,16 @@ class Gemma4Proposer(SpecDecodeBaseProposer):
         """
         per_group_attn_metadata: list[object] = []
         per_layer_attn_metadata: dict[str, object] = {}
+        batch_size = common_attn_metadata.batch_size()
         for attn_group in self.draft_attn_groups:
             gid = attn_group.kv_cache_group_id
             if gid in self._per_group_block_tables:
                 cm = copy(common_attn_metadata)
-                cm.block_table_tensor = self._per_group_block_tables[gid]
+                # Slice to actual batch size to match cu_seqlens_q dimension.
+                # The stored block tables may be padded (num_reqs_padded) from
+                # the target forward pass, but the drafter operates on the
+                # unpadded batch.
+                cm.block_table_tensor = self._per_group_block_tables[gid][:batch_size]
             else:
                 cm = common_attn_metadata
             attn_metadata = attn_group.get_metadata_builder().build_for_drafting(
diff --git a/vllm/v1/utils.py b/vllm/v1/utils.py
index efbf2daf398..f11c92a805d 100644
--- a/vllm/v1/utils.py
+++ b/vllm/v1/utils.py
@@ -359,7 +359,7 @@ class RustFrontendProcessManager:
         ]
         if stats_update_address is not None:
             cmd.extend(["--coordinator-address", stats_update_address])
-        from vllm.entrypoints.utils import jsonify_non_default_args
+        from vllm.entrypoints.serve.utils.api_utils import jsonify_non_default_args
 
         args_json = json.dumps(
             jsonify_non_default_args(args, exclude={"api_server_count"}),
diff --git a/vllm/v1/worker/gpu/cudagraph_utils.py b/vllm/v1/worker/gpu/cudagraph_utils.py
index 0648de29859..dff6047ecb2 100644
--- a/vllm/v1/worker/gpu/cudagraph_utils.py
+++ b/vllm/v1/worker/gpu/cudagraph_utils.py
@@ -3,7 +3,7 @@
 from collections import defaultdict
 from collections.abc import Callable
 from dataclasses import dataclass
-from typing import Any, NamedTuple
+from typing import Any, NamedTuple, Protocol
 
 import torch
 import torch.nn as nn
@@ -37,11 +37,16 @@ from vllm.v1.worker.utils import AttentionGroup
 logger = init_logger(__name__)
 
 
-class CapturedAttentionState(NamedTuple):
+class AttentionState(NamedTuple):
     attn_metadata: dict[str, Any] | None
     slot_mappings: dict[str, torch.Tensor]
 
 
+class AttentionStatePair(NamedTuple):
+    warmup: AttentionState
+    captured: AttentionState
+
+
 @dataclass(frozen=True)
 class BatchExecutionDescriptor:
     """Describes the shape of the batch and CG mode to run; this is used to make shape
@@ -53,6 +58,18 @@ class BatchExecutionDescriptor:
     uniform_token_count: int | None = None
 
 
+class CreateForwardFn(Protocol):
+    """Factory that prepares inputs (OUTSIDE the graph) and returns a tuple of
+    (forward_fn, attn_state). Called with warmup=True for the warmup pass and
+    warmup=False for the captured pass."""
+
+    def __call__(
+        self,
+        desc: BatchExecutionDescriptor,
+        warmup: bool,
+    ) -> tuple[Callable[[CUDAGraphMode], None], AttentionState]: ...
+
+
 def _is_compatible(
     desc: BatchExecutionDescriptor,
     num_reqs: int,
@@ -198,21 +215,21 @@ class CudaGraphManager:
     @torch.inference_mode()
     def capture(
         self,
-        create_forward_fn: Callable[
-            [BatchExecutionDescriptor],
-            tuple[Callable[[CUDAGraphMode], None], CapturedAttentionState],
-        ],
+        create_forward_fn: CreateForwardFn,
         progress_bar_desc: str = "Capturing CUDA graphs",
-    ) -> dict[BatchExecutionDescriptor, CapturedAttentionState]:
+    ) -> dict[BatchExecutionDescriptor, AttentionStatePair]:
         """Capture CUDA graphs.
 
         Args:
             create_forward_fn: Factory that prepares inputs (OUTSIDE graph) and
-                returns a tuple of (forward_fn, captured_attn_state).
+                returns a tuple of (forward_fn, attn_state). For FULL cudagraph
+                mode, it is invoked once with warmup=True for the warmup pass,
+                and again with warmup=False for the captured pass. For attention
+                backends that perform lazy metadata initialization (e.g. FlashMLA),
+                FULL cudagraph capture requires distinct metadatas for warmup and
+                capture.
         """
-        captured_attn_states: dict[
-            BatchExecutionDescriptor, CapturedAttentionState
-        ] = {}
+        attn_states: dict[BatchExecutionDescriptor, AttentionStatePair] = {}
         with graph_capture(device=self.device):
             # Capture in order: PIECEWISE first, then FULL. PIECEWISE has larger
             # activations so FULL activations should fit in already allocated
@@ -226,7 +243,7 @@ class CudaGraphManager:
                     descs = tqdm(descs, desc=f"{progress_bar_desc} ({mode.name})")
                 for desc in descs:
                     # Prepare inputs and get forward function
-                    forward_fn, attn_state = create_forward_fn(desc)
+                    forward_fn, warmup_attn_state = create_forward_fn(desc, warmup=True)
 
                     # Warmup
                     forward_fn(CUDAGraphMode.NONE)
@@ -236,15 +253,18 @@ class CudaGraphManager:
                         "CG Capture: mode=%s, batch_desc=%s", desc.cg_mode.name, desc
                     )
                     if desc.cg_mode == CUDAGraphMode.PIECEWISE:
-                        captured_attn_states[desc] = attn_state
+                        attn_states[desc] = AttentionStatePair(
+                            warmup_attn_state, warmup_attn_state
+                        )
                         forward_fn(CUDAGraphMode.PIECEWISE)
                     else:
-                        # Capture with fresh attention state. The warmup
-                        # attention state is discarded because some backends
-                        # (e.g. FlashMLA) perform lazy initializations that
-                        # must be captured in the graph.
-                        forward_fn, attn_state = create_forward_fn(desc)
-                        captured_attn_states[desc] = attn_state
+                        # Capture with fresh attention state.
+                        forward_fn, capture_attn_state = create_forward_fn(
+                            desc, warmup=False
+                        )
+                        attn_states[desc] = AttentionStatePair(
+                            warmup_attn_state, capture_attn_state
+                        )
                         assert desc not in self.graphs, (
                             f"Graph already captured for {desc}"
                         )
@@ -262,7 +282,7 @@ class CudaGraphManager:
                         self.graphs[desc] = graph
                         compilation_counter.num_cudagraph_captured += 1
         self._graphs_captured = True
-        return captured_attn_states
+        return attn_states
 
     def dispatch(
         self,
@@ -337,7 +357,7 @@ class ModelCudaGraphManager(CudaGraphManager):
         has_lora: bool = False,
         use_aux_hidden_state_outputs: bool = False,
         progress_bar_desc: str = "Capturing CUDA graphs",
-    ) -> dict[BatchExecutionDescriptor, CapturedAttentionState]:
+    ) -> dict[BatchExecutionDescriptor, AttentionStatePair]:
         """Capture CUDA graphs for model forward pass."""
         self.use_aux_hidden_state_outputs = use_aux_hidden_state_outputs
         if self.use_breakable_cg:
@@ -345,9 +365,10 @@ class ModelCudaGraphManager(CudaGraphManager):
 
         def create_forward_fn(
             desc: BatchExecutionDescriptor,
+            warmup: bool,
         ) -> tuple[
             Callable[[CUDAGraphMode], None],
-            CapturedAttentionState,
+            AttentionState,
         ]:
             num_tokens = desc.num_tokens
             num_reqs = desc.num_reqs or min(num_tokens, self.max_num_reqs)
@@ -435,7 +456,7 @@ class ModelCudaGraphManager(CudaGraphManager):
                     for k, v in intermediate_tensors.tensors.items():
                         self.intermediate_tensors[k][:num_tokens] = v
 
-            return forward_fn, CapturedAttentionState(attn_metadata, slot_mappings)
+            return forward_fn, AttentionState(attn_metadata, slot_mappings)
 
         return super().capture(create_forward_fn, progress_bar_desc)
 
@@ -464,7 +485,7 @@ def prepare_inputs_to_capture(
     attn_groups: list[list[AttentionGroup]],
     kv_cache_config: KVCacheConfig,
     skip_attn: bool = False,
-) -> CapturedAttentionState:
+) -> AttentionState:
     input_batch = InputBatch.make_dummy(num_reqs, num_tokens, input_buffers)
     input_block_tables = block_tables.get_dummy_block_tables(num_reqs)
     slot_mappings = block_tables.get_dummy_slot_mappings(num_tokens)
@@ -495,4 +516,4 @@ def prepare_inputs_to_capture(
             kv_cache_config,
             for_capture=True,
         )
-    return CapturedAttentionState(attn_metadata, slot_mappings_by_layer)
+    return AttentionState(attn_metadata, slot_mappings_by_layer)
diff --git a/vllm/v1/worker/gpu/model_runner.py b/vllm/v1/worker/gpu/model_runner.py
index 2e3133822fd..367147b0b4d 100644
--- a/vllm/v1/worker/gpu/model_runner.py
+++ b/vllm/v1/worker/gpu/model_runner.py
@@ -103,6 +103,7 @@ from vllm.v1.worker.gpu.spec_decode.eagle.eagle3_utils import (
     set_eagle3_aux_hidden_state_layers,
 )
 from vllm.v1.worker.gpu.spec_decode.rejection_sampler import RejectionSampler
+from vllm.v1.worker.gpu.spec_decode.speculator import DraftModelSpeculator
 from vllm.v1.worker.gpu.spec_decode.utils import DraftTokensHandler
 from vllm.v1.worker.gpu.states import RequestState
 from vllm.v1.worker.gpu.structured_outputs import StructuredOutputsWorker
@@ -307,7 +308,7 @@ class GPUModelRunner(LoRAModelRunnerMixin):
             if self.use_aux_hidden_state_outputs:
                 assert self.speculative_config is not None
                 set_eagle3_aux_hidden_state_layers(self.model, self.speculative_config)
-            if self.speculator is not None:
+            if isinstance(self.speculator, DraftModelSpeculator):
                 self.speculator.load_model(self.model)
                 eplb_models_added = self.eplb.maybe_register_speculator(
                     self.speculator, self.speculative_config, load_dummy_weights
@@ -457,7 +458,7 @@ class GPUModelRunner(LoRAModelRunnerMixin):
             self.speculator.init_cudagraph_manager(cudagraph_mode)
 
         check_attention_cp_compatibility(self.vllm_config)
-        if self.speculator is not None:
+        if isinstance(self.speculator, DraftModelSpeculator):
             # HACK(woosuk)
             self.speculator.set_attn(
                 self.model_state, self.kv_cache_config, self.block_tables
@@ -678,7 +679,7 @@ class GPUModelRunner(LoRAModelRunnerMixin):
         start_free_gpu_memory = torch.cuda.mem_get_info()[0]
 
         with self.maybe_setup_dummy_loras(self.lora_config):
-            captured_attn_states = self.cudagraph_manager.capture(
+            attn_states = self.cudagraph_manager.capture(
                 self.model,
                 self.model_state,
                 self.input_buffers,
@@ -690,7 +691,7 @@ class GPUModelRunner(LoRAModelRunnerMixin):
                 use_aux_hidden_state_outputs=self.use_aux_hidden_state_outputs,
             )
             if self.speculator is not None:
-                self.speculator.capture(captured_attn_states)
+                self.speculator.capture(attn_states)
 
         end_time = time.perf_counter()
         end_free_gpu_memory = torch.cuda.mem_get_info()[0]
diff --git a/vllm/v1/worker/gpu/spec_decode/__init__.py b/vllm/v1/worker/gpu/spec_decode/__init__.py
index 536b7526bdd..bafb28c5cc3 100644
--- a/vllm/v1/worker/gpu/spec_decode/__init__.py
+++ b/vllm/v1/worker/gpu/spec_decode/__init__.py
@@ -8,8 +8,21 @@ from vllm.config import VllmConfig
 def init_speculator(vllm_config: VllmConfig, device: torch.device):
     speculative_config = vllm_config.speculative_config
     assert speculative_config is not None
-    if speculative_config.use_eagle():
-        from vllm.v1.worker.gpu.spec_decode.eagle.speculator import EagleSpeculator
+    if speculative_config.use_gemma4_mtp():
+        from vllm.v1.worker.gpu.spec_decode.gemma4.speculator import (
+            Gemma4Speculator,
+        )
+
+        return Gemma4Speculator(vllm_config, device)
+    elif speculative_config.method == "mtp":
+        from vllm.v1.worker.gpu.spec_decode.mtp.speculator import MTPSpeculator
+
+        return MTPSpeculator(vllm_config, device)
+    elif speculative_config.use_eagle():
+        from vllm.v1.worker.gpu.spec_decode.eagle.speculator import (
+            EagleSpeculator,
+        )
 
         return EagleSpeculator(vllm_config, device)
-    raise NotImplementedError(f"{speculative_config.method} is not supported yet.")
+    else:
+        raise NotImplementedError(f"{speculative_config.method} is not supported yet.")
diff --git a/vllm/v1/worker/gpu/spec_decode/autoregressive/__init__.py b/vllm/v1/worker/gpu/spec_decode/autoregressive/__init__.py
new file mode 100644
index 00000000000..208f01a7cb5
--- /dev/null
+++ b/vllm/v1/worker/gpu/spec_decode/autoregressive/__init__.py
@@ -0,0 +1,2 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
diff --git a/vllm/v1/worker/gpu/spec_decode/eagle/cudagraph.py b/vllm/v1/worker/gpu/spec_decode/autoregressive/cudagraph_utils.py
similarity index 81%
rename from vllm/v1/worker/gpu/spec_decode/eagle/cudagraph.py
rename to vllm/v1/worker/gpu/spec_decode/autoregressive/cudagraph_utils.py
index 300a57ec705..15ab7430c9b 100644
--- a/vllm/v1/worker/gpu/spec_decode/eagle/cudagraph.py
+++ b/vllm/v1/worker/gpu/spec_decode/autoregressive/cudagraph_utils.py
@@ -8,8 +8,9 @@ from vllm.config.compilation import CUDAGraphMode
 from vllm.v1.kv_cache_interface import KVCacheConfig
 from vllm.v1.worker.gpu.block_table import BlockTables
 from vllm.v1.worker.gpu.cudagraph_utils import (
+    AttentionState,
+    AttentionStatePair,
     BatchExecutionDescriptor,
-    CapturedAttentionState,
     CudaGraphManager,
     prepare_inputs_to_capture,
 )
@@ -18,19 +19,20 @@ from vllm.v1.worker.gpu.model_states.interface import ModelState
 from vllm.v1.worker.utils import AttentionGroup
 
 
-class PrefillEagleCudaGraphManager(CudaGraphManager):
-    """Eagle CudaGraphManager for prefill, using pre-built attention states
+class PrefillSpeculatorCudaGraphManager(CudaGraphManager):
+    """CudaGraphManager for draft prefill, using pre-built attention states
     from the target model's capture."""
 
     def capture(
         self,
         forward_fn: Callable,
-        full_cg_attn_states: dict[BatchExecutionDescriptor, CapturedAttentionState],
+        attn_states: dict[BatchExecutionDescriptor, AttentionStatePair],
         progress_bar_desc: str = "Capturing CUDA graphs",
     ) -> None:
         def create_forward_fn(
             desc: BatchExecutionDescriptor,
-        ) -> tuple[Callable[[CUDAGraphMode], None], CapturedAttentionState]:
+            warmup: bool,
+        ) -> tuple[Callable[[CUDAGraphMode], None], AttentionState]:
             num_tokens = desc.num_tokens
             num_reqs = desc.num_reqs or min(num_tokens, self.max_num_reqs)
             num_tokens_across_dp = (
@@ -38,7 +40,8 @@ class PrefillEagleCudaGraphManager(CudaGraphManager):
                 if self.dp_size > 1
                 else None
             )
-            attn_state = full_cg_attn_states[desc]
+            attn_state_pair = attn_states[desc]
+            attn_state = attn_state_pair.warmup if warmup else attn_state_pair.captured
             attn_metadata, slot_mappings = attn_state
             fwd = lambda cg_mode: forward_fn(
                 num_reqs,
@@ -53,9 +56,8 @@ class PrefillEagleCudaGraphManager(CudaGraphManager):
         super().capture(create_forward_fn, progress_bar_desc)
 
 
-class DecodeEagleCudaGraphManager(CudaGraphManager):
-    """Eagle CudaGraphManager for decode draft generation, building its own
-    attention metadata from scratch."""
+class DecodeSpeculatorCudaGraphManager(CudaGraphManager):
+    """CudaGraphManager for draft decode, building its own attention metadata."""
 
     def capture(
         self,
@@ -69,7 +71,8 @@ class DecodeEagleCudaGraphManager(CudaGraphManager):
     ) -> None:
         def create_forward_fn(
             desc: BatchExecutionDescriptor,
-        ) -> tuple[Callable[[CUDAGraphMode], None], CapturedAttentionState]:
+            warmup: bool,
+        ) -> tuple[Callable[[CUDAGraphMode], None], AttentionState]:
             num_tokens = desc.num_tokens
             num_reqs = desc.num_reqs or min(num_tokens, self.max_num_reqs)
             num_tokens_across_dp = (
diff --git a/vllm/v1/worker/gpu/spec_decode/autoregressive/speculator.py b/vllm/v1/worker/gpu/spec_decode/autoregressive/speculator.py
new file mode 100644
index 00000000000..868540437b2
--- /dev/null
+++ b/vllm/v1/worker/gpu/spec_decode/autoregressive/speculator.py
@@ -0,0 +1,795 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from typing import Any
+
+import torch
+
+from vllm.config import VllmConfig
+from vllm.config.compilation import CUDAGraphMode
+from vllm.forward_context import BatchDescriptor, set_forward_context
+from vllm.logger import init_logger
+from vllm.multimodal import MULTIMODAL_REGISTRY
+from vllm.triton_utils import tl, triton
+from vllm.v1.worker.gpu.attn_utils import build_slot_mappings_by_layer
+from vllm.v1.worker.gpu.cudagraph_utils import (
+    AttentionStatePair,
+    BatchExecutionDescriptor,
+    get_uniform_token_count,
+)
+from vllm.v1.worker.gpu.dp_utils import dispatch_cg_and_sync_dp
+from vllm.v1.worker.gpu.input_batch import InputBatch, InputBuffers
+from vllm.v1.worker.gpu.sample.gumbel import gumbel_sample
+from vllm.v1.worker.gpu.spec_decode.autoregressive.cudagraph_utils import (
+    DecodeSpeculatorCudaGraphManager,
+    PrefillSpeculatorCudaGraphManager,
+)
+from vllm.v1.worker.gpu.spec_decode.speculator import DraftModelSpeculator
+
+logger = init_logger(__name__)
+
+
+class AutoRegressiveSpeculator(DraftModelSpeculator):
+    def __init__(self, vllm_config: VllmConfig, device: torch.device):
+        super().__init__(vllm_config, device)
+
+        self.hidden_states = torch.zeros(
+            self.max_num_tokens, self.hidden_size, dtype=self.dtype, device=device
+        )
+        self.current_draft_step = torch.tensor(0, dtype=torch.int64, device=device)
+        self.last_token_indices = torch.zeros(
+            self.max_num_reqs, dtype=torch.int64, device=device
+        )
+
+        self.supports_mm_inputs = MULTIMODAL_REGISTRY.supports_multimodal_inputs(
+            self.draft_model_config
+        )
+        if self.supports_mm_inputs:
+            self.inputs_embeds = torch.zeros(
+                self.max_num_tokens, self.hidden_size, dtype=self.dtype, device=device
+            )
+
+        self.prefill_cudagraph_manager: PrefillSpeculatorCudaGraphManager | None = None
+        self.decode_cudagraph_manager: DecodeSpeculatorCudaGraphManager | None = None
+
+    @property
+    def advance_draft_positions(self) -> bool:
+        """
+        Whether to increment positions and seq_lens between draft steps.
+
+        True for Eagle/standard MTP (each step produces new KV).
+        False for Gemma4 MTP (Q-only, shares target KV, constant positions).
+        """
+        return True
+
+    @property
+    def model_returns_tuple(self) -> bool:
+        """
+        Whether the draft model's forward() returns a tuple.
+
+        True: returns (last_hidden_states, hidden_states) — Eagle, Gemma4 MTP.
+        False: returns a single tensor used for both — standard MTP (DeepSeek).
+        """
+        return True
+
+    def init_cudagraph_manager(self, cudagraph_mode: CUDAGraphMode) -> None:
+        # Initialize cudagraph manager for draft prefill (draft position 0).
+        self.prefill_cudagraph_manager = PrefillSpeculatorCudaGraphManager(
+            self.vllm_config,
+            self.device,
+            cudagraph_mode,
+            self.num_speculative_steps + 1,
+        )
+
+        # PIECEWISE cudagraphs are not supported for draft decodes.
+        if cudagraph_mode.decode_mode() == CUDAGraphMode.FULL:
+            cudagraph_mode = CUDAGraphMode.FULL_DECODE_ONLY
+        else:
+            cudagraph_mode = CUDAGraphMode.NONE
+
+        # Initialize cudagraph manager for draft decodes (draft positions > 0).
+        self.decode_cudagraph_manager = DecodeSpeculatorCudaGraphManager(
+            self.vllm_config,
+            self.device,
+            cudagraph_mode,
+            decode_query_len=1,
+        )
+
+    def capture(
+        self,
+        attn_states: dict[BatchExecutionDescriptor, AttentionStatePair],
+    ) -> None:
+        logger.info("Capturing model for speculator...")
+        # Reset indices to zeros to prevent stale values from prior
+        # dummy runs to cause out-of-bounds indexing during capture.
+        self.last_token_indices.zero_()
+
+        # Capture the prefill routine (model forward + compute_logits +
+        # sample).
+        # For FULL graphs, the entire routine is recorded as one graph.
+        # For PIECEWISE, only the model's compiled regions are captured
+        # and the rest (compute_logits, gumbel_sample) runs eagerly.
+        assert self.prefill_cudagraph_manager is not None
+        if self.prefill_cudagraph_manager.use_breakable_cg:
+            self.prefill_cudagraph_manager.init_breakable_cg_runner(self.model)
+        self.prefill_cudagraph_manager.capture(
+            self._prefill,
+            attn_states,
+            progress_bar_desc="Capturing prefill CUDA graphs",
+        )
+
+        if self.num_speculative_steps == 1:
+            return
+
+        # Capture the decode draft generation routine (model forward +
+        # sample + update_draft_inputs) for a single
+        # step.
+        assert self.decode_cudagraph_manager is not None
+        self.decode_cudagraph_manager.capture(
+            self._generate_draft,
+            self.model_state,
+            self.input_buffers,
+            self.block_tables,
+            self.attn_groups,
+            self.kv_cache_config,
+            progress_bar_desc="Capturing decode CUDA graphs",
+        )
+
+    @torch.inference_mode()
+    def propose(
+        self,
+        input_batch: InputBatch,
+        attn_metadata: dict[str, Any],
+        slot_mappings: dict[str, torch.Tensor],
+        # [num_tokens, hidden_size]
+        last_hidden_states: torch.Tensor,
+        # num_layers x [num_tokens, hidden_size]
+        aux_hidden_states: list[torch.Tensor] | None,
+        # [num_reqs]
+        num_sampled: torch.Tensor,
+        # [num_reqs]
+        num_rejected: torch.Tensor,
+        # [max_num_reqs]
+        last_sampled: torch.Tensor,
+        # [max_num_reqs]
+        next_prefill_tokens: torch.Tensor,
+        # [max_num_reqs]
+        temperature: torch.Tensor,
+        # [max_num_reqs]
+        seeds: torch.Tensor,
+        num_tokens_across_dp: torch.Tensor | None = None,
+        dummy_run: bool = False,
+        skip_attn_for_dummy_run: bool = False,
+        mm_inputs: tuple[list[torch.Tensor], torch.Tensor] | None = None,
+        is_profile: bool = False,
+    ) -> torch.Tensor:
+        num_tokens = input_batch.num_tokens_after_padding
+        num_reqs = input_batch.num_reqs
+        max_query_len = input_batch.num_scheduled_tokens.max()
+        max_seq_len = input_batch.seq_lens_cpu_upper_bound[:num_reqs].max().item()
+        self.draft_max_seq_len = min(
+            max_seq_len + self.num_speculative_steps, self.max_model_len
+        )
+
+        # NOTE(woosuk): To avoid CPU-GPU synchronization without CPU knowing the
+        # number of rejected tokens, we maintain the size of input_ids and
+        # hidden_states the same as the target model's. This means, we pad each
+        # request's query length to include any rejected positions. By doing so,
+        # we can also reuse the attention metadata (e.g., query_start_loc,
+        # seq_lens) of the target model.
+        if aux_hidden_states:
+            assert self.method == "eagle3"
+            hidden_states = self.model.combine_hidden_states(
+                torch.cat(aux_hidden_states, dim=-1)
+            )
+        else:
+            hidden_states = last_hidden_states
+        self.hidden_states[:num_tokens].copy_(hidden_states)
+
+        self._copy_request_inputs(
+            num_reqs,
+            input_batch.idx_mapping,
+            temperature,
+            seeds,
+        )
+
+        # Get the input ids and last token indices for the speculator.
+        prepare_prefill_inputs(
+            self.last_token_indices,
+            self.current_draft_step,
+            self.input_buffers,
+            input_batch,
+            num_sampled,
+            num_rejected,
+            last_sampled,
+            next_prefill_tokens,
+            self.max_num_reqs,
+        )
+
+        # When all requests are decoding (no true prefills), each has
+        # num_speculative_steps + 1 tokens, enabling FULL graph replay.
+        uniform_token_count = get_uniform_token_count(
+            num_reqs,
+            # Use the actual number of tokens without padding added by
+            # the target model during FULL cudagraph.
+            input_batch.num_tokens,
+            max_query_len,
+        )
+        prefill_batch_desc, num_tokens_across_dp = dispatch_cg_and_sync_dp(
+            self.prefill_cudagraph_manager,
+            num_reqs,
+            num_tokens,
+            uniform_token_count,
+            dp_size=self.dp_size,
+            dp_rank=self.dp_rank,
+            need_eager=is_profile,
+        )
+
+        if prefill_batch_desc.cg_mode == CUDAGraphMode.FULL:
+            # Replay the full graph for draft prefill.
+            assert self.prefill_cudagraph_manager is not None
+            self.prefill_cudagraph_manager.run_fullgraph(prefill_batch_desc)
+        else:
+            # The target model's attention metadata and slot mappings
+            # can directly be used for draft prefill, because of the
+            # identical batch shape and KV cache layout.
+            self._prefill(
+                num_reqs,
+                prefill_batch_desc.num_tokens,
+                attn_metadata,
+                slot_mappings,
+                num_tokens_across_dp=num_tokens_across_dp,
+                cudagraph_runtime_mode=prefill_batch_desc.cg_mode,
+                mm_inputs=mm_inputs,
+            )
+
+        if self.num_speculative_steps == 1:
+            # Early exit.
+            return self.draft_tokens[:num_reqs, :1]
+
+        # Prepare the inputs for the decode steps.
+        prepare_decode_inputs(
+            self.draft_tokens[:num_reqs, 0],
+            input_batch.seq_lens,
+            num_rejected,
+            self.input_buffers,
+            self.max_model_len,
+            self.max_num_reqs,
+            advance_draft_positions=self.advance_draft_positions,
+        )
+
+        # Each request produces exactly 1 token per draft generation step,
+        # enabling FULL graph replay.
+        decode_batch_desc, num_tokens_across_dp = dispatch_cg_and_sync_dp(
+            self.decode_cudagraph_manager,
+            num_reqs,
+            num_reqs,
+            uniform_token_count=1,
+            dp_size=self.dp_size,
+            dp_rank=self.dp_rank,
+            need_eager=is_profile,
+        )
+
+        # Generate the remaining num_speculative_steps - 1 draft tokens.
+        self._multi_step_decode(
+            num_reqs,
+            dummy_run and skip_attn_for_dummy_run,
+            decode_batch_desc,
+            num_tokens_across_dp,
+        )
+
+        return self.draft_tokens[:num_reqs]
+
+    def sample_draft(
+        self,
+        hidden_states: torch.Tensor,
+        positions: torch.Tensor,
+        idx_mapping: torch.Tensor,
+        temperature: torch.Tensor,
+        seeds: torch.Tensor,
+        draft_step: torch.Tensor,
+        draft_logits: torch.Tensor | None,
+    ) -> torch.Tensor:
+        logits = self.model.compute_logits(hidden_states)
+        if draft_logits is not None:
+            # NOTE(woosuk): We must add 1 to the positions to match the Gumbel noise
+            # used for draft and target sampling.
+            return gumbel_sample(
+                logits,
+                idx_mapping,
+                temperature,
+                seeds,
+                positions + 1,
+                apply_temperature=True,
+                output_processed_logits=draft_logits,
+                output_processed_logits_col=draft_step,
+                use_fp64=self.use_fp64_gumbel,
+            )
+        else:
+            return logits.argmax(dim=-1)
+
+    @torch.inference_mode()
+    def _run_model(
+        self,
+        num_tokens: int,
+        attn_metadata: dict[str, Any] | None,
+        slot_mappings: dict[str, torch.Tensor] | None,
+        num_tokens_across_dp: torch.Tensor | None,
+        cudagraph_runtime_mode: CUDAGraphMode = CUDAGraphMode.NONE,
+        mm_inputs: tuple[list[torch.Tensor], torch.Tensor] | None = None,
+    ) -> tuple[torch.Tensor, torch.Tensor]:
+        batch_descriptor = BatchDescriptor(num_tokens=num_tokens)
+        with set_forward_context(
+            attn_metadata,
+            self.vllm_config,
+            num_tokens=num_tokens,
+            cudagraph_runtime_mode=cudagraph_runtime_mode,
+            num_tokens_across_dp=num_tokens_across_dp,
+            slot_mapping=slot_mappings,
+            batch_descriptor=batch_descriptor,
+        ):
+            inputs_embeds = None
+            if self.supports_mm_inputs:
+                # Merge multimodal embeddings with input ids.
+                mm_embeds, is_mm_embed = mm_inputs or (None, None)
+                num_input_tokens = (
+                    is_mm_embed.shape[0] if is_mm_embed is not None else num_tokens
+                )
+                self.inputs_embeds[:num_input_tokens] = self.model.embed_input_ids(
+                    self.input_buffers.input_ids[:num_input_tokens],
+                    multimodal_embeddings=mm_embeds,
+                    is_multimodal=is_mm_embed,
+                )
+                inputs_embeds = self.inputs_embeds[:num_tokens]
+
+            model_inputs = dict(
+                input_ids=self.input_buffers.input_ids[:num_tokens],
+                positions=self.input_buffers.positions[:num_tokens],
+                hidden_states=self.hidden_states[:num_tokens],
+                inputs_embeds=inputs_embeds,
+            )
+            if cudagraph_runtime_mode == CUDAGraphMode.PIECEWISE:
+                # Draft prefill with PIECEWISE cudagraph (compiled PW or breakable),
+                # chosen inside run_pw_graph.
+                assert self.prefill_cudagraph_manager is not None
+                ret_hidden_states = self.prefill_cudagraph_manager.run_pw_graph(
+                    self.model, model_inputs
+                )
+            else:
+                # Eager (NONE): call the raw model directly.
+                ret_hidden_states = self.model(**model_inputs)
+        if self.model_returns_tuple:
+            last_hidden_states, hidden_states = ret_hidden_states
+        else:
+            last_hidden_states = ret_hidden_states
+            hidden_states = ret_hidden_states
+        return last_hidden_states, hidden_states
+
+    def _prefill(
+        self,
+        num_reqs: int,
+        num_tokens: int,
+        attn_metadata: dict[str, Any] | None,
+        slot_mappings: dict[str, torch.Tensor] | None,
+        num_tokens_across_dp: torch.Tensor | None,
+        cudagraph_runtime_mode: CUDAGraphMode = CUDAGraphMode.NONE,
+        mm_inputs: tuple[list[torch.Tensor], torch.Tensor] | None = None,
+    ) -> None:
+        last_token_indices = self.last_token_indices[:num_reqs]
+        positions = self.input_buffers.positions[last_token_indices]
+        idx_mapping = self.idx_mapping[:num_reqs]
+
+        last_hidden_states, hidden_states = self._run_model(
+            num_tokens,
+            attn_metadata,
+            slot_mappings,
+            num_tokens_across_dp=num_tokens_across_dp,
+            cudagraph_runtime_mode=cudagraph_runtime_mode,
+            mm_inputs=mm_inputs,
+        )
+        sample_hidden_states = last_hidden_states[last_token_indices]
+
+        self.draft_tokens[:num_reqs, 0] = self.sample_draft(
+            sample_hidden_states,
+            positions,
+            idx_mapping,
+            self.temperature,
+            self.seeds,
+            self.current_draft_step,
+            self.draft_logits,
+        )
+        self.hidden_states[:num_reqs] = hidden_states[last_token_indices]
+        self.input_buffers.positions[:num_reqs] = positions
+
+    def _multi_step_decode(
+        self,
+        num_reqs: int,
+        skip_attn: bool,
+        batch_desc: BatchExecutionDescriptor,
+        num_tokens_across_dp: torch.Tensor | None,
+    ) -> None:
+        positions = self.input_buffers.positions[:num_reqs]
+        query_start_loc = self.input_buffers.query_start_loc[: num_reqs + 1]
+        idx_mapping = self.idx_mapping[:num_reqs]
+
+        attn_metadata = None
+        slot_mappings_by_layer = None
+        for step in range(1, self.num_speculative_steps):
+            # Rebuild every step when positions advance, or just once
+            # on the first step when positions are constant (Gemma4 MTP).
+            if not skip_attn and (self.advance_draft_positions or step == 1):
+                slot_mappings = self.block_tables.compute_slot_mappings(
+                    idx_mapping,
+                    query_start_loc,
+                    positions,
+                    batch_desc.num_tokens,
+                )
+                slot_mappings_by_layer = build_slot_mappings_by_layer(
+                    slot_mappings, self.kv_cache_config
+                )
+                attn_metadata = self._build_draft_attn_metadata(
+                    num_reqs=num_reqs,
+                    num_reqs_padded=batch_desc.num_reqs or num_reqs,
+                    num_tokens_padded=batch_desc.num_tokens,
+                )
+
+            # Update the current draft step.
+            self.current_draft_step.fill_(step)
+
+            # Generate draft tokens for the current step.
+            if batch_desc.cg_mode == CUDAGraphMode.FULL:
+                assert self.decode_cudagraph_manager is not None
+                self.decode_cudagraph_manager.run_fullgraph(batch_desc)
+            else:
+                self._generate_draft(
+                    num_reqs,
+                    batch_desc.num_tokens,
+                    attn_metadata,
+                    slot_mappings_by_layer,
+                    num_tokens_across_dp=num_tokens_across_dp,
+                    cudagraph_runtime_mode=batch_desc.cg_mode,
+                )
+
+    def _generate_draft(
+        self,
+        num_reqs: int,
+        num_tokens_padded: int,
+        attn_metadata: dict[str, Any] | None,
+        slot_mappings: dict[str, torch.Tensor] | None,
+        num_tokens_across_dp: torch.Tensor | None,
+        cudagraph_runtime_mode: CUDAGraphMode = CUDAGraphMode.NONE,
+    ) -> None:
+        idx_mapping = self.idx_mapping[:num_reqs]
+        positions = self.input_buffers.positions[:num_reqs]
+        # Run the draft model forward pass.
+        last_hidden_states, hidden_states = self._run_model(
+            num_tokens_padded,
+            attn_metadata,
+            slot_mappings,
+            num_tokens_across_dp,
+            cudagraph_runtime_mode,
+        )
+        last_hidden_states = last_hidden_states[:num_reqs]
+
+        # Sample the draft tokens.
+        draft_tokens = self.sample_draft(
+            last_hidden_states,
+            positions,
+            idx_mapping,
+            self.temperature,
+            self.seeds,
+            self.current_draft_step,
+            self.draft_logits,
+        )
+
+        # Update the inputs for the next step.
+        update_draft_inputs(
+            draft_tokens,
+            self.current_draft_step,
+            hidden_states,
+            self.draft_tokens,
+            self.hidden_states,
+            self.input_buffers,
+            num_reqs,
+            self.max_model_len,
+            self.num_speculative_steps,
+            advance_draft_positions=self.advance_draft_positions,
+        )
+
+
+@triton.jit
+def _prepare_prefill_inputs_kernel(
+    last_token_indices_ptr,
+    draft_current_step_ptr,
+    draft_input_ids_ptr,
+    draft_positions_ptr,
+    draft_query_start_loc_ptr,
+    draft_seq_lens_ptr,
+    target_input_ids_ptr,
+    target_positions_ptr,
+    idx_mapping_ptr,
+    last_sampled_ptr,
+    next_prefill_tokens_ptr,
+    num_sampled_ptr,
+    num_rejected_ptr,
+    query_start_loc_ptr,
+    seq_lens_ptr,
+    max_num_reqs,
+    BLOCK_SIZE: tl.constexpr,
+):
+    req_idx = tl.program_id(0)
+    num_reqs = tl.num_programs(0)
+    req_state_idx = tl.load(idx_mapping_ptr + req_idx)
+
+    query_start = tl.load(query_start_loc_ptr + req_idx)
+    query_end = tl.load(query_start_loc_ptr + req_idx + 1)
+    query_len = query_end - query_start
+    seq_len = tl.load(seq_lens_ptr + req_idx)
+
+    # Get the true query length and next token after accounting for rejected tokens.
+    num_rejected = tl.load(num_rejected_ptr + req_idx)
+    query_len -= num_rejected
+
+    num_sampled = tl.load(num_sampled_ptr + req_idx)
+    if num_sampled > 0:
+        next_token = tl.load(last_sampled_ptr + req_state_idx).to(tl.int32)
+    else:
+        # Chunked prefilling.
+        # Get the next prefill token.
+        next_token = tl.load(next_prefill_tokens_ptr + req_state_idx)
+
+    # Shift target_input_ids by one.
+    for i in range(1, query_len, BLOCK_SIZE):
+        block = i + tl.arange(0, BLOCK_SIZE)
+        mask = block < query_len
+        input_ids = tl.load(target_input_ids_ptr + query_start + block, mask=mask)
+        tl.store(draft_input_ids_ptr + query_start + block - 1, input_ids, mask=mask)
+
+    last_token_index = query_start + query_len - 1
+    tl.store(last_token_indices_ptr + req_idx, last_token_index)
+    tl.store(draft_input_ids_ptr + last_token_index, next_token)
+
+    # Copy positions.
+    for i in range(0, query_len, BLOCK_SIZE):
+        block = i + tl.arange(0, BLOCK_SIZE)
+        mask = block < query_len
+        target_pos = tl.load(target_positions_ptr + query_start + block, mask=mask)
+        tl.store(draft_positions_ptr + query_start + block, target_pos, mask=mask)
+
+    # Copy query start locations.
+    tl.store(draft_query_start_loc_ptr + req_idx, query_start)
+    # Copy sequence lengths.
+    tl.store(draft_seq_lens_ptr + req_idx, seq_len)
+    if req_idx == (num_reqs - 1):
+        # Reset the current draft step to 0.
+        tl.store(draft_current_step_ptr, 0)
+        # Pad query_start_loc for CUDA graphs.
+        for i in range(num_reqs, max_num_reqs + 1, BLOCK_SIZE):
+            block = i + tl.arange(0, BLOCK_SIZE)
+            mask = block < max_num_reqs + 1
+            tl.store(draft_query_start_loc_ptr + block, query_end, mask=mask)
+        # Pad seq_lens for CUDA graphs.
+        for i in range(num_reqs, max_num_reqs, BLOCK_SIZE):
+            block = i + tl.arange(0, BLOCK_SIZE)
+            mask = block < max_num_reqs
+            tl.store(draft_seq_lens_ptr + block, 0, mask=mask)
+        # Pad last_token_indices for CUDA graphs.
+        for i in range(num_reqs, max_num_reqs, BLOCK_SIZE):
+            block = i + tl.arange(0, BLOCK_SIZE)
+            mask = block < max_num_reqs
+            tl.store(last_token_indices_ptr + block, 0, mask=mask)
+
+
+def prepare_prefill_inputs(
+    # [num_reqs]
+    last_token_indices: torch.Tensor,
+    current_draft_step: torch.Tensor,
+    input_buffers: InputBuffers,
+    input_batch: InputBatch,
+    # [num_reqs]
+    num_sampled: torch.Tensor,
+    # [num_reqs]
+    num_rejected: torch.Tensor,
+    # [max_num_reqs]
+    last_sampled: torch.Tensor,
+    # [max_num_reqs]
+    next_prefill_tokens: torch.Tensor,
+    max_num_reqs,
+) -> torch.Tensor:
+    num_reqs = input_batch.num_reqs
+    _prepare_prefill_inputs_kernel[(num_reqs,)](
+        last_token_indices,
+        current_draft_step,
+        input_buffers.input_ids,
+        input_buffers.positions,
+        input_buffers.query_start_loc,
+        input_buffers.seq_lens,
+        input_batch.input_ids,
+        input_batch.positions,
+        input_batch.idx_mapping,
+        last_sampled,
+        next_prefill_tokens,
+        num_sampled,
+        num_rejected,
+        input_batch.query_start_loc,
+        input_batch.seq_lens,
+        max_num_reqs,
+        BLOCK_SIZE=1024,
+    )
+    return last_token_indices
+
+
+@triton.jit
+def _prepare_decode_inputs_kernel(
+    draft_tokens_ptr,
+    draft_tokens_stride,
+    target_seq_lens_ptr,
+    num_rejected_ptr,
+    input_ids_ptr,
+    positions_ptr,
+    query_start_loc_ptr,
+    seq_lens_ptr,
+    max_model_len,
+    max_num_reqs,
+    BLOCK_SIZE: tl.constexpr,
+    ADVANCE_DRAFT_POSITIONS: tl.constexpr,
+):
+    req_idx = tl.program_id(0)
+    num_reqs = tl.num_programs(0) - 1
+    if req_idx == num_reqs:
+        # Compute query_start_loc. Pad it with the last query_start_loc
+        # for CUDA graphs.
+        for i in range(0, max_num_reqs + 1, BLOCK_SIZE):
+            block = i + tl.arange(0, BLOCK_SIZE)
+            q = tl.where(block < num_reqs, block, num_reqs)
+            mask = block < max_num_reqs + 1
+            tl.store(query_start_loc_ptr + block, q, mask=mask)
+        # Pad seq_lens for CUDA graphs.
+        for i in range(req_idx, max_num_reqs, BLOCK_SIZE):
+            block = i + tl.arange(0, BLOCK_SIZE)
+            mask = block < max_num_reqs
+            tl.store(seq_lens_ptr + block, 0, mask=mask)
+        return
+
+    # draft token -> input id.
+    draft_token = tl.load(draft_tokens_ptr + req_idx * draft_tokens_stride)
+    tl.store(input_ids_ptr + req_idx, draft_token)
+
+    if ADVANCE_DRAFT_POSITIONS:
+        # Compute position and seq_lens.
+        # NOTE(woosuk): To prevent out-of-range access, we clamp these values
+        # if they reach the max model length.
+        position = tl.load(positions_ptr + req_idx)
+        position = tl.minimum(position + 1, max_model_len - 1)
+        tl.store(positions_ptr + req_idx, position)
+
+        target_seq_len = tl.load(target_seq_lens_ptr + req_idx)
+        num_rejected = tl.load(num_rejected_ptr + req_idx)
+        seq_len = target_seq_len - num_rejected
+        seq_len = tl.minimum(seq_len + 1, max_model_len)
+        tl.store(seq_lens_ptr + req_idx, seq_len)
+
+
+def prepare_decode_inputs(
+    draft_tokens: torch.Tensor,
+    target_seq_lens: torch.Tensor,
+    num_rejected: torch.Tensor,
+    input_buffers: InputBuffers,
+    max_model_len: int,
+    max_num_reqs: int,
+    advance_draft_positions: bool = True,
+):
+    num_reqs = draft_tokens.shape[0]
+    _prepare_decode_inputs_kernel[(num_reqs + 1,)](
+        draft_tokens,
+        draft_tokens.stride(0),
+        target_seq_lens,
+        num_rejected,
+        input_buffers.input_ids,
+        input_buffers.positions,
+        input_buffers.query_start_loc,
+        input_buffers.seq_lens,
+        max_model_len,
+        max_num_reqs,
+        BLOCK_SIZE=1024,
+        ADVANCE_DRAFT_POSITIONS=advance_draft_positions,
+    )
+
+
+@triton.jit
+def _update_draft_inputs_kernel(
+    output_draft_tokens_ptr,
+    output_draft_tokens_stride,
+    next_input_hidden_states_ptr,
+    next_input_hidden_states_stride,
+    input_ids_ptr,
+    positions_ptr,
+    seq_lens_ptr,
+    draft_tokens_ptr,
+    current_draft_step_ptr,
+    hidden_states_ptr,
+    hidden_states_stride,
+    hidden_size,
+    max_model_len,
+    num_speculative_steps,
+    BLOCK_SIZE: tl.constexpr,
+    ADVANCE_DRAFT_POSITIONS: tl.constexpr,
+):
+    req_idx = tl.program_id(0)
+
+    # Write the sampled draft token into self.draft_tokens[req_idx, step].
+    draft_token = tl.load(draft_tokens_ptr + req_idx)
+    step = tl.load(current_draft_step_ptr)
+    tl.store(
+        output_draft_tokens_ptr + req_idx * output_draft_tokens_stride + step,
+        draft_token,
+    )
+
+    if step >= num_speculative_steps - 1:
+        # This is the final step. Skip updating draft forward inputs.
+        return
+
+    # Write the sampled draft token into the input ids tensor for the next
+    # forward pass.
+    tl.store(input_ids_ptr + req_idx, draft_token)
+
+    # Copy hidden states into the input hidden states tensor for the next
+    # forward pass.
+    for i in range(0, hidden_size, BLOCK_SIZE):
+        block = i + tl.arange(0, BLOCK_SIZE)
+        mask = block < hidden_size
+        hidden_states = tl.load(
+            hidden_states_ptr + req_idx * hidden_states_stride + block,
+            mask=mask,
+        )
+        tl.store(
+            next_input_hidden_states_ptr
+            + req_idx * next_input_hidden_states_stride
+            + block,
+            hidden_states,
+            mask=mask,
+        )
+
+    if ADVANCE_DRAFT_POSITIONS:
+        # Increment position and seq_lens.
+        # NOTE(woosuk): To prevent out-of-range access, we clamp these values
+        # if they reach the max model length.
+        position = tl.load(positions_ptr + req_idx)
+        position = tl.minimum(position + 1, max_model_len - 1)
+        tl.store(positions_ptr + req_idx, position)
+
+        seq_len = tl.load(seq_lens_ptr + req_idx)
+        seq_len = tl.minimum(seq_len + 1, max_model_len)
+        tl.store(seq_lens_ptr + req_idx, seq_len)
+
+
+def update_draft_inputs(
+    draft_tokens: torch.Tensor,
+    current_draft_step: torch.Tensor,
+    hidden_states: torch.Tensor,
+    output_draft_tokens: torch.Tensor,
+    next_input_hidden_states: torch.Tensor,
+    input_buffers: InputBuffers,
+    num_reqs: int,
+    max_model_len: int,
+    num_speculative_steps: int,
+    advance_draft_positions: bool = True,
+):
+    _, hidden_size = hidden_states.shape
+    _update_draft_inputs_kernel[(num_reqs,)](
+        output_draft_tokens,
+        output_draft_tokens.stride(0),
+        next_input_hidden_states,
+        next_input_hidden_states.stride(0),
+        input_buffers.input_ids,
+        input_buffers.positions,
+        input_buffers.seq_lens,
+        draft_tokens,
+        current_draft_step,
+        hidden_states,
+        hidden_states.stride(0),
+        hidden_size,
+        max_model_len,
+        num_speculative_steps,
+        BLOCK_SIZE=1024,
+        ADVANCE_DRAFT_POSITIONS=advance_draft_positions,
+    )
diff --git a/vllm/v1/worker/gpu/spec_decode/eagle/speculator.py b/vllm/v1/worker/gpu/spec_decode/eagle/speculator.py
index 1a1ae1f63e9..e878872e622 100644
--- a/vllm/v1/worker/gpu/spec_decode/eagle/speculator.py
+++ b/vllm/v1/worker/gpu/spec_decode/eagle/speculator.py
@@ -1,903 +1,18 @@
 # SPDX-License-Identifier: Apache-2.0
 # SPDX-FileCopyrightText: Copyright contributors to the vLLM project
-from typing import Any
 
-import torch
 import torch.nn as nn
 
-from vllm.config import VllmConfig, get_layers_from_vllm_config
-from vllm.config.compilation import CUDAGraphMode
-from vllm.forward_context import BatchDescriptor, set_forward_context
-from vllm.logger import init_logger
-from vllm.model_executor.layers.attention_layer_base import AttentionLayerBase
-from vllm.multimodal import MULTIMODAL_REGISTRY
-from vllm.triton_utils import tl, triton
-from vllm.v1.kv_cache_interface import KVCacheConfig
-from vllm.v1.worker.gpu.attn_utils import (
-    build_attn_metadata,
-    build_slot_mappings_by_layer,
-    init_attn_backend,
-)
-from vllm.v1.worker.gpu.block_table import BlockTables
-from vllm.v1.worker.gpu.cudagraph_utils import (
-    BatchExecutionDescriptor,
-    CapturedAttentionState,
-    get_uniform_token_count,
-)
-from vllm.v1.worker.gpu.dp_utils import dispatch_cg_and_sync_dp
-from vllm.v1.worker.gpu.input_batch import InputBatch, InputBuffers
-from vllm.v1.worker.gpu.model_states.interface import ModelState
-from vllm.v1.worker.gpu.sample.gumbel import gumbel_sample
-from vllm.v1.worker.gpu.spec_decode.eagle.cudagraph import (
-    DecodeEagleCudaGraphManager,
-    PrefillEagleCudaGraphManager,
+from vllm.v1.worker.gpu.spec_decode.autoregressive.speculator import (
+    AutoRegressiveSpeculator,
 )
 from vllm.v1.worker.gpu.spec_decode.eagle.utils import load_eagle_model
 
-logger = init_logger(__name__)
 
-
-class EagleSpeculator:
-    def __init__(self, vllm_config: VllmConfig, device: torch.device):
-        self.vllm_config = vllm_config
-        self.device = device
-
-        self.speculative_config = vllm_config.speculative_config
-        assert self.speculative_config is not None
-        self.method = self.speculative_config.method
-        self.num_speculative_steps = self.speculative_config.num_speculative_tokens
-        self.draft_model_config = self.speculative_config.draft_model_config
-
-        self.scheduler_config = vllm_config.scheduler_config
-        self.max_num_reqs = self.scheduler_config.max_num_seqs
-        self.max_num_tokens = self.scheduler_config.max_num_batched_tokens
-        self.max_model_len = vllm_config.model_config.max_model_len
-        self.draft_max_seq_len = self.max_model_len
-        # We need to get the hidden size from the draft model config because
-        # the draft model's hidden size can be different from the target model's
-        # hidden size (e.g., Llama 3.3 70B).
-        self.hidden_size = self.draft_model_config.get_hidden_size()
-        # Widen for HC-multiplexed residuals (e.g. DeepSeek V4 feeds the MTP
-        # draft the target's pre-hc_head (T, hc_mult * hidden_size) residual).
-        # Non-HC models default to hc_mult=1 and are unaffected.
-        hc_mult = getattr(self.draft_model_config.hf_config, "hc_mult", 1)
-        self.hidden_size = self.hidden_size * hc_mult
-        self.vocab_size = self.draft_model_config.get_vocab_size()
-        self.dtype = vllm_config.model_config.dtype
-        self.use_fp64_gumbel = vllm_config.model_config.use_fp64_gumbel
-
-        # DP configuration
-        self.dp_size = vllm_config.parallel_config.data_parallel_size
-        self.dp_rank = vllm_config.parallel_config.data_parallel_rank
-
-        self.input_buffers = InputBuffers(
-            max_num_reqs=self.max_num_reqs,
-            max_num_tokens=self.max_num_tokens,
-            device=device,
-        )
-        self.hidden_states = torch.zeros(
-            self.max_num_tokens, self.hidden_size, dtype=self.dtype, device=device
-        )
-        self.idx_mapping = torch.zeros(
-            self.max_num_reqs, dtype=torch.int32, device=device
-        )
-        self.temperature = torch.zeros(
-            self.max_num_reqs, dtype=torch.float32, device=device
-        )
-        self.seeds = torch.zeros(self.max_num_reqs, dtype=torch.int64, device=device)
-        self.draft_tokens = torch.zeros(
-            self.max_num_reqs,
-            self.num_speculative_steps,
-            dtype=torch.int64,
-            device=device,
-        )
-        self.current_draft_step = torch.tensor(0, dtype=torch.int64, device=device)
-        self.last_token_indices = torch.zeros(
-            self.max_num_reqs, dtype=torch.int64, device=device
-        )
-        self.arange = torch.arange(
-            self.max_num_reqs + 1, dtype=torch.int32, device="cpu"
-        )
-
-        self.supports_mm_inputs = MULTIMODAL_REGISTRY.supports_multimodal_inputs(
-            self.draft_model_config
-        )
-        if self.supports_mm_inputs:
-            self.inputs_embeds = torch.zeros(
-                self.max_num_tokens, self.hidden_size, dtype=self.dtype, device=device
-            )
-
-        self.draft_logits: torch.Tensor | None = None
-        if self.speculative_config.draft_sample_method == "probabilistic":
-            self.draft_logits = torch.zeros(
-                self.max_num_reqs,
-                self.num_speculative_steps,
-                self.vocab_size,
-                dtype=torch.float32,
-                device=device,
-            )
-
-        self.prefill_cudagraph_manager: PrefillEagleCudaGraphManager | None = None
-        self.decode_cudagraph_manager: DecodeEagleCudaGraphManager | None = None
-
-    def init_cudagraph_manager(self, cudagraph_mode: CUDAGraphMode) -> None:
-        cudagraph_mode = self.vllm_config.compilation_config.cudagraph_mode
-        # Initialize cudagraph manager for draft prefill (draft position 0).
-        self.prefill_cudagraph_manager = PrefillEagleCudaGraphManager(
-            self.vllm_config,
-            self.device,
-            cudagraph_mode,
-            self.num_speculative_steps + 1,
-        )
-
-        # PIECEWISE cudagraphs are not supported for eagle draft decodes.
-        # PIECEWISE pads num_tokens to the next capture size without padding
-        # num_reqs, which can cause attention backends to read past the
-        # valid per-request metadata (e.g. FlashInfer's kv_indptr buffer).
-        if cudagraph_mode.decode_mode() == CUDAGraphMode.FULL:
-            cudagraph_mode = CUDAGraphMode.FULL_DECODE_ONLY
-        else:
-            cudagraph_mode = CUDAGraphMode.NONE
-
-        # Initialize cudagraph manager for draft decodes (draft positions > 0).
-        self.decode_cudagraph_manager = DecodeEagleCudaGraphManager(
-            self.vllm_config,
-            self.device,
-            cudagraph_mode,
-            decode_query_len=1,
-        )
-
-    def load_model(self, target_model: nn.Module) -> None:
-        target_attn_layer_names = get_layers_from_vllm_config(
-            self.vllm_config,
-            AttentionLayerBase,  # type: ignore[type-abstract]
-        ).keys()
-
-        self.model = load_eagle_model(target_model, self.vllm_config)
-
-        all_attn_layers = get_layers_from_vllm_config(
-            self.vllm_config,
-            AttentionLayerBase,  # type: ignore[type-abstract]
-        ).keys()
-        self.draft_attn_layer_names = set(all_attn_layers) - set(
-            target_attn_layer_names
-        )
-
-    def set_attn(
+class EagleSpeculator(AutoRegressiveSpeculator):
+    def load_draft_model(
         self,
-        model_state: ModelState,
-        kv_cache_config: KVCacheConfig,
-        block_tables: BlockTables,
-    ) -> None:
-        self.model_state = model_state
-        self.kv_cache_config = kv_cache_config
-        self.attn_groups, _, _ = init_attn_backend(
-            kv_cache_config,
-            self.vllm_config,
-            self.device,
-            active_layer_names=self.draft_attn_layer_names,
-        )
-        self.block_tables = block_tables
-
-    @torch.inference_mode()
-    def run_model(
-        self,
-        num_tokens: int,
-        attn_metadata: dict[str, Any] | None,
-        slot_mappings: dict[str, torch.Tensor] | None,
-        num_tokens_across_dp: torch.Tensor | None,
-        cudagraph_runtime_mode: CUDAGraphMode = CUDAGraphMode.NONE,
-        mm_inputs: tuple[list[torch.Tensor], torch.Tensor] | None = None,
-    ) -> tuple[torch.Tensor, torch.Tensor]:
-        batch_descriptor = BatchDescriptor(num_tokens=num_tokens)
-        with set_forward_context(
-            attn_metadata,
-            self.vllm_config,
-            num_tokens=num_tokens,
-            cudagraph_runtime_mode=cudagraph_runtime_mode,
-            num_tokens_across_dp=num_tokens_across_dp,
-            slot_mapping=slot_mappings,
-            batch_descriptor=batch_descriptor,
-        ):
-            inputs_embeds = None
-            if self.supports_mm_inputs:
-                # Merge multimodal embeddings with input ids.
-                mm_embeds, is_mm_embed = mm_inputs or (None, None)
-                num_input_tokens = (
-                    is_mm_embed.shape[0] if is_mm_embed is not None else num_tokens
-                )
-                self.inputs_embeds[:num_input_tokens] = self.model.embed_input_ids(
-                    self.input_buffers.input_ids[:num_input_tokens],
-                    multimodal_embeddings=mm_embeds,
-                    is_multimodal=is_mm_embed,
-                )
-                inputs_embeds = self.inputs_embeds[:num_tokens]
-
-            model_inputs = dict(
-                input_ids=self.input_buffers.input_ids[:num_tokens],
-                positions=self.input_buffers.positions[:num_tokens],
-                hidden_states=self.hidden_states[:num_tokens],
-                inputs_embeds=inputs_embeds,
-            )
-            if cudagraph_runtime_mode == CUDAGraphMode.PIECEWISE:
-                # Draft prefill with PIECEWISE cudagraph (compiled PW or breakable),
-                # chosen inside run_pw_graph.
-                assert self.prefill_cudagraph_manager is not None
-                ret_hidden_states = self.prefill_cudagraph_manager.run_pw_graph(
-                    self.model, model_inputs
-                )
-            else:
-                # Eager (NONE): call the raw model directly.
-                ret_hidden_states = self.model(**model_inputs)
-        if self.method == "mtp":
-            last_hidden_states = ret_hidden_states
-            hidden_states = ret_hidden_states
-        else:
-            last_hidden_states, hidden_states = ret_hidden_states
-        return last_hidden_states, hidden_states
-
-    def _sample_draft(
-        self,
-        logits: torch.Tensor,
-        idx_mapping: torch.Tensor,
-        pos: torch.Tensor,
-        draft_step: torch.Tensor,
-        draft_logits: torch.Tensor | None,
-    ) -> torch.Tensor:
-        if draft_logits is not None:
-            # NOTE(woosuk): We must add 1 to the positions to match the Gumbel noise
-            # used for draft and target sampling.
-            return gumbel_sample(
-                logits,
-                idx_mapping,
-                self.temperature,
-                self.seeds,
-                pos + 1,
-                apply_temperature=True,
-                output_processed_logits=draft_logits,
-                output_processed_logits_col=draft_step,
-                use_fp64=self.use_fp64_gumbel,
-            )
-        else:
-            return logits.argmax(dim=-1)
-
-    def prefill(
-        self,
-        num_reqs: int,
-        num_tokens: int,
-        attn_metadata: dict[str, Any] | None,
-        slot_mappings: dict[str, torch.Tensor] | None,
-        num_tokens_across_dp: torch.Tensor | None,
-        cudagraph_runtime_mode: CUDAGraphMode = CUDAGraphMode.NONE,
-        mm_inputs: tuple[list[torch.Tensor], torch.Tensor] | None = None,
-    ) -> None:
-        last_token_indices = self.last_token_indices[:num_reqs]
-        pos = self.input_buffers.positions[last_token_indices]
-        idx_mapping = self.idx_mapping[:num_reqs]
-
-        last_hidden_states, hidden_states = self.run_model(
-            num_tokens,
-            attn_metadata,
-            slot_mappings,
-            num_tokens_across_dp=num_tokens_across_dp,
-            cudagraph_runtime_mode=cudagraph_runtime_mode,
-            mm_inputs=mm_inputs,
-        )
-        sample_hidden_states = last_hidden_states[last_token_indices]
-        logits = self.model.compute_logits(sample_hidden_states)
-
-        self.draft_tokens[:num_reqs, 0] = self._sample_draft(
-            logits,
-            idx_mapping,
-            pos,
-            self.current_draft_step,
-            self.draft_logits,
-        )
-        self.hidden_states[:num_reqs] = hidden_states[last_token_indices]
-        self.input_buffers.positions[:num_reqs] = pos
-
-    def multi_step_decode(
-        self,
-        num_reqs: int,
-        skip_attn: bool,
-        batch_desc: BatchExecutionDescriptor,
-        num_tokens_across_dp: torch.Tensor | None,
-    ) -> None:
-        positions = self.input_buffers.positions[:num_reqs]
-        query_start_loc = self.input_buffers.query_start_loc[: num_reqs + 1]
-        idx_mapping = self.idx_mapping[:num_reqs]
-
-        for step in range(1, self.num_speculative_steps):
-            attn_metadata = None
-            slot_mappings_by_layer = None
-            if not skip_attn:
-                # Build attention metadata and slot mappings for each draft
-                # decode step. It is necessary to rebuild the attention
-                # metadata even when replaying the FULL graph so that any
-                # attention metadata builder state is updated.
-                slot_mappings = self.block_tables.compute_slot_mappings(
-                    idx_mapping,
-                    query_start_loc,
-                    positions,
-                    batch_desc.num_tokens,
-                )
-                slot_mappings_by_layer = build_slot_mappings_by_layer(
-                    slot_mappings, self.kv_cache_config
-                )
-                attn_metadata = self._build_draft_attn_metadata(
-                    num_reqs=num_reqs,
-                    num_reqs_padded=batch_desc.num_reqs or num_reqs,
-                    num_tokens_padded=batch_desc.num_tokens,
-                )
-
-            # Update the current draft step.
-            self.current_draft_step.fill_(step)
-
-            # Generate draft tokens for the current step.
-            if batch_desc.cg_mode == CUDAGraphMode.FULL:
-                assert self.decode_cudagraph_manager is not None
-                self.decode_cudagraph_manager.run_fullgraph(batch_desc)
-            else:
-                self.generate_draft(
-                    num_reqs,
-                    batch_desc.num_tokens,
-                    attn_metadata,
-                    slot_mappings_by_layer,
-                    num_tokens_across_dp=num_tokens_across_dp,
-                    cudagraph_runtime_mode=batch_desc.cg_mode,
-                )
-
-    def generate_draft(
-        self,
-        num_reqs: int,
-        num_tokens_padded: int,
-        attn_metadata: dict[str, Any] | None,
-        slot_mappings: dict[str, torch.Tensor] | None,
-        num_tokens_across_dp: torch.Tensor | None,
-        cudagraph_runtime_mode: CUDAGraphMode = CUDAGraphMode.NONE,
-    ) -> None:
-        idx_mapping = self.idx_mapping[:num_reqs]
-        positions = self.input_buffers.positions[:num_reqs]
-        # Run the eagle model forward pass.
-        last_hidden_states, hidden_states = self.run_model(
-            num_tokens_padded,
-            attn_metadata,
-            slot_mappings,
-            num_tokens_across_dp,
-            cudagraph_runtime_mode,
-        )
-        last_hidden_states = last_hidden_states[:num_reqs]
-
-        # Sample the draft tokens.
-        logits = self.model.compute_logits(last_hidden_states)
-        draft_tokens = self._sample_draft(
-            logits,
-            idx_mapping,
-            positions,
-            self.current_draft_step,
-            self.draft_logits,
-        )
-
-        # Update the inputs for the next step.
-        update_eagle_draft_inputs(
-            draft_tokens,
-            self.current_draft_step,
-            hidden_states,
-            self.draft_tokens,
-            self.hidden_states,
-            self.input_buffers,
-            num_reqs,
-            self.max_model_len,
-            self.num_speculative_steps,
-        )
-
-    def _build_draft_attn_metadata(
-        self,
-        num_reqs: int,
-        num_reqs_padded: int,
-        num_tokens_padded: int,
-    ) -> dict[str, Any] | None:
-        if not self.draft_attn_layer_names:
-            return None
-
-        query_start_loc_cpu = torch.clamp(
-            self.arange[: num_reqs_padded + 1], max=num_reqs
-        )
-        block_tables = [
-            x[:num_reqs_padded] for x in self.block_tables.input_block_tables
-        ]
-        slot_mappings = self.block_tables.slot_mappings[:, :num_tokens_padded]
-        attn_metadata = build_attn_metadata(
-            attn_groups=self.attn_groups,
-            num_reqs=num_reqs_padded,
-            num_tokens=num_tokens_padded,
-            query_start_loc_gpu=self.input_buffers.query_start_loc[
-                : num_reqs_padded + 1
-            ],
-            query_start_loc_cpu=query_start_loc_cpu,
-            max_query_len=1,
-            seq_lens=self.input_buffers.seq_lens[:num_reqs_padded],
-            max_seq_len=self.draft_max_seq_len,
-            block_tables=block_tables,
-            slot_mappings=slot_mappings,
-            kv_cache_config=self.kv_cache_config,
-        )
-        return attn_metadata
-
-    def capture(
-        self,
-        attn_states: dict[BatchExecutionDescriptor, CapturedAttentionState],
-    ) -> None:
-        logger.info("Capturing model for Eagle speculator...")
-        # Reset indices to zeros to prevent stale values from prior
-        # dummy runs to cause out-of-bounds indexing during capture.
-        self.last_token_indices.zero_()
-
-        # Capture the prefill routine (model forward + compute_logits +
-        # sample).
-        # For FULL graphs, the entire routine is recorded as one graph.
-        # For PIECEWISE, only the model's compiled regions are captured
-        # and the rest (compute_logits, gumbel_sample) runs eagerly.
-        assert self.prefill_cudagraph_manager is not None
-        if self.prefill_cudagraph_manager.use_breakable_cg:
-            self.prefill_cudagraph_manager.init_breakable_cg_runner(self.model)
-        self.prefill_cudagraph_manager.capture(
-            self.prefill,
-            attn_states,
-            progress_bar_desc="Capturing eagle prefill CUDA graphs",
-        )
-
-        if self.num_speculative_steps == 1:
-            return
-
-        # Capture the decode draft generation routine (model forward +
-        # compute_logits + sample + update_eagle_inputs) for a single
-        # step.
-        assert self.decode_cudagraph_manager is not None
-        self.decode_cudagraph_manager.capture(
-            self.generate_draft,
-            self.model_state,
-            self.input_buffers,
-            self.block_tables,
-            self.attn_groups,
-            self.kv_cache_config,
-            progress_bar_desc="Capturing eagle decode CUDA graphs",
-        )
-
-    @torch.inference_mode()
-    def propose(
-        self,
-        input_batch: InputBatch,
-        attn_metadata: dict[str, Any],
-        slot_mappings: dict[str, torch.Tensor],
-        # [num_tokens, hidden_size]
-        last_hidden_states: torch.Tensor,
-        # num_layers x [num_tokens, hidden_size]
-        aux_hidden_states: list[torch.Tensor] | None,
-        # [num_reqs]
-        num_sampled: torch.Tensor,
-        # [num_reqs]
-        num_rejected: torch.Tensor,
-        # [max_num_reqs]
-        last_sampled: torch.Tensor,
-        # [max_num_reqs]
-        next_prefill_tokens: torch.Tensor,
-        # [max_num_reqs]
-        temperature: torch.Tensor,
-        # [max_num_reqs]
-        seeds: torch.Tensor,
-        num_tokens_across_dp: torch.Tensor | None = None,
-        dummy_run: bool = False,
-        skip_attn_for_dummy_run: bool = False,
-        mm_inputs: tuple[list[torch.Tensor], torch.Tensor] | None = None,
-        is_profile: bool = False,
-    ) -> torch.Tensor:
-        num_tokens = input_batch.num_tokens_after_padding
-        num_reqs = input_batch.num_reqs
-        max_query_len = input_batch.num_scheduled_tokens.max()
-        max_seq_len = input_batch.seq_lens_cpu_upper_bound[:num_reqs].max().item()
-        self.draft_max_seq_len = min(
-            max_seq_len + self.num_speculative_steps, self.max_model_len
-        )
-
-        # NOTE(woosuk): To avoid CPU-GPU synchronization without CPU knowing the
-        # number of rejected tokens, we maintain the size of eagle's input_ids and
-        # hidden_states the same as the target model's. This means, we pad each
-        # request's query length to include any rejected positions. By doing so,
-        # we can also reuse the attention metadata (e.g., query_start_loc,
-        # seq_lens) of the target model.
-        if aux_hidden_states:
-            assert self.method == "eagle3"
-            hidden_states = self.model.combine_hidden_states(
-                torch.cat(aux_hidden_states, dim=-1)
-            )
-        else:
-            hidden_states = last_hidden_states
-        self.hidden_states[:num_tokens].copy_(hidden_states)
-
-        # Copy temperature, seeds, and idx mapping to the pre-allocated buffers.
-        # NOTE(woosuk): For draft sampling, we only consider the temperature
-        # and ignore the other sampling parameters such as top_k and top_p,
-        # for simplicity and performance.
-        # While this may slightly degrade the acceptance rate, it does not
-        # affect the output distribution after rejection sampling.
-        self.temperature.copy_(temperature)
-        self.seeds.copy_(seeds)
-        self.idx_mapping[:num_reqs].copy_(input_batch.idx_mapping)
-
-        # Get the input ids and last token indices for the speculator.
-        prepare_eagle_inputs(
-            self.last_token_indices,
-            self.current_draft_step,
-            self.input_buffers,
-            input_batch,
-            num_sampled,
-            num_rejected,
-            last_sampled,
-            next_prefill_tokens,
-            self.max_num_reqs,
-        )
-
-        # When all requests are decoding (no true prefills), each has
-        # num_speculative_steps + 1 tokens, enabling FULL graph replay.
-        uniform_token_count = get_uniform_token_count(
-            num_reqs,
-            # Use the actual number of tokens without padding added by
-            # the target model during FULL cudagraph.
-            input_batch.num_tokens,
-            max_query_len,
-        )
-        prefill_batch_desc, num_tokens_across_dp = dispatch_cg_and_sync_dp(
-            self.prefill_cudagraph_manager,
-            num_reqs,
-            num_tokens,
-            uniform_token_count,
-            dp_size=self.dp_size,
-            dp_rank=self.dp_rank,
-            need_eager=is_profile,
-        )
-
-        if prefill_batch_desc.cg_mode == CUDAGraphMode.FULL:
-            # Replay the full graph for draft prefill.
-            assert self.prefill_cudagraph_manager is not None
-            self.prefill_cudagraph_manager.run_fullgraph(prefill_batch_desc)
-        else:
-            # The target model's attention metadata and slot mappings
-            # can directly be used for draft prefill, because of the
-            # identical batch shape and KV cache layout.
-            self.prefill(
-                num_reqs,
-                prefill_batch_desc.num_tokens,
-                attn_metadata,
-                slot_mappings,
-                num_tokens_across_dp=num_tokens_across_dp,
-                cudagraph_runtime_mode=prefill_batch_desc.cg_mode,
-                mm_inputs=mm_inputs,
-            )
-
-        if self.num_speculative_steps == 1:
-            # Early exit.
-            return self.draft_tokens[:num_reqs, :1]
-
-        # Prepare the inputs for the decode steps.
-        prepare_eagle_decode(
-            self.draft_tokens[:num_reqs, 0],
-            input_batch.seq_lens,
-            num_rejected,
-            self.input_buffers,
-            self.max_model_len,
-            self.max_num_reqs,
-        )
-
-        # Each request produces exactly 1 token per draft generation step,
-        # enabling FULL graph replay.
-        decode_batch_desc, num_tokens_across_dp = dispatch_cg_and_sync_dp(
-            self.decode_cudagraph_manager,
-            num_reqs,
-            num_reqs,
-            uniform_token_count=1,
-            dp_size=self.dp_size,
-            dp_rank=self.dp_rank,
-            need_eager=is_profile,
-        )
-
-        # Generate the remaining num_speculative_steps - 1 draft tokens.
-        self.multi_step_decode(
-            num_reqs,
-            dummy_run and skip_attn_for_dummy_run,
-            decode_batch_desc,
-            num_tokens_across_dp,
-        )
-
-        return self.draft_tokens[:num_reqs]
-
-
-@triton.jit
-def _prepare_eagle_inputs_kernel(
-    last_token_indices_ptr,
-    eagle_current_draft_step_ptr,
-    eagle_input_ids_ptr,
-    eagle_positions_ptr,
-    eagle_query_start_loc_ptr,
-    eagle_seq_lens_ptr,
-    target_input_ids_ptr,
-    target_positions_ptr,
-    idx_mapping_ptr,
-    last_sampled_ptr,
-    next_prefill_tokens_ptr,
-    num_sampled_ptr,
-    num_rejected_ptr,
-    query_start_loc_ptr,
-    seq_lens_ptr,
-    max_num_reqs,
-    BLOCK_SIZE: tl.constexpr,
-):
-    req_idx = tl.program_id(0)
-    num_reqs = tl.num_programs(0)
-    req_state_idx = tl.load(idx_mapping_ptr + req_idx)
-
-    query_start = tl.load(query_start_loc_ptr + req_idx)
-    query_end = tl.load(query_start_loc_ptr + req_idx + 1)
-    query_len = query_end - query_start
-    seq_len = tl.load(seq_lens_ptr + req_idx)
-
-    # Get the true query length and next token after accounting for rejected tokens.
-    num_rejected = tl.load(num_rejected_ptr + req_idx)
-    query_len -= num_rejected
-
-    num_sampled = tl.load(num_sampled_ptr + req_idx)
-    if num_sampled > 0:
-        next_token = tl.load(last_sampled_ptr + req_state_idx).to(tl.int32)
-    else:
-        # Chunked prefilling.
-        # Get the next prefill token.
-        next_token = tl.load(next_prefill_tokens_ptr + req_state_idx)
-
-    # Shift target_input_ids by one.
-    for i in range(1, query_len, BLOCK_SIZE):
-        block = i + tl.arange(0, BLOCK_SIZE)
-        mask = block < query_len
-        input_ids = tl.load(target_input_ids_ptr + query_start + block, mask=mask)
-        tl.store(eagle_input_ids_ptr + query_start + block - 1, input_ids, mask=mask)
-
-    last_token_index = query_start + query_len - 1
-    tl.store(last_token_indices_ptr + req_idx, last_token_index)
-    tl.store(eagle_input_ids_ptr + last_token_index, next_token)
-
-    # Copy positions.
-    for i in range(0, query_len, BLOCK_SIZE):
-        block = i + tl.arange(0, BLOCK_SIZE)
-        mask = block < query_len
-        target_pos = tl.load(target_positions_ptr + query_start + block, mask=mask)
-        tl.store(eagle_positions_ptr + query_start + block, target_pos, mask=mask)
-
-    # Copy query start locations.
-    tl.store(eagle_query_start_loc_ptr + req_idx, query_start)
-    # Copy sequence lengths.
-    tl.store(eagle_seq_lens_ptr + req_idx, seq_len)
-    if req_idx == (num_reqs - 1):
-        # Reset the current draft step to 0.
-        tl.store(eagle_current_draft_step_ptr, 0)
-        # Pad query_start_loc for CUDA graphs.
-        for i in range(num_reqs, max_num_reqs + 1, BLOCK_SIZE):
-            block = i + tl.arange(0, BLOCK_SIZE)
-            mask = block < max_num_reqs + 1
-            tl.store(eagle_query_start_loc_ptr + block, query_end, mask=mask)
-        # Pad seq_lens for CUDA graphs.
-        for i in range(num_reqs, max_num_reqs, BLOCK_SIZE):
-            block = i + tl.arange(0, BLOCK_SIZE)
-            mask = block < max_num_reqs
-            tl.store(eagle_seq_lens_ptr + block, 0, mask=mask)
-        # Pad last_token_indices for CUDA graphs.
-        for i in range(num_reqs, max_num_reqs, BLOCK_SIZE):
-            block = i + tl.arange(0, BLOCK_SIZE)
-            mask = block < max_num_reqs
-            tl.store(last_token_indices_ptr + block, 0, mask=mask)
-
-
-def prepare_eagle_inputs(
-    # [num_reqs]
-    last_token_indices: torch.Tensor,
-    current_draft_step: torch.Tensor,
-    input_buffers: InputBuffers,
-    input_batch: InputBatch,
-    # [num_reqs]
-    num_sampled: torch.Tensor,
-    # [num_reqs]
-    num_rejected: torch.Tensor,
-    # [max_num_reqs]
-    last_sampled: torch.Tensor,
-    # [max_num_reqs]
-    next_prefill_tokens: torch.Tensor,
-    max_num_reqs,
-) -> torch.Tensor:
-    num_reqs = input_batch.num_reqs
-    _prepare_eagle_inputs_kernel[(num_reqs,)](
-        last_token_indices,
-        current_draft_step,
-        input_buffers.input_ids,
-        input_buffers.positions,
-        input_buffers.query_start_loc,
-        input_buffers.seq_lens,
-        input_batch.input_ids,
-        input_batch.positions,
-        input_batch.idx_mapping,
-        last_sampled,
-        next_prefill_tokens,
-        num_sampled,
-        num_rejected,
-        input_batch.query_start_loc,
-        input_batch.seq_lens,
-        max_num_reqs,
-        BLOCK_SIZE=1024,
-    )
-    return last_token_indices
-
-
-@triton.jit
-def _prepare_eagle_decode_kernel(
-    draft_tokens_ptr,
-    draft_tokens_stride,
-    target_seq_lens_ptr,
-    num_rejected_ptr,
-    input_ids_ptr,
-    positions_ptr,
-    query_start_loc_ptr,
-    seq_lens_ptr,
-    max_model_len,
-    max_num_reqs,
-    BLOCK_SIZE: tl.constexpr,
-):
-    req_idx = tl.program_id(0)
-    num_reqs = tl.num_programs(0) - 1
-    if req_idx == num_reqs:
-        # Compute query_start_loc. Pad it with the last query_start_loc
-        # for CUDA graphs.
-        for i in range(0, max_num_reqs + 1, BLOCK_SIZE):
-            block = i + tl.arange(0, BLOCK_SIZE)
-            q = tl.where(block < num_reqs, block, num_reqs)
-            mask = block < max_num_reqs + 1
-            tl.store(query_start_loc_ptr + block, q, mask=mask)
-        # Pad seq_lens for CUDA graphs.
-        for i in range(req_idx, max_num_reqs, BLOCK_SIZE):
-            block = i + tl.arange(0, BLOCK_SIZE)
-            mask = block < max_num_reqs
-            tl.store(seq_lens_ptr + block, 0, mask=mask)
-        return
-
-    # draft token -> input id.
-    draft_token = tl.load(draft_tokens_ptr + req_idx * draft_tokens_stride)
-    tl.store(input_ids_ptr + req_idx, draft_token)
-
-    # Compute position and seq_lens.
-    # NOTE(woosuk): To prevent out-of-range access, we clamp these values
-    # if they reach the max model length.
-    position = tl.load(positions_ptr + req_idx)
-    position = tl.minimum(position + 1, max_model_len - 1)
-    tl.store(positions_ptr + req_idx, position)
-
-    target_seq_len = tl.load(target_seq_lens_ptr + req_idx)
-    num_rejected = tl.load(num_rejected_ptr + req_idx)
-    seq_len = target_seq_len - num_rejected
-    seq_len = tl.minimum(seq_len + 1, max_model_len)
-    tl.store(seq_lens_ptr + req_idx, seq_len)
-
-
-def prepare_eagle_decode(
-    draft_tokens: torch.Tensor,
-    target_seq_lens: torch.Tensor,
-    num_rejected: torch.Tensor,
-    input_buffers: InputBuffers,
-    max_model_len: int,
-    max_num_reqs: int,
-):
-    num_reqs = draft_tokens.shape[0]
-    _prepare_eagle_decode_kernel[(num_reqs + 1,)](
-        draft_tokens,
-        draft_tokens.stride(0),
-        target_seq_lens,
-        num_rejected,
-        input_buffers.input_ids,
-        input_buffers.positions,
-        input_buffers.query_start_loc,
-        input_buffers.seq_lens,
-        max_model_len,
-        max_num_reqs,
-        BLOCK_SIZE=1024,
-    )
-
-
-@triton.jit
-def _update_eagle_draft_inputs_kernel(
-    output_draft_tokens_ptr,
-    output_draft_tokens_stride,
-    next_input_hidden_states_ptr,
-    next_input_hidden_states_stride,
-    input_ids_ptr,
-    positions_ptr,
-    seq_lens_ptr,
-    draft_tokens_ptr,
-    current_draft_step_ptr,
-    hidden_states_ptr,
-    hidden_states_stride,
-    hidden_size,
-    max_model_len,
-    num_speculative_steps,
-    BLOCK_SIZE: tl.constexpr,
-):
-    req_idx = tl.program_id(0)
-
-    # Write the sampled draft token into self.draft_tokens[req_idx, step].
-    draft_token = tl.load(draft_tokens_ptr + req_idx)
-    step = tl.load(current_draft_step_ptr)
-    tl.store(
-        output_draft_tokens_ptr + req_idx * output_draft_tokens_stride + step,
-        draft_token,
-    )
-
-    if step >= num_speculative_steps - 1:
-        # This is the final step. Skip updating draft forward inputs.
-        return
-
-    # Write the sampled draft token into the input ids tensor for the next
-    # forward pass.
-    tl.store(input_ids_ptr + req_idx, draft_token)
-
-    # Copy hidden states into the input hidden states tensor for the next
-    # forward pass.
-    for i in range(0, hidden_size, BLOCK_SIZE):
-        block = i + tl.arange(0, BLOCK_SIZE)
-        mask = block < hidden_size
-        hidden_states = tl.load(
-            hidden_states_ptr + req_idx * hidden_states_stride + block,
-            mask=mask,
-        )
-        tl.store(
-            next_input_hidden_states_ptr
-            + req_idx * next_input_hidden_states_stride
-            + block,
-            hidden_states,
-            mask=mask,
-        )
-
-    # Increment position and seq_lens.
-    # NOTE(woosuk): To prevent out-of-range access, we clamp these values
-    # if they reach the max model length.
-    position = tl.load(positions_ptr + req_idx)
-    position = tl.minimum(position + 1, max_model_len - 1)
-    tl.store(positions_ptr + req_idx, position)
-
-    seq_len = tl.load(seq_lens_ptr + req_idx)
-    seq_len = tl.minimum(seq_len + 1, max_model_len)
-    tl.store(seq_lens_ptr + req_idx, seq_len)
-
-
-def update_eagle_draft_inputs(
-    draft_tokens: torch.Tensor,
-    current_draft_step: torch.Tensor,
-    hidden_states: torch.Tensor,
-    output_draft_tokens: torch.Tensor,
-    next_input_hidden_states: torch.Tensor,
-    input_buffers: InputBuffers,
-    num_reqs: int,
-    max_model_len: int,
-    num_speculative_steps: int,
-):
-    _, hidden_size = hidden_states.shape
-    _update_eagle_draft_inputs_kernel[(num_reqs,)](
-        output_draft_tokens,
-        output_draft_tokens.stride(0),
-        next_input_hidden_states,
-        next_input_hidden_states.stride(0),
-        input_buffers.input_ids,
-        input_buffers.positions,
-        input_buffers.seq_lens,
-        draft_tokens,
-        current_draft_step,
-        hidden_states,
-        hidden_states.stride(0),
-        hidden_size,
-        max_model_len,
-        num_speculative_steps,
-        BLOCK_SIZE=1024,
-    )
+        target_model: nn.Module,
+        target_attn_layer_names: set[str],
+    ) -> nn.Module:
+        return load_eagle_model(target_model, self.vllm_config)
diff --git a/vllm/v1/worker/gpu/spec_decode/gemma4/__init__.py b/vllm/v1/worker/gpu/spec_decode/gemma4/__init__.py
new file mode 100644
index 00000000000..208f01a7cb5
--- /dev/null
+++ b/vllm/v1/worker/gpu/spec_decode/gemma4/__init__.py
@@ -0,0 +1,2 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
diff --git a/vllm/v1/worker/gpu/spec_decode/gemma4/speculator.py b/vllm/v1/worker/gpu/spec_decode/gemma4/speculator.py
new file mode 100644
index 00000000000..fcbea5d1012
--- /dev/null
+++ b/vllm/v1/worker/gpu/spec_decode/gemma4/speculator.py
@@ -0,0 +1,158 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+"""Gemma4 MTP (Multi-Token Prediction) speculator for speculative decoding.
+
+The Gemma4 assistant model runs all decoder layers per draft step
+(producing one token), and all its attention layers share KV cache
+with the target model via cross-model KV sharing.
+"""
+
+from collections import defaultdict
+
+import torch.nn as nn
+
+from vllm.compilation.backends import set_model_tag
+from vllm.config import VllmConfig, replace
+from vllm.distributed.parallel_state import get_pp_group
+from vllm.logger import init_logger
+from vllm.model_executor.model_loader import get_model
+from vllm.v1.worker.gpu.spec_decode.autoregressive.speculator import (
+    AutoRegressiveSpeculator,
+)
+
+logger = init_logger(__name__)
+
+
+class Gemma4Speculator(AutoRegressiveSpeculator):
+    @property
+    def advance_draft_positions(self) -> bool:
+        # Gemma4 MTP is Q-only and reads K/V from the target's existing cache.
+        # No new KV slots are written, so positions and seq_lens stay fixed.
+        return False
+
+    @property
+    def model_returns_tuple(self) -> bool:
+        # forward() returns (draft_hidden_states, backbone_hidden_states).
+        # The proposer uses draft_hidden_states for compute_logits and
+        # backbone_hidden_states for the hidden-state feedback buffer.
+        return True
+
+    def load_draft_model(
+        self,
+        target_model: nn.Module,
+        target_attn_layer_names: set[str],
+    ) -> nn.Module:
+        draft_vllm_config = self._create_draft_vllm_config()
+        with set_model_tag("eagle_head"):
+            draft_model = get_model(
+                vllm_config=draft_vllm_config,
+                model_config=self.speculative_config.draft_model_config,
+                load_config=self.speculative_config.draft_load_config,
+            )
+        self._setup_gemma4_kv_sharing(draft_model, target_attn_layer_names)
+        self._share_embeddings(draft_model, target_model)
+        return draft_model
+
+    def _create_draft_vllm_config(self) -> VllmConfig:
+        """Preserve the target's forced TRITON_ATTN backend for draft layers.
+
+        Gemma4 forces TRITON_ATTN due to heterogeneous head dimensions
+        (head_dim=256 sliding, global_head_dim=512 full). The base class
+        resets attention_config.backend to None for draft models, causing
+        sliding layers to fall back to FLASH_ATTN which cannot handle
+        KV-shared cache. Override to carry the target's backend through.
+        """
+        draft_model_config = self.speculative_config.draft_model_config
+        draft_vllm_config = replace(
+            self.vllm_config,
+            model_config=draft_model_config,
+        )
+        target_backend = self.vllm_config.attention_config.backend
+        if target_backend is not None:
+            draft_vllm_config = replace(
+                draft_vllm_config,
+                attention_config=replace(
+                    draft_vllm_config.attention_config,
+                    backend=target_backend,
+                ),
+            )
+        return draft_vllm_config
+
+    def _setup_gemma4_kv_sharing(
+        self,
+        model: nn.Module,
+        target_attn_layer_names: set[str],
+    ) -> None:
+        """Wire draft layers to share KV with the target model.
+
+        Each draft decoder layer is mapped to the last non-KV-shared
+        target layer of the same attention type (sliding or full).
+        """
+        draft_config = self.speculative_config.draft_model_config.hf_config
+        draft_text_config = draft_config.get_text_config()
+        target_config = self.vllm_config.model_config.hf_config
+        target_text_config = target_config.get_text_config()
+        target_layer_types = getattr(target_text_config, "layer_types", [])
+
+        if not (hasattr(model, "model") and hasattr(model.model, "layers")):
+            return
+
+        target_num_kv_shared = getattr(target_text_config, "num_kv_shared_layers", 0)
+        num_non_shared = len(target_layer_types) - target_num_kv_shared
+        type_to_target_indices: dict[str, list[int]] = defaultdict(list)
+        for idx, lt in enumerate(target_layer_types[:num_non_shared]):
+            type_to_target_indices[lt].append(idx)
+
+        target_prefix = "model.layers"
+        for name in target_attn_layer_names:
+            if ".layers." in name:
+                target_prefix = name.split(".layers.")[0] + ".layers"
+                break
+
+        draft_layer_types = getattr(draft_text_config, "layer_types", [])
+        for draft_idx, layer in enumerate(model.model.layers):
+            if not hasattr(layer, "self_attn"):
+                continue
+            attn = getattr(layer.self_attn, "attn", None)
+            if attn is None:
+                continue
+
+            draft_layer_type = (
+                draft_layer_types[draft_idx]
+                if draft_idx < len(draft_layer_types)
+                else "full_attention"
+            )
+            candidates = type_to_target_indices.get(draft_layer_type, [])
+            if not candidates:
+                logger.warning(
+                    "No target layer of type '%s' for draft layer %d",
+                    draft_layer_type,
+                    draft_idx,
+                )
+                continue
+
+            target_idx = candidates[-1]
+            target_layer_name = f"{target_prefix}.{target_idx}.self_attn.attn"
+            attn.kv_sharing_target_layer_name = target_layer_name
+            logger.info(
+                "Gemma4 MTP: draft layer %d (%s) -> %s",
+                draft_idx,
+                draft_layer_type,
+                target_layer_name,
+            )
+
+    def _share_embeddings(
+        self,
+        draft_model: nn.Module,
+        target_model: nn.Module,
+    ) -> None:
+        target_language_model = (
+            target_model.get_language_model()
+            if hasattr(target_model, "get_language_model")
+            else target_model
+        )
+        if get_pp_group().world_size == 1:
+            target_embed = getattr(target_language_model.model, "embed_tokens", None)
+            if target_embed is not None:
+                del draft_model.model.embed_tokens
+                draft_model.model.embed_tokens = target_embed
diff --git a/vllm/v1/worker/gpu/spec_decode/mtp/__init__.py b/vllm/v1/worker/gpu/spec_decode/mtp/__init__.py
new file mode 100644
index 00000000000..208f01a7cb5
--- /dev/null
+++ b/vllm/v1/worker/gpu/spec_decode/mtp/__init__.py
@@ -0,0 +1,2 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
diff --git a/vllm/v1/worker/gpu/spec_decode/mtp/speculator.py b/vllm/v1/worker/gpu/spec_decode/mtp/speculator.py
new file mode 100644
index 00000000000..e6abb0be83a
--- /dev/null
+++ b/vllm/v1/worker/gpu/spec_decode/mtp/speculator.py
@@ -0,0 +1,22 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+
+import torch.nn as nn
+
+from vllm.v1.worker.gpu.spec_decode.autoregressive.speculator import (
+    AutoRegressiveSpeculator,
+)
+from vllm.v1.worker.gpu.spec_decode.eagle.utils import load_eagle_model
+
+
+class MTPSpeculator(AutoRegressiveSpeculator):
+    @property
+    def model_returns_tuple(self) -> bool:
+        return False
+
+    def load_draft_model(
+        self,
+        target_model: nn.Module,
+        target_attn_layer_names: set[str],
+    ) -> nn.Module:
+        return load_eagle_model(target_model, self.vllm_config)
diff --git a/vllm/v1/worker/gpu/spec_decode/speculator.py b/vllm/v1/worker/gpu/spec_decode/speculator.py
new file mode 100644
index 00000000000..e8fa8af53bc
--- /dev/null
+++ b/vllm/v1/worker/gpu/spec_decode/speculator.py
@@ -0,0 +1,224 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+from abc import ABC, abstractmethod
+from typing import Any
+
+import torch
+import torch.nn as nn
+
+from vllm.config import VllmConfig, get_layers_from_vllm_config
+from vllm.config.compilation import CUDAGraphMode
+from vllm.model_executor.layers.attention_layer_base import AttentionLayerBase
+from vllm.v1.kv_cache_interface import KVCacheConfig
+from vllm.v1.worker.gpu.attn_utils import (
+    build_attn_metadata,
+    init_attn_backend,
+)
+from vllm.v1.worker.gpu.block_table import BlockTables
+from vllm.v1.worker.gpu.cudagraph_utils import (
+    AttentionStatePair,
+    BatchExecutionDescriptor,
+)
+from vllm.v1.worker.gpu.input_batch import InputBatch, InputBuffers
+from vllm.v1.worker.gpu.model_states.interface import ModelState
+
+
+class BaseSpeculator(ABC):
+    @abstractmethod
+    def init_cudagraph_manager(self, cudagraph_mode: CUDAGraphMode) -> None:
+        pass
+
+    @abstractmethod
+    def capture(
+        self,
+        attn_states: dict[BatchExecutionDescriptor, AttentionStatePair],
+    ) -> None:
+        pass
+
+    @abstractmethod
+    def propose(
+        self,
+        input_batch: InputBatch,
+        attn_metadata: dict[str, Any],
+        slot_mappings: dict[str, torch.Tensor],
+        # [num_tokens, hidden_size]
+        last_hidden_states: torch.Tensor,
+        # num_layers x [num_tokens, hidden_size]
+        aux_hidden_states: list[torch.Tensor] | None,
+        # [num_reqs]
+        num_sampled: torch.Tensor,
+        # [num_reqs]
+        num_rejected: torch.Tensor,
+        # [max_num_reqs]
+        last_sampled: torch.Tensor,
+        # [max_num_reqs]
+        next_prefill_tokens: torch.Tensor,
+        # [max_num_reqs]
+        temperature: torch.Tensor,
+        # [max_num_reqs]
+        seeds: torch.Tensor,
+        num_tokens_across_dp: torch.Tensor | None = None,
+        dummy_run: bool = False,
+        skip_attn_for_dummy_run: bool = False,
+        mm_inputs: tuple[list[torch.Tensor], torch.Tensor] | None = None,
+        is_profile: bool = False,
+    ) -> torch.Tensor:
+        pass
+
+
+class DraftModelSpeculator(BaseSpeculator):
+    def __init__(self, vllm_config: VllmConfig, device: torch.device):
+        self.vllm_config = vllm_config
+        self.device = device
+
+        assert vllm_config.speculative_config is not None
+        self.speculative_config = vllm_config.speculative_config
+        self.method = self.speculative_config.method
+        self.num_speculative_steps = self.speculative_config.num_speculative_tokens
+        self.draft_model_config = self.speculative_config.draft_model_config
+
+        self.scheduler_config = vllm_config.scheduler_config
+        self.max_num_reqs = self.scheduler_config.max_num_seqs
+        self.max_num_tokens = self.scheduler_config.max_num_batched_tokens
+        self.max_model_len = vllm_config.model_config.max_model_len
+        self.draft_max_seq_len = self.max_model_len
+        # We need to get the hidden size from the draft model config because
+        # the draft model's hidden size can be different from the target model's
+        # hidden size (e.g., Llama 3.3 70B).
+        self.hidden_size = self.draft_model_config.get_hidden_size()
+        # Widen for HC-multiplexed residuals (e.g. DeepSeek V4 feeds the MTP
+        # draft the target's pre-hc_head (T, hc_mult * hidden_size) residual).
+        # Non-HC models default to hc_mult=1 and are unaffected.
+        hc_mult = getattr(self.draft_model_config.hf_config, "hc_mult", 1)
+        self.hidden_size = self.hidden_size * hc_mult
+        self.vocab_size = self.draft_model_config.get_vocab_size()
+        self.dtype = vllm_config.model_config.dtype
+        self.use_fp64_gumbel = vllm_config.model_config.use_fp64_gumbel
+
+        # DP configuration
+        self.dp_size = vllm_config.parallel_config.data_parallel_size
+        self.dp_rank = vllm_config.parallel_config.data_parallel_rank
+
+        self.input_buffers = InputBuffers(
+            max_num_reqs=self.max_num_reqs,
+            max_num_tokens=self.max_num_tokens,
+            device=device,
+        )
+        self.idx_mapping = torch.zeros(
+            self.max_num_reqs, dtype=torch.int32, device=device
+        )
+        self.temperature = torch.zeros(
+            self.max_num_reqs, dtype=torch.float32, device=device
+        )
+        self.seeds = torch.zeros(self.max_num_reqs, dtype=torch.int64, device=device)
+        self.draft_tokens = torch.zeros(
+            self.max_num_reqs,
+            self.num_speculative_steps,
+            dtype=torch.int64,
+            device=device,
+        )
+        self.arange = torch.arange(
+            self.max_num_reqs + 1, dtype=torch.int32, device="cpu"
+        )
+
+        self.draft_logits: torch.Tensor | None = None
+        if self.speculative_config.draft_sample_method == "probabilistic":
+            self.draft_logits = torch.zeros(
+                self.max_num_reqs,
+                self.num_speculative_steps,
+                self.vocab_size,
+                dtype=torch.float32,
+                device=device,
+            )
+
+    @abstractmethod
+    def load_draft_model(
+        self,
+        target_model: nn.Module,
+        target_attn_layer_names: set[str],
+    ) -> nn.Module:
+        pass
+
+    def load_model(self, target_model: nn.Module) -> None:
+        target_attn_layer_names = set(
+            get_layers_from_vllm_config(
+                self.vllm_config,
+                AttentionLayerBase,  # type: ignore[type-abstract]
+            ).keys()
+        )
+
+        self.model = self.load_draft_model(target_model, target_attn_layer_names)
+
+        all_attn_layers = set[str](
+            get_layers_from_vllm_config(
+                self.vllm_config,
+                AttentionLayerBase,  # type: ignore[type-abstract]
+            ).keys()
+        )
+        self.draft_attn_layer_names = all_attn_layers - target_attn_layer_names
+
+    def set_attn(
+        self,
+        model_state: ModelState,
+        kv_cache_config: KVCacheConfig,
+        block_tables: BlockTables,
+    ) -> None:
+        self.model_state = model_state
+        self.kv_cache_config = kv_cache_config
+        self.attn_groups, _, _ = init_attn_backend(
+            kv_cache_config,
+            self.vllm_config,
+            self.device,
+            active_layer_names=self.draft_attn_layer_names,
+        )
+        self.block_tables = block_tables
+
+    def _build_draft_attn_metadata(
+        self,
+        num_reqs: int,
+        num_reqs_padded: int,
+        num_tokens_padded: int,
+    ) -> dict[str, Any] | None:
+        query_start_loc_cpu = torch.clamp(
+            self.arange[: num_reqs_padded + 1], max=num_reqs
+        )
+        block_tables = [
+            x[:num_reqs_padded] for x in self.block_tables.input_block_tables
+        ]
+        slot_mappings = self.block_tables.slot_mappings[:, :num_tokens_padded]
+        attn_metadata = build_attn_metadata(
+            attn_groups=self.attn_groups,
+            num_reqs=num_reqs_padded,
+            num_tokens=num_tokens_padded,
+            query_start_loc_gpu=self.input_buffers.query_start_loc[
+                : num_reqs_padded + 1
+            ],
+            query_start_loc_cpu=query_start_loc_cpu,
+            max_query_len=1,
+            seq_lens=self.input_buffers.seq_lens[:num_reqs_padded],
+            max_seq_len=self.draft_max_seq_len,
+            block_tables=block_tables,
+            slot_mappings=slot_mappings,
+            kv_cache_config=self.kv_cache_config,
+        )
+        return attn_metadata
+
+    def _copy_request_inputs(
+        self,
+        num_reqs: int,
+        # [num_reqs]
+        idx_mapping: torch.Tensor,
+        # [max_num_reqs]
+        temperature: torch.Tensor,
+        # [max_num_reqs]
+        seeds: torch.Tensor,
+    ) -> None:
+        # Copy temperature, seeds, and idx mapping to the pre-allocated buffers.
+        # NOTE(woosuk): For draft sampling, we only consider the temperature
+        # and ignore the other sampling parameters such as top_k and top_p,
+        # for simplicity and performance.
+        # While this may slightly degrade the acceptance rate, it does not
+        # affect the output distribution after rejection sampling.
+        self.temperature.copy_(temperature)
+        self.seeds.copy_(seeds)
+        self.idx_mapping[:num_reqs].copy_(idx_mapping)
diff --git a/vllm/v1/worker/gpu_worker.py b/vllm/v1/worker/gpu_worker.py
index 259cd05554c..1b30a981e21 100644
--- a/vllm/v1/worker/gpu_worker.py
+++ b/vllm/v1/worker/gpu_worker.py
@@ -51,6 +51,7 @@ from vllm.profiler.wrapper import CudaProfilerWrapper, TorchProfilerWrapper
 from vllm.sequence import IntermediateTensors
 from vllm.tasks import SupportedTask
 from vllm.tracing import instrument
+from vllm.utils.gc_utils import freeze_gc_heap, maybe_attach_gc_debug_callback
 from vllm.utils.mem_constants import GiB_bytes
 from vllm.utils.mem_utils import MemorySnapshot, format_gib, memory_profiling
 from vllm.utils.torch_utils import set_random_seed
@@ -722,6 +723,11 @@ class Worker(WorkerBase):
 
         activate_triton_jit_monitor()
 
+        # Freeze the worker heap so the GC won't scan static objects
+        # (model weights, KV caches, CUDA graphs) during inference.
+        freeze_gc_heap()
+        maybe_attach_gc_debug_callback()
+
         return CompilationTimes(
             language_model=self.compilation_config.compilation_time,
             encoder=self.compilation_config.encoder_compilation_time,
@@ -1115,6 +1121,8 @@ class Worker(WorkerBase):
         self._is_checkpoint_format = True
 
     def shutdown(self) -> None:
+        gc.unfreeze()
+
         # has_kv_transfer_group can be None during interpreter shutdown.
         if ensure_kv_transfer_shutdown is not None:
             ensure_kv_transfer_shutdown()