From aa34638ec13aa19005e8c2d25ed37ac5672fb365 Mon Sep 17 00:00:00 2001
From: Aryaman Gupta <aryaman.gupta@amd.com>
Date: Fri, 27 Mar 2026 18:58:59 -0500
Subject: [PATCH 01/39] grouped_gemm.py: initial version

---
 kernels/grouped_gemm.py | 418 ++++++++++++++++++++++++++++++++++++++++
 1 file changed, 418 insertions(+)
 create mode 100644 kernels/grouped_gemm.py

diff --git a/kernels/grouped_gemm.py b/kernels/grouped_gemm.py
new file mode 100644
index 000000000..eba3569e5
--- /dev/null
+++ b/kernels/grouped_gemm.py
@@ -0,0 +1,418 @@
+# SPDX-License-Identifier: Apache-2.0
+# Copyright (c) 2025 FlyDSL Project Contributors
+
+"""Grouped FP8 GEMM kernel (M-grouped contiguous layout).
+
+API matching DeepGEMM's m_grouped_fp8_gemm_nt_contiguous:
+  - A: [M_total, K] FP8 - concatenated rows from all groups
+  - scale_a: [scale_k, M_total] FP32 - per-token, per-128K scales (transposed)
+  - B: [num_groups, N, K] FP8 - one weight matrix per group
+  - scale_b: [num_groups, scale_n, scale_k] FP32 - per-block scales
+  - D: [M_total, N] BF16 - output
+  - grouped_layout: [M_total] INT32 - maps each row to group ID (-1 for padding)
+
+Block scaling granularity (matching DeepGEMM):
+  - A: (1, 128) - per-token, per-128-K-elements
+  - B: (128, 128) - per-128-N, per-128-K block
+
+This is Step 0 (baseline): single-buffered LDS, no advanced optimizations.
+"""
+
+import functools
+import os
+
+import flydsl.compiler as flyc
+import flydsl.expr as fx
+from flydsl.compiler.kernel_function import CompilationContext
+from flydsl.expr import arith, gpu, buffer_ops, vector, rocdl
+from flydsl.expr import range_constexpr
+from flydsl.runtime.device import get_rocm_arch as get_hip_arch
+from flydsl.utils.smem_allocator import SmemAllocator, SmemPtr
+
+from flydsl._mlir import ir
+from flydsl._mlir.dialects import scf
+from flydsl._mlir.dialects import math as math_dialect
+from flydsl.expr.typing import T
+from flydsl.expr.arith import ArithValue
+
+from kernels.mfma_preshuffle_pipeline import crd2idx
+
+
+@functools.lru_cache(maxsize=128)
+def compile_grouped_fp8_gemm(
+    *,
+    n: int,
+    k: int,
+    num_groups: int,
+    tile_m: int = 128,
+    tile_n: int = 128,
+    tile_k: int = 128,
+    scale_block_k: int = 128,
+    scale_block_n: int = 128,
+    out_dtype: str = "bf16",
+):
+    """Compile grouped FP8 GEMM kernel and return the JIT launcher.
+
+    Args:
+        n: N dimension (output columns per group)
+        k: K dimension (reduction dimension)
+        num_groups: Number of groups (experts)
+        tile_m: M tile size (default 128)
+        tile_n: N tile size (default 128)
+        tile_k: K tile size (default 128)
+        scale_block_k: K-dimension scale block size (default 128)
+        scale_block_n: N-dimension scale block size (default 128)
+        out_dtype: Output data type ("bf16" or "f16")
+
+    Returns:
+        JIT launcher function.
+    """
+    gpu_arch = get_hip_arch()
+    _is_gfx950 = str(gpu_arch).startswith("gfx95")
+    allocator = SmemAllocator(None, arch=gpu_arch, global_sym_name="smem_grouped_gemm")
+
+    # Validate parameters
+    if k % tile_k != 0:
+        raise ValueError(f"k ({k}) must be divisible by tile_k ({tile_k})")
+    if n % tile_n != 0:
+        raise ValueError(f"n ({n}) must be divisible by tile_n ({tile_n})")
+    if tile_k % scale_block_k != 0:
+        raise ValueError(f"tile_k ({tile_k}) must be divisible by scale_block_k ({scale_block_k})")
+    if tile_n % scale_block_n != 0:
+        raise ValueError(f"tile_n ({tile_n}) must be divisible by scale_block_n ({scale_block_n})")
+
+    # Output type
+    if out_dtype not in ("bf16", "f16"):
+        raise ValueError(f"out_dtype must be 'bf16' or 'f16', got {out_dtype!r}")
+    out_mlir = lambda: T.bf16 if out_dtype == "bf16" else T.f16
+
+    # Compile-time constants
+    total_threads = 256
+    elem_bytes = 1  # FP8
+    num_k_tiles = k // tile_k
+    scale_k = k // scale_block_k
+    scale_n = n // scale_block_n
+    sb_per_tile = tile_k // scale_block_k  # scale blocks per K-tile
+    k_unroll = tile_k // 64  # K64-byte micro-steps (for K32 MFMA pairs)
+
+    # LDS allocation (single-buffered for baseline)
+    lds_a_bytes = tile_m * tile_k * elem_bytes
+    lds_alloc_bytes = lds_a_bytes
+    lds_alloc_offset = allocator._align(allocator.ptr, 16)
+    allocator.ptr = lds_alloc_offset + lds_alloc_bytes
+
+    # Module name for caching
+    module_name = (
+        f"grouped_fp8_gemm_{out_dtype}"
+        f"_n{n}_k{k}_g{num_groups}"
+        f"_t{tile_m}x{tile_n}x{tile_k}"
+        f"_baseline"
+    ).replace("-", "_")
+
+    # Thread -> tile element mapping for A loads
+    bytes_a_per_tile = tile_m * tile_k * elem_bytes
+    bytes_per_thread_a = bytes_a_per_tile // total_threads
+
+    @flyc.kernel(name=module_name)
+    def grouped_fp8_gemm_kernel(
+        arg_d: fx.Tensor,
+        arg_a: fx.Tensor,
+        arg_b: fx.Tensor,
+        arg_scale_a: fx.Tensor,
+        arg_scale_b: fx.Tensor,
+        arg_grouped_layout: fx.Tensor,
+        i32_m: fx.Int32,
+        i32_n: fx.Int32,
+        i32_k: fx.Int32,
+        i32_num_groups: fx.Int32,
+    ):
+        # Convert runtime parameters to index type
+        m_in = arith.index_cast(T.index, i32_m)
+        n_in = arith.index_cast(T.index, i32_n)
+        k_in = arith.index_cast(T.index, i32_k)
+        num_groups_in = arith.index_cast(T.index, i32_num_groups)
+
+        # Thread and block IDs
+        tx = gpu.thread_id("x")
+        by = gpu.block_id("x")  # N-block index
+        bx = gpu.block_id("y")  # M-block index
+
+        # Block positions
+        bx_m = bx * fx.Index(tile_m)
+        by_n = by * fx.Index(tile_n)
+
+        # Wave/lane decomposition (256 threads = 4 waves x 64 lanes)
+        layout_wave_lane = fx.make_layout((4, 64), stride=(64, 1))
+        coord_wave_lane = fx.idx2crd(tx, layout_wave_lane)
+        wave_id = fx.get(coord_wave_lane, 0)
+        lane_id = fx.get(coord_wave_lane, 1)
+
+        # Lane decomposition for MFMA (lane_id -> lane_div_16, lane_mod_16)
+        layout_lane16 = fx.make_layout((4, 16), stride=(16, 1))
+        coord_lane16 = fx.idx2crd(lane_id, layout_lane16)
+        lane_div_16 = fx.get(coord_lane16, 0)
+        lane_mod_16 = fx.get(coord_lane16, 1)
+
+        # LDS setup
+        base_ptr = allocator.get_base()
+        lds_a = SmemPtr(base_ptr, lds_alloc_offset, T.f8, shape=(tile_m * tile_k,)).get()
+        lds_stride = tile_k
+        layout_lds = fx.make_layout((tile_m, tile_k), stride=(lds_stride, 1))
+
+        # Buffer resources
+        a_nbytes = m_in * k_in
+        a_rsrc = buffer_ops.create_buffer_resource(
+            arg_a, max_size=False, num_records_bytes=arith.index_cast(T.i64, a_nbytes)
+        )
+
+        b_nbytes = num_groups_in * n_in * k_in
+        b_rsrc = buffer_ops.create_buffer_resource(
+            arg_b, max_size=False, num_records_bytes=arith.index_cast(T.i64, b_nbytes)
+        )
+
+        d_nbytes = m_in * n_in * fx.Index(2)  # bf16/f16 = 2 bytes
+        d_rsrc = buffer_ops.create_buffer_resource(
+            arg_d, max_size=False, num_records_bytes=arith.index_cast(T.i64, d_nbytes)
+        )
+
+        # Scale buffers
+        # scale_a: [scale_k, M] - transposed layout
+        sa_nbytes = fx.Index(scale_k) * m_in * fx.Index(4)
+        sa_rsrc = buffer_ops.create_buffer_resource(
+            arg_scale_a, max_size=False, num_records_bytes=arith.index_cast(T.i64, sa_nbytes)
+        )
+
+        # scale_b: [num_groups, scale_n, scale_k]
+        sb_nbytes = num_groups_in * fx.Index(scale_n * scale_k * 4)
+        sb_rsrc = buffer_ops.create_buffer_resource(
+            arg_scale_b, max_size=False, num_records_bytes=arith.index_cast(T.i64, sb_nbytes)
+        )
+
+        # grouped_layout: [M]
+        gl_nbytes = m_in * fx.Index(4)
+        gl_rsrc = buffer_ops.create_buffer_resource(
+            arg_grouped_layout, max_size=False, num_records_bytes=arith.index_cast(T.i64, gl_nbytes)
+        )
+
+        # Load group ID for this M-block (use first row of tile)
+        group_id_i32 = buffer_ops.buffer_load(gl_rsrc, bx_m, vec_width=1, dtype=T.i32)
+        is_valid = arith.cmpi(arith.CmpIPredicate.sge, group_id_i32, fx.Int32(0))
+
+        # Early exit for invalid blocks (padding rows)
+        _if_valid = scf.IfOp(is_valid)
+        with ir.InsertionPoint(_if_valid.then_block):
+            group_idx = arith.index_cast(T.index, group_id_i32)
+
+            # MFMA tiling constants
+            m_repeat = tile_m // 16  # 8 for tile_m=128
+            num_waves = 4
+            n_per_wave = tile_n // num_waves  # 32 for tile_n=128
+            num_acc_n = n_per_wave // 16  # 2 for n_per_wave=32
+
+            # Initialize accumulators (FP32)
+            acc_init = arith.constant_vector(0.0, T.f32x4)
+            num_accs = m_repeat * num_acc_n
+            accs = [acc_init] * num_accs
+
+            # Wave's N-tile base
+            wave_mod_4 = wave_id % fx.Index(4)
+            n_tile_base = wave_mod_4 * fx.Index(n_per_wave)
+
+            # Precompute N-block indices for scale_b
+            c_scale_block_n = fx.Index(scale_block_n)
+            c_scale_k = fx.Index(scale_k)
+            n_block_for_scale = []
+            for ni in range_constexpr(num_acc_n):
+                col_base = by_n + n_tile_base + arith.index(ni * 16)
+                n_blk = col_base // c_scale_block_n
+                n_block_for_scale.append(n_blk)
+
+            # A load mapping: thread -> (row, col) in tile
+            tile_k_div16 = tile_k // 16
+            layout_a_tile = fx.make_layout((tile_m, tile_k_div16), stride=(tile_k_div16, 1))
+            loads_per_thread = bytes_per_thread_a // 16  # 16-byte loads
+
+            # Main K-loop
+            c_scale_block_k = fx.Index(scale_block_k)
+            c_tile_k = fx.Index(tile_k)
+
+            for k_tile_idx in range_constexpr(num_k_tiles):
+                k_base = fx.Index(k_tile_idx * tile_k)
+
+                # ===== Load A tile to LDS =====
+                for load_idx in range_constexpr(loads_per_thread):
+                    lin_idx = tx * fx.Index(loads_per_thread) + fx.Index(load_idx)
+                    coord = fx.idx2crd(lin_idx, layout_a_tile)
+                    row_local = fx.get(coord, 0)
+                    col_local_16 = fx.get(coord, 1)
+                    col_local = col_local_16 * fx.Index(16)
+
+                    # Global A index
+                    row_global = bx_m + row_local
+                    a_idx = row_global * k_in + k_base + col_local
+
+                    # Load 16 bytes (16 FP8 elements)
+                    a_vec = buffer_ops.buffer_load(a_rsrc, a_idx, vec_width=4, dtype=T.i32)
+
+                    # Store to LDS
+                    lds_coord = (row_local, col_local)
+                    lds_idx = crd2idx(lds_coord, layout_lds)
+                    a_vec_f8 = vector.bitcast(T.vec(16, T.f8), a_vec)
+                    vector.store(a_vec_f8, lds_a, [lds_idx])
+
+                gpu.barrier()
+
+                # ===== Compute MFMA tiles =====
+                # For each scale block in this K-tile
+                for sb in range_constexpr(sb_per_tile):
+                    kb = fx.Index(k_tile_idx * sb_per_tile + sb)  # Global K-block index
+
+                    # Load scale_a for this K-block (per-token scale)
+                    # scale_a layout: [scale_k, M] transposed
+                    sa_base = kb * m_in
+                    s_a_vecs = []
+                    row_off_base = lane_div_16 * fx.Index(4)
+                    for mi in range_constexpr(m_repeat):
+                        s_a_row = []
+                        for ii in range_constexpr(4):
+                            row_in_tile = arith.index(mi * 16) + row_off_base + fx.Index(ii)
+                            row_global = bx_m + row_in_tile
+                            sa_idx = sa_base + row_global
+                            s_a_val = buffer_ops.buffer_load(sa_rsrc, sa_idx, vec_width=1, dtype=T.f32)
+                            s_a_row.append(s_a_val)
+                        s_a_vec4 = vector.from_elements(T.f32x4, s_a_row)
+                        s_a_vecs.append(s_a_vec4)
+
+                    # Load scale_b for this K-block
+                    # scale_b layout: [num_groups, scale_n, scale_k]
+                    sb_group_offset = group_idx * fx.Index(scale_n * scale_k)
+                    s_b_vals = []
+                    for ni in range_constexpr(num_acc_n):
+                        sb_idx = sb_group_offset + n_block_for_scale[ni] * c_scale_k + kb
+                        s_b_val = buffer_ops.buffer_load(sb_rsrc, sb_idx, vec_width=1, dtype=T.f32)
+                        s_b_vals.append(s_b_val)
+
+                    # MFMA computation for this scale block
+                    # K64 micro-steps within scale block
+                    ku_per_sb = scale_block_k // 64
+
+                    for ku_local in range_constexpr(ku_per_sb):
+                        ku = sb * ku_per_sb + ku_local
+                        k_offset_bytes = ku * 64  # Byte offset within tile
+
+                        for mi in range_constexpr(m_repeat):
+                            # Load A from LDS (16 bytes = 2 x 8 bytes for K32 MFMA pair)
+                            row_a_lds = lane_mod_16 + arith.index(mi * 16)
+                            col_a_base = lane_div_16 * fx.Index(16) + fx.Index(k_offset_bytes)
+
+                            # Load 16 bytes and split into two i64 for K32 MFMAs
+                            lds_coord_a = (row_a_lds, col_a_base)
+                            lds_idx_a = crd2idx(lds_coord_a, layout_lds)
+                            a16 = vector.load_op(T.vec(16, T.f8), lds_a, [lds_idx_a])
+                            a_i64x2 = vector.bitcast(T.i64x2, a16)
+                            a0 = vector.extract(a_i64x2, static_position=[0], dynamic_position=[])
+                            a1 = vector.extract(a_i64x2, static_position=[1], dynamic_position=[])
+
+                            for ni in range_constexpr(num_acc_n):
+                                acc_idx = mi * num_acc_n + ni
+
+                                # Load B from global memory
+                                # B layout: [num_groups, N, K] with K-major
+                                b_group_off = group_idx * (n_in * k_in)
+                                b_col = by_n + n_tile_base + arith.index(ni * 16) + lane_mod_16
+                                b_k_base = k_base + fx.Index(k_offset_bytes) + lane_div_16 * fx.Index(16)
+
+                                b_idx0 = b_group_off + b_col * k_in + b_k_base
+                                b_idx1 = b_idx0 + fx.Index(8)
+
+                                # Load 8 bytes each for the two K32 MFMAs
+                                b0_i32x2 = buffer_ops.buffer_load(b_rsrc, b_idx0, vec_width=2, dtype=T.i32)
+                                b1_i32x2 = buffer_ops.buffer_load(b_rsrc, b_idx1, vec_width=2, dtype=T.i32)
+
+                                b0_i64 = vector.extract(
+                                    vector.bitcast(T.vec(1, T.i64), b0_i32x2),
+                                    static_position=[0], dynamic_position=[]
+                                )
+                                b1_i64 = vector.extract(
+                                    vector.bitcast(T.vec(1, T.i64), b1_i32x2),
+                                    static_position=[0], dynamic_position=[]
+                                )
+
+                                # Two K32 MFMAs
+                                mfma_fn = rocdl.mfma_f32_16x16x32_fp8_fp8
+                                mfma_mid = mfma_fn(T.f32x4, [a0, b0_i64, acc_init, 0, 0, 0])
+                                mfma_result = mfma_fn(T.f32x4, [a1, b1_i64, mfma_mid, 0, 0, 0])
+
+                                # Apply scales: accum += mfma_result * scale_a * scale_b
+                                s_a_v4 = s_a_vecs[mi]
+                                s_b_bc = vector.broadcast(T.f32x4, s_b_vals[ni])
+                                scaled = ArithValue(mfma_result) * ArithValue(s_a_v4)
+                                accs[acc_idx] = math_dialect.fma(scaled, s_b_bc, accs[acc_idx])
+
+                gpu.barrier()
+
+            # ===== Epilogue: store results =====
+            c_n = n_in
+            lane_div_16_mul4 = lane_div_16 * fx.Index(4)
+
+            for mi in range_constexpr(m_repeat):
+                for ii in range_constexpr(4):
+                    row_off = lane_div_16_mul4 + fx.Index(ii)
+                    row_in_tile = arith.index(mi * 16) + row_off
+                    row_global = bx_m + row_in_tile
+
+                    for ni in range_constexpr(num_acc_n):
+                        acc_idx = mi * num_acc_n + ni
+                        col_base = by_n + n_tile_base + arith.index(ni * 16) + lane_mod_16
+
+                        # Extract scalar from accumulator
+                        val_f32 = vector.extract(accs[acc_idx], static_position=[ii], dynamic_position=[])
+                        val_out = arith.trunc_f(out_mlir(), val_f32)
+
+                        # Store to D
+                        d_idx = row_global * c_n + col_base
+                        buffer_ops.buffer_store(val_out, d_rsrc, d_idx)
+
+            scf.YieldOp([])
+
+    # ===== JIT Launcher =====
+    @flyc.jit
+    def launch_grouped_fp8_gemm(
+        arg_d: fx.Tensor,
+        arg_a: fx.Tensor,
+        arg_b: fx.Tensor,
+        arg_scale_a: fx.Tensor,
+        arg_scale_b: fx.Tensor,
+        arg_grouped_layout: fx.Tensor,
+        i32_m: fx.Int32,
+        i32_n: fx.Int32,
+        i32_k: fx.Int32,
+        i32_num_groups: fx.Int32,
+        stream: fx.Stream,
+    ):
+        allocator.finalized = False
+        ctx = CompilationContext.get_current()
+        with ir.InsertionPoint(ctx.gpu_module_body):
+            allocator.finalize()
+
+        # Grid dimensions
+        m_in = arith.index_cast(T.index, i32_m)
+        n_in = arith.index_cast(T.index, i32_n)
+        gx = n_in // fx.Index(tile_n)  # N-blocks
+        gy = (m_in + fx.Index(tile_m - 1)) // fx.Index(tile_m)  # M-blocks (ceil)
+
+        launcher = grouped_fp8_gemm_kernel(
+            arg_d,
+            arg_a,
+            arg_b,
+            arg_scale_a,
+            arg_scale_b,
+            arg_grouped_layout,
+            i32_m,
+            i32_n,
+            i32_k,
+            i32_num_groups,
+        )
+        launcher.launch(grid=(gx, gy, 1), block=(total_threads, 1, 1), stream=stream)
+
+    return launch_grouped_fp8_gemm

From 986c1109168ef97dbe1147603cfa88b6f379d668 Mon Sep 17 00:00:00 2001
From: Aryaman Gupta <aryaman.gupta@amd.com>
Date: Fri, 27 Mar 2026 18:59:23 -0500
Subject: [PATCH 02/39] adds tests for grouped_gemm

---
 tests/kernels/test_grouped_gemm.py | 391 +++++++++++++++++++++++++++++
 1 file changed, 391 insertions(+)
 create mode 100644 tests/kernels/test_grouped_gemm.py

diff --git a/tests/kernels/test_grouped_gemm.py b/tests/kernels/test_grouped_gemm.py
new file mode 100644
index 000000000..77f962839
--- /dev/null
+++ b/tests/kernels/test_grouped_gemm.py
@@ -0,0 +1,391 @@
+#!/usr/bin/env python3
+
+# SPDX-License-Identifier: Apache-2.0
+# Copyright (c) 2025 FlyDSL Project Contributors
+
+"""Tests for Grouped FP8 GEMM kernel.
+
+Tests the grouped FP8 GEMM with block scaling, matching DeepGEMM's
+m_grouped_fp8_gemm_nt_contiguous API.
+"""
+
+import os
+import sys
+import logging
+
+import torch
+import pytest
+
+_REPO_ROOT = os.path.abspath(os.path.join(os.path.dirname(__file__), "../.."))
+_PYTHON_CANDIDATES = [
+    os.path.join(_REPO_ROOT, "build", "python_packages"),
+    _REPO_ROOT,
+]
+for _p in reversed(_PYTHON_CANDIDATES):
+    if os.path.isdir(_p) and _p not in sys.path:
+        sys.path.insert(0, _p)
+
+from kernels.grouped_gemm import compile_grouped_fp8_gemm
+from flydsl.runtime.device import get_rocm_arch
+
+logging.basicConfig(level=logging.INFO)
+
+ARCH = get_rocm_arch()
+# Use appropriate FP8 dtype for the architecture
+DTYPE_FP8 = torch.float8_e4m3fn if "gfx95" in ARCH else torch.float8_e4m3fnuz
+
+
+def ceil_div(x: int, y: int) -> int:
+    return (x + y - 1) // y
+
+
+def align(x: int, y: int) -> int:
+    return ceil_div(x, y) * y
+
+
+def quantize_to_fp8(x: torch.Tensor, scale_block_k: int = 128) -> tuple[torch.Tensor, torch.Tensor]:
+    """Quantize tensor to FP8 with per-row, per-block scaling.
+
+    Args:
+        x: Input tensor [M, K]
+        scale_block_k: K-dimension block size for scaling
+
+    Returns:
+        (x_fp8, scale): FP8 tensor and scale factors [scale_k, M]
+    """
+    M, K = x.shape
+    nblk_k = K // scale_block_k
+
+    # Reshape to [M, nblk_k, scale_block_k]
+    x_blocks = x.view(M, nblk_k, scale_block_k)
+
+    # Compute per-block max (for scale)
+    x_amax = x_blocks.abs().amax(dim=2).clamp(min=1e-12)
+
+    # FP8 E4M3 max value is 448
+    scale = x_amax / 448.0
+
+    # Quantize
+    x_scaled = x_blocks / scale.unsqueeze(2)
+    x_fp8 = x_scaled.to(DTYPE_FP8).view(M, K)
+
+    # Transpose scale to [scale_k, M] to match DeepGEMM layout
+    scale = scale.T.contiguous()
+
+    return x_fp8, scale
+
+
+def quantize_b_to_fp8(
+    b: torch.Tensor, scale_block_n: int = 128, scale_block_k: int = 128
+) -> tuple[torch.Tensor, torch.Tensor]:
+    """Quantize B tensor to FP8 with per-block scaling.
+
+    Args:
+        b: Input tensor [num_groups, N, K]
+        scale_block_n: N-dimension block size
+        scale_block_k: K-dimension block size
+
+    Returns:
+        (b_fp8, scale_b): FP8 tensor and scale factors [num_groups, scale_n, scale_k]
+    """
+    num_groups, N, K = b.shape
+    nblk_n = N // scale_block_n
+    nblk_k = K // scale_block_k
+
+    # Reshape to [num_groups, nblk_n, scale_block_n, nblk_k, scale_block_k]
+    b_blocks = b.view(num_groups, nblk_n, scale_block_n, nblk_k, scale_block_k)
+
+    # Compute per-block max
+    b_amax = b_blocks.abs().amax(dim=(2, 4)).clamp(min=1e-12)
+
+    # Scale factors [num_groups, nblk_n, nblk_k]
+    scale = b_amax / 448.0
+
+    # Quantize
+    b_scaled = b_blocks / scale.view(num_groups, nblk_n, 1, nblk_k, 1)
+    b_fp8 = b_scaled.to(DTYPE_FP8).view(num_groups, N, K)
+
+    return b_fp8, scale
+
+
+def torch_grouped_gemm_ref(
+    a: torch.Tensor,
+    scale_a: torch.Tensor,
+    b: torch.Tensor,
+    scale_b: torch.Tensor,
+    grouped_layout: torch.Tensor,
+    scale_block_k: int = 128,
+    scale_block_n: int = 128,
+) -> torch.Tensor:
+    """PyTorch reference implementation for grouped FP8 GEMM with block scaling.
+
+    Args:
+        a: [M, K] FP8 tensor
+        scale_a: [scale_k, M] FP32 scale factors (transposed layout)
+        b: [num_groups, N, K] FP8 tensor
+        scale_b: [num_groups, scale_n, scale_k] FP32 scale factors
+        grouped_layout: [M] INT32 mapping rows to groups (-1 for padding)
+        scale_block_k: K-dimension scale block size
+        scale_block_n: N-dimension scale block size
+
+    Returns:
+        d: [M, N] BF16 output tensor
+    """
+    M, K = a.shape
+    num_groups, N, _ = b.shape
+    nblk_k = K // scale_block_k
+    nblk_n = N // scale_block_n
+
+    # Dequantize A
+    a_f32 = a.to(torch.float32)
+    # scale_a is [scale_k, M], transpose to [M, scale_k]
+    scale_a_t = scale_a.T  # [M, scale_k]
+    # Expand to element-wise: [M, nblk_k, scale_block_k]
+    a_scaled = a_f32.view(M, nblk_k, scale_block_k) * scale_a_t.view(M, nblk_k, 1)
+    a_scaled = a_scaled.view(M, K)
+
+    # Dequantize B per group
+    # scale_b: [num_groups, scale_n, scale_k]
+    # Expand to [num_groups, N, K]
+    b_f32 = b.to(torch.float32)
+    b_scaled = b_f32.view(num_groups, nblk_n, scale_block_n, nblk_k, scale_block_k)
+    b_scaled = b_scaled * scale_b.view(num_groups, nblk_n, 1, nblk_k, 1)
+    b_scaled = b_scaled.view(num_groups, N, K)
+
+    # Compute grouped GEMM
+    d = torch.zeros(M, N, dtype=torch.float32, device=a.device)
+    for g in range(num_groups):
+        mask = grouped_layout == g
+        if mask.any():
+            d[mask] = a_scaled[mask] @ b_scaled[g].T
+
+    return d.to(torch.bfloat16)
+
+
+def generate_grouped_gemm_inputs(
+    num_groups: int,
+    m_per_group: int,
+    n: int,
+    k: int,
+    scale_block_k: int = 128,
+    scale_block_n: int = 128,
+    device: str = "cuda",
+):
+    """Generate test inputs for grouped GEMM.
+
+    Args:
+        num_groups: Number of groups
+        m_per_group: Approximate M rows per group
+        n: N dimension
+        k: K dimension
+        scale_block_k: K-dimension scale block size
+        scale_block_n: N-dimension scale block size
+        device: Device to create tensors on
+
+    Returns:
+        Tuple of (a_fp8, scale_a, b_fp8, scale_b, grouped_layout, d, ref_d)
+    """
+    # Generate variable group sizes (aligned to tile_m=128)
+    tile_m = 128
+    ms = []
+    for _ in range(num_groups):
+        m = int(m_per_group * (0.8 + 0.4 * torch.rand(1).item()))
+        m = align(m, tile_m)
+        ms.append(m)
+    M = sum(ms)
+
+    # Create grouped_layout
+    grouped_layout = torch.empty(M, dtype=torch.int32, device=device)
+    start = 0
+    for g, m in enumerate(ms):
+        grouped_layout[start : start + m] = g
+        start += m
+
+    # Generate random data
+    a_f32 = torch.randn(M, k, device=device, dtype=torch.float32)
+    b_f32 = torch.randn(num_groups, n, k, device=device, dtype=torch.float32)
+
+    # Quantize to FP8
+    a_fp8, scale_a = quantize_to_fp8(a_f32, scale_block_k)
+    b_fp8, scale_b = quantize_b_to_fp8(b_f32, scale_block_n, scale_block_k)
+
+    # Output buffer
+    d = torch.zeros(M, n, dtype=torch.bfloat16, device=device)
+
+    # Reference output
+    ref_d = torch_grouped_gemm_ref(
+        a_fp8, scale_a, b_fp8, scale_b, grouped_layout, scale_block_k, scale_block_n
+    )
+
+    return a_fp8, scale_a, b_fp8, scale_b, grouped_layout, d, ref_d, M
+
+
+def _as_i8(t: torch.Tensor) -> torch.Tensor:
+    """View FP8 tensor as int8 for kernel interface."""
+    return t.view(torch.int8)
+
+
+@pytest.mark.parametrize(
+    "num_groups,m_per_group,n,k",
+    [
+        pytest.param(1, 128, 128, 128, id="single-group-small"),
+        pytest.param(2, 128, 128, 128, id="two-groups-small"),
+        pytest.param(4, 128, 256, 256, id="four-groups-medium"),
+        pytest.param(8, 256, 512, 512, id="eight-groups-larger"),
+    ],
+)
+def test_grouped_fp8_gemm_correctness(num_groups, m_per_group, n, k):
+    """Test grouped FP8 GEMM correctness against PyTorch reference."""
+    scale_block_k = 128
+    scale_block_n = 128
+
+    # Generate inputs
+    a_fp8, scale_a, b_fp8, scale_b, grouped_layout, d, ref_d, M = generate_grouped_gemm_inputs(
+        num_groups, m_per_group, n, k, scale_block_k, scale_block_n
+    )
+
+    # Compile kernel
+    launch_fn = compile_grouped_fp8_gemm(
+        n=n,
+        k=k,
+        num_groups=num_groups,
+        tile_m=128,
+        tile_n=128,
+        tile_k=128,
+        scale_block_k=scale_block_k,
+        scale_block_n=scale_block_n,
+        out_dtype="bf16",
+    )
+
+    # Launch kernel
+    stream = torch.cuda.current_stream()
+    launch_fn(
+        d.contiguous().view(-1),
+        _as_i8(a_fp8.contiguous().view(-1)),
+        _as_i8(b_fp8.contiguous().view(-1)),
+        scale_a.contiguous().view(-1),
+        scale_b.contiguous().view(-1),
+        grouped_layout.contiguous(),
+        M,
+        n,
+        k,
+        num_groups,
+        stream,
+    )
+
+    # Synchronize and check results
+    torch.cuda.synchronize()
+
+    # Compute error metrics
+    diff = (d.float() - ref_d.float()).abs()
+    max_diff = diff.max().item()
+    mean_diff = diff.mean().item()
+    rel_diff = (diff / (ref_d.float().abs() + 1e-6)).max().item()
+
+    print(f"\nTest: num_groups={num_groups}, M={M}, N={n}, K={k}")
+    print(f"  max_diff={max_diff:.6f}, mean_diff={mean_diff:.6f}, rel_diff={rel_diff:.6f}")
+
+    # FP8 has limited precision, so we use relatively loose tolerances
+    assert max_diff < 0.5, f"max_diff {max_diff} exceeds threshold 0.5"
+    assert rel_diff < 0.2, f"rel_diff {rel_diff} exceeds threshold 0.2"
+
+
+@pytest.mark.parametrize(
+    "num_groups,m_per_group,n,k",
+    [
+        pytest.param(8, 512, 1024, 1024, id="perf-8g-512m"),
+    ],
+)
+def test_grouped_fp8_gemm_performance(num_groups, m_per_group, n, k):
+    """Benchmark grouped FP8 GEMM performance."""
+    scale_block_k = 128
+    scale_block_n = 128
+
+    # Generate inputs
+    a_fp8, scale_a, b_fp8, scale_b, grouped_layout, d, ref_d, M = generate_grouped_gemm_inputs(
+        num_groups, m_per_group, n, k, scale_block_k, scale_block_n
+    )
+
+    # Compile kernel
+    launch_fn = compile_grouped_fp8_gemm(
+        n=n,
+        k=k,
+        num_groups=num_groups,
+        tile_m=128,
+        tile_n=128,
+        tile_k=128,
+        scale_block_k=scale_block_k,
+        scale_block_n=scale_block_n,
+        out_dtype="bf16",
+    )
+
+    stream = torch.cuda.current_stream()
+
+    # Warmup
+    for _ in range(5):
+        launch_fn(
+            d.contiguous().view(-1),
+            _as_i8(a_fp8.contiguous().view(-1)),
+            _as_i8(b_fp8.contiguous().view(-1)),
+            scale_a.contiguous().view(-1),
+            scale_b.contiguous().view(-1),
+            grouped_layout.contiguous(),
+            M,
+            n,
+            k,
+            num_groups,
+            stream,
+        )
+    torch.cuda.synchronize()
+
+    # Benchmark
+    start_event = torch.cuda.Event(enable_timing=True)
+    end_event = torch.cuda.Event(enable_timing=True)
+    num_iters = 100
+
+    start_event.record()
+    for _ in range(num_iters):
+        launch_fn(
+            d.contiguous().view(-1),
+            _as_i8(a_fp8.contiguous().view(-1)),
+            _as_i8(b_fp8.contiguous().view(-1)),
+            scale_a.contiguous().view(-1),
+            scale_b.contiguous().view(-1),
+            grouped_layout.contiguous(),
+            M,
+            n,
+            k,
+            num_groups,
+            stream,
+        )
+    end_event.record()
+    torch.cuda.synchronize()
+
+    elapsed_ms = start_event.elapsed_time(end_event) / num_iters
+    flops = 2 * M * n * k
+    tflops = flops / (elapsed_ms * 1e9)
+
+    # Estimate memory bandwidth
+    bytes_a = M * k  # FP8
+    bytes_b = num_groups * n * k  # FP8
+    bytes_d = M * n * 2  # BF16
+    bytes_scales = (k // scale_block_k) * M * 4 + num_groups * (n // scale_block_n) * (k // scale_block_k) * 4
+    total_bytes = bytes_a + bytes_b + bytes_d + bytes_scales
+    bandwidth_gbs = total_bytes / (elapsed_ms * 1e6)
+
+    print(f"\nPerformance: num_groups={num_groups}, M={M}, N={n}, K={k}")
+    print(f"  Time: {elapsed_ms * 1000:.2f} us")
+    print(f"  TFLOPS: {tflops:.2f}")
+    print(f"  Bandwidth: {bandwidth_gbs:.2f} GB/s")
+
+
+if __name__ == "__main__":
+    # Run basic correctness test
+    print("=" * 60)
+    print("Running grouped FP8 GEMM tests")
+    print("=" * 60)
+
+    test_grouped_fp8_gemm_correctness(1, 128, 128, 128)
+    test_grouped_fp8_gemm_correctness(4, 128, 256, 256)
+
+    print("\nAll tests passed!")

From 8bd38a6e23295dc76d09f747804f6ee0e9280e58 Mon Sep 17 00:00:00 2001
From: Aryaman Gupta <aryaman.gupta@amd.com>
Date: Tue, 31 Mar 2026 05:21:21 -0500
Subject: [PATCH 03/39] corrects test_grouped_gemm

---
 tests/kernels/test_grouped_gemm.py | 21 ++++++++++++---------
 1 file changed, 12 insertions(+), 9 deletions(-)

diff --git a/tests/kernels/test_grouped_gemm.py b/tests/kernels/test_grouped_gemm.py
index 77f962839..1727f1006 100644
--- a/tests/kernels/test_grouped_gemm.py
+++ b/tests/kernels/test_grouped_gemm.py
@@ -62,8 +62,8 @@ def quantize_to_fp8(x: torch.Tensor, scale_block_k: int = 128) -> tuple[torch.Te
     # Compute per-block max (for scale)
     x_amax = x_blocks.abs().amax(dim=2).clamp(min=1e-12)
 
-    # FP8 E4M3 max value is 448
-    scale = x_amax / 448.0
+    fp8_max = torch.finfo(DTYPE_FP8).max
+    scale = x_amax / fp8_max
 
     # Quantize
     x_scaled = x_blocks / scale.unsqueeze(2)
@@ -98,8 +98,8 @@ def quantize_b_to_fp8(
     # Compute per-block max
     b_amax = b_blocks.abs().amax(dim=(2, 4)).clamp(min=1e-12)
 
-    # Scale factors [num_groups, nblk_n, nblk_k]
-    scale = b_amax / 448.0
+    fp8_max = torch.finfo(DTYPE_FP8).max
+    scale = b_amax / fp8_max
 
     # Quantize
     b_scaled = b_blocks / scale.view(num_groups, nblk_n, 1, nblk_k, 1)
@@ -152,14 +152,17 @@ def torch_grouped_gemm_ref(
     b_scaled = b_scaled * scale_b.view(num_groups, nblk_n, 1, nblk_k, 1)
     b_scaled = b_scaled.view(num_groups, N, K)
 
-    # Compute grouped GEMM
-    d = torch.zeros(M, N, dtype=torch.float32, device=a.device)
+    # Compute grouped GEMM (on CPU to avoid hipBLAS issues with small/irregular shapes)
+    a_scaled_cpu = a_scaled.cpu()
+    b_scaled_cpu = b_scaled.cpu()
+    grouped_layout_cpu = grouped_layout.cpu()
+    d = torch.zeros(M, N, dtype=torch.float32)
     for g in range(num_groups):
-        mask = grouped_layout == g
+        mask = grouped_layout_cpu == g
         if mask.any():
-            d[mask] = a_scaled[mask] @ b_scaled[g].T
+            d[mask] = a_scaled_cpu[mask] @ b_scaled_cpu[g].T
 
-    return d.to(torch.bfloat16)
+    return d.to(torch.bfloat16).to(a.device)
 
 
 def generate_grouped_gemm_inputs(

From 405bfb6e05f3352a42a2e2a271f4aa158a482280 Mon Sep 17 00:00:00 2001
From: Aryaman Gupta <aryaman.gupta@amd.com>
Date: Tue, 31 Mar 2026 05:44:00 -0500
Subject: [PATCH 04/39] test_grouped_gemm: add argparse CLI entry point

Replace hardcoded test calls with argparse-based __main__ matching
the pattern used by other kernel tests (blockscale, moe, preshuffle).

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
---
 tests/kernels/test_grouped_gemm.py | 28 ++++++++++++++++++++--------
 1 file changed, 20 insertions(+), 8 deletions(-)

diff --git a/tests/kernels/test_grouped_gemm.py b/tests/kernels/test_grouped_gemm.py
index 1727f1006..98b1e884c 100644
--- a/tests/kernels/test_grouped_gemm.py
+++ b/tests/kernels/test_grouped_gemm.py
@@ -383,12 +383,24 @@ def test_grouped_fp8_gemm_performance(num_groups, m_per_group, n, k):
 
 
 if __name__ == "__main__":
-    # Run basic correctness test
-    print("=" * 60)
-    print("Running grouped FP8 GEMM tests")
-    print("=" * 60)
+    import argparse
 
-    test_grouped_fp8_gemm_correctness(1, 128, 128, 128)
-    test_grouped_fp8_gemm_correctness(4, 128, 256, 256)
-
-    print("\nAll tests passed!")
+    parser = argparse.ArgumentParser(
+        description="Grouped FP8 GEMM benchmark",
+        formatter_class=argparse.ArgumentDefaultsHelpFormatter,
+    )
+    parser.add_argument("--num_groups", type=int, default=4)
+    parser.add_argument("--m_per_group", type=int, default=256)
+    parser.add_argument("-N", type=int, default=512)
+    parser.add_argument("-K", type=int, default=512)
+    parser.add_argument("--tile_m", type=int, default=128)
+    parser.add_argument("--tile_n", type=int, default=128)
+    parser.add_argument("--tile_k", type=int, default=128)
+    parser.add_argument("--out_dtype", type=str, default="bf16", choices=["bf16", "f16"])
+    parser.add_argument("--num_iters", type=int, default=100)
+    parser.add_argument("--num_warmup", type=int, default=5)
+    args = parser.parse_args()
+
+    torch.set_default_device("cuda")
+    test_grouped_fp8_gemm_correctness(args.num_groups, args.m_per_group, args.N, args.K)
+    test_grouped_fp8_gemm_performance(args.num_groups, args.m_per_group, args.N, args.K)

From ef7561844a7d0933fb776c6c9aa2964aefccd508 Mon Sep 17 00:00:00 2001
From: Aryaman Gupta <aryaman.gupta@amd.com>
Date: Tue, 31 Mar 2026 05:45:21 -0500
Subject: [PATCH 05/39] test_grouped_gemm: use test_common verify_output and
 run_perftest

Replace inline correctness checks and manual CUDA event benchmarking
with shared utilities from tests.test_common, matching the pattern
used by blockscale_preshuffle_gemm and other kernel tests.

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
---
 tests/kernels/test_grouped_gemm.py | 96 ++++++++++--------------------
 1 file changed, 30 insertions(+), 66 deletions(-)

diff --git a/tests/kernels/test_grouped_gemm.py b/tests/kernels/test_grouped_gemm.py
index 98b1e884c..b1c746d5a 100644
--- a/tests/kernels/test_grouped_gemm.py
+++ b/tests/kernels/test_grouped_gemm.py
@@ -27,6 +27,7 @@
 
 from kernels.grouped_gemm import compile_grouped_fp8_gemm
 from flydsl.runtime.device import get_rocm_arch
+from tests.test_common import run_perftest, verify_output
 
 logging.basicConfig(level=logging.INFO)
 
@@ -260,37 +261,28 @@ def test_grouped_fp8_gemm_correctness(num_groups, m_per_group, n, k):
         out_dtype="bf16",
     )
 
-    # Launch kernel
+    # Launch wrapper
     stream = torch.cuda.current_stream()
-    launch_fn(
+
+    def launch_kernel(d, a, b, sa, sb, gl):
+        launch_fn(d, a, b, sa, sb, gl, M, n, k, num_groups, stream)
+
+    launch_kernel(
         d.contiguous().view(-1),
         _as_i8(a_fp8.contiguous().view(-1)),
         _as_i8(b_fp8.contiguous().view(-1)),
         scale_a.contiguous().view(-1),
         scale_b.contiguous().view(-1),
         grouped_layout.contiguous(),
-        M,
-        n,
-        k,
-        num_groups,
-        stream,
     )
-
-    # Synchronize and check results
     torch.cuda.synchronize()
 
-    # Compute error metrics
-    diff = (d.float() - ref_d.float()).abs()
-    max_diff = diff.max().item()
-    mean_diff = diff.mean().item()
-    rel_diff = (diff / (ref_d.float().abs() + 1e-6)).max().item()
-
-    print(f"\nTest: num_groups={num_groups}, M={M}, N={n}, K={k}")
-    print(f"  max_diff={max_diff:.6f}, mean_diff={mean_diff:.6f}, rel_diff={rel_diff:.6f}")
-
-    # FP8 has limited precision, so we use relatively loose tolerances
-    assert max_diff < 0.5, f"max_diff {max_diff} exceeds threshold 0.5"
-    assert rel_diff < 0.2, f"rel_diff {rel_diff} exceeds threshold 0.2"
+    # Verify correctness
+    c_out_f32 = d.to(torch.float32)
+    c_ref = ref_d.to(torch.float32)
+    msg = f"num_groups={num_groups}, M={M}, N={n}, K={k}"
+    passed = verify_output(c_out_f32, c_ref, rtol=1e-2, atol=1e-2, msg=msg)
+    assert passed, f"Correctness check failed for {msg}"
 
 
 @pytest.mark.parametrize(
@@ -324,62 +316,34 @@ def test_grouped_fp8_gemm_performance(num_groups, m_per_group, n, k):
 
     stream = torch.cuda.current_stream()
 
-    # Warmup
-    for _ in range(5):
-        launch_fn(
-            d.contiguous().view(-1),
-            _as_i8(a_fp8.contiguous().view(-1)),
-            _as_i8(b_fp8.contiguous().view(-1)),
-            scale_a.contiguous().view(-1),
-            scale_b.contiguous().view(-1),
-            grouped_layout.contiguous(),
-            M,
-            n,
-            k,
-            num_groups,
-            stream,
-        )
-    torch.cuda.synchronize()
+    def launch_kernel(d, a, b, sa, sb, gl):
+        launch_fn(d, a, b, sa, sb, gl, M, n, k, num_groups, stream)
 
-    # Benchmark
-    start_event = torch.cuda.Event(enable_timing=True)
-    end_event = torch.cuda.Event(enable_timing=True)
-    num_iters = 100
-
-    start_event.record()
-    for _ in range(num_iters):
-        launch_fn(
-            d.contiguous().view(-1),
-            _as_i8(a_fp8.contiguous().view(-1)),
-            _as_i8(b_fp8.contiguous().view(-1)),
-            scale_a.contiguous().view(-1),
-            scale_b.contiguous().view(-1),
-            grouped_layout.contiguous(),
-            M,
-            n,
-            k,
-            num_groups,
-            stream,
-        )
-    end_event.record()
-    torch.cuda.synchronize()
+    _, us = run_perftest(
+        launch_kernel,
+        d.contiguous().view(-1),
+        _as_i8(a_fp8.contiguous().view(-1)),
+        _as_i8(b_fp8.contiguous().view(-1)),
+        scale_a.contiguous().view(-1),
+        scale_b.contiguous().view(-1),
+        grouped_layout.contiguous(),
+        num_iters=20,
+        num_warmup=3,
+    )
 
-    elapsed_ms = start_event.elapsed_time(end_event) / num_iters
     flops = 2 * M * n * k
-    tflops = flops / (elapsed_ms * 1e9)
-
-    # Estimate memory bandwidth
+    tflops = flops / (us / 1e6) / 1e12
     bytes_a = M * k  # FP8
     bytes_b = num_groups * n * k  # FP8
     bytes_d = M * n * 2  # BF16
     bytes_scales = (k // scale_block_k) * M * 4 + num_groups * (n // scale_block_n) * (k // scale_block_k) * 4
     total_bytes = bytes_a + bytes_b + bytes_d + bytes_scales
-    bandwidth_gbs = total_bytes / (elapsed_ms * 1e6)
+    bandwidth_tbs = total_bytes / (us / 1e6) / 1e12
 
     print(f"\nPerformance: num_groups={num_groups}, M={M}, N={n}, K={k}")
-    print(f"  Time: {elapsed_ms * 1000:.2f} us")
+    print(f"  Time: {us:.2f} us")
     print(f"  TFLOPS: {tflops:.2f}")
-    print(f"  Bandwidth: {bandwidth_gbs:.2f} GB/s")
+    print(f"  Bandwidth: {bandwidth_tbs:.2f} TB/s")
 
 
 if __name__ == "__main__":

From de7ee4afedb2f6b38d75ac8856014e3bd2d6ca18 Mon Sep 17 00:00:00 2001
From: Aryaman Gupta <aryaman.gupta@amd.com>
Date: Tue, 31 Mar 2026 05:54:45 -0500
Subject: [PATCH 06/39] test_grouped_gemm: add large_shape marks to expensive
 test cases

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
---
 tests/kernels/test_grouped_gemm.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/tests/kernels/test_grouped_gemm.py b/tests/kernels/test_grouped_gemm.py
index b1c746d5a..08156f9fa 100644
--- a/tests/kernels/test_grouped_gemm.py
+++ b/tests/kernels/test_grouped_gemm.py
@@ -235,7 +235,7 @@ def _as_i8(t: torch.Tensor) -> torch.Tensor:
         pytest.param(1, 128, 128, 128, id="single-group-small"),
         pytest.param(2, 128, 128, 128, id="two-groups-small"),
         pytest.param(4, 128, 256, 256, id="four-groups-medium"),
-        pytest.param(8, 256, 512, 512, id="eight-groups-larger"),
+        pytest.param(8, 256, 512, 512, id="eight-groups-larger", marks=pytest.mark.large_shape),
     ],
 )
 def test_grouped_fp8_gemm_correctness(num_groups, m_per_group, n, k):
@@ -288,7 +288,7 @@ def launch_kernel(d, a, b, sa, sb, gl):
 @pytest.mark.parametrize(
     "num_groups,m_per_group,n,k",
     [
-        pytest.param(8, 512, 1024, 1024, id="perf-8g-512m"),
+        pytest.param(8, 512, 1024, 1024, id="perf-8g-512m", marks=pytest.mark.large_shape),
     ],
 )
 def test_grouped_fp8_gemm_performance(num_groups, m_per_group, n, k):

From d888d28759ae8d7a2c5ced38773b6dddc7903fef Mon Sep 17 00:00:00 2001
From: Aryaman Gupta <aryaman.gupta@amd.com>
Date: Tue, 31 Mar 2026 05:57:32 -0500
Subject: [PATCH 07/39] test_grouped_gemm: add m_per_group sweep mode
 (--m_per_group 0)

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
---
 tests/kernels/test_grouped_gemm.py | 11 ++++++++---
 1 file changed, 8 insertions(+), 3 deletions(-)

diff --git a/tests/kernels/test_grouped_gemm.py b/tests/kernels/test_grouped_gemm.py
index 08156f9fa..f36ca8f89 100644
--- a/tests/kernels/test_grouped_gemm.py
+++ b/tests/kernels/test_grouped_gemm.py
@@ -354,7 +354,8 @@ def launch_kernel(d, a, b, sa, sb, gl):
         formatter_class=argparse.ArgumentDefaultsHelpFormatter,
     )
     parser.add_argument("--num_groups", type=int, default=4)
-    parser.add_argument("--m_per_group", type=int, default=256)
+    parser.add_argument("--m_per_group", type=int, default=256,
+                        help="Approx M rows per group (0 = sweep [128, 256, 512, 1024])")
     parser.add_argument("-N", type=int, default=512)
     parser.add_argument("-K", type=int, default=512)
     parser.add_argument("--tile_m", type=int, default=128)
@@ -366,5 +367,9 @@ def launch_kernel(d, a, b, sa, sb, gl):
     args = parser.parse_args()
 
     torch.set_default_device("cuda")
-    test_grouped_fp8_gemm_correctness(args.num_groups, args.m_per_group, args.N, args.K)
-    test_grouped_fp8_gemm_performance(args.num_groups, args.m_per_group, args.N, args.K)
+
+    m_list = [args.m_per_group] if args.m_per_group > 0 else [128, 256, 512, 1024]
+
+    for m_per_group in m_list:
+        test_grouped_fp8_gemm_correctness(args.num_groups, m_per_group, args.N, args.K)
+        test_grouped_fp8_gemm_performance(args.num_groups, m_per_group, args.N, args.K)

From 7cebf2d4d7401617e3495ceaac7f55c49019bfd6 Mon Sep 17 00:00:00 2001
From: Aryaman Gupta <aryaman.gupta@amd.com>
Date: Tue, 31 Mar 2026 06:01:14 -0500
Subject: [PATCH 08/39] test_grouped_gemm: default to sweep mode (--m_per_group
 0)

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
---
 tests/kernels/test_grouped_gemm.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/tests/kernels/test_grouped_gemm.py b/tests/kernels/test_grouped_gemm.py
index f36ca8f89..8984fcf71 100644
--- a/tests/kernels/test_grouped_gemm.py
+++ b/tests/kernels/test_grouped_gemm.py
@@ -354,7 +354,7 @@ def launch_kernel(d, a, b, sa, sb, gl):
         formatter_class=argparse.ArgumentDefaultsHelpFormatter,
     )
     parser.add_argument("--num_groups", type=int, default=4)
-    parser.add_argument("--m_per_group", type=int, default=256,
+    parser.add_argument("--m_per_group", type=int, default=0,
                         help="Approx M rows per group (0 = sweep [128, 256, 512, 1024])")
     parser.add_argument("-N", type=int, default=512)
     parser.add_argument("-K", type=int, default=512)

From 1cb5e459cfdc3a702d8d4096effc7e58cd8ce988 Mon Sep 17 00:00:00 2001
From: Aryaman Gupta <aryaman.gupta@amd.com>
Date: Tue, 31 Mar 2026 06:03:16 -0500
Subject: [PATCH 09/39] test_grouped_gemm: match perf output format to
 blockscale test

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
---
 tests/kernels/test_grouped_gemm.py | 6 ++----
 1 file changed, 2 insertions(+), 4 deletions(-)

diff --git a/tests/kernels/test_grouped_gemm.py b/tests/kernels/test_grouped_gemm.py
index 8984fcf71..297fc6653 100644
--- a/tests/kernels/test_grouped_gemm.py
+++ b/tests/kernels/test_grouped_gemm.py
@@ -340,10 +340,8 @@ def launch_kernel(d, a, b, sa, sb, gl):
     total_bytes = bytes_a + bytes_b + bytes_d + bytes_scales
     bandwidth_tbs = total_bytes / (us / 1e6) / 1e12
 
-    print(f"\nPerformance: num_groups={num_groups}, M={M}, N={n}, K={k}")
-    print(f"  Time: {us:.2f} us")
-    print(f"  TFLOPS: {tflops:.2f}")
-    print(f"  Bandwidth: {bandwidth_tbs:.2f} TB/s")
+    print(f"\n  [{num_groups} groups, M={M}, N={n}, K={k}]")
+    print(f"  Throughput: {us:.1f} us, {tflops:.2f} TFLOPS, BW: {bandwidth_tbs:.3f} TB/s")
 
 
 if __name__ == "__main__":

From d18edbc2e291c793ac17707cc04a9310483da36e Mon Sep 17 00:00:00 2001
From: Aryaman Gupta <aryaman.gupta@amd.com>
Date: Tue, 31 Mar 2026 07:06:23 -0500
Subject: [PATCH 10/39] test_grouped_gemm: wire argparse args through to test
 functions

tile_m/n/k, out_dtype, num_iters, and num_warmup were parsed but
never passed to the test functions which hardcoded their own values.

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
---
 tests/kernels/test_grouped_gemm.py | 38 +++++++++++++++++++-----------
 1 file changed, 24 insertions(+), 14 deletions(-)

diff --git a/tests/kernels/test_grouped_gemm.py b/tests/kernels/test_grouped_gemm.py
index 297fc6653..f08092df7 100644
--- a/tests/kernels/test_grouped_gemm.py
+++ b/tests/kernels/test_grouped_gemm.py
@@ -238,7 +238,9 @@ def _as_i8(t: torch.Tensor) -> torch.Tensor:
         pytest.param(8, 256, 512, 512, id="eight-groups-larger", marks=pytest.mark.large_shape),
     ],
 )
-def test_grouped_fp8_gemm_correctness(num_groups, m_per_group, n, k):
+def test_grouped_fp8_gemm_correctness(num_groups, m_per_group, n, k,
+                                      tile_m=128, tile_n=128, tile_k=128,
+                                      out_dtype="bf16"):
     """Test grouped FP8 GEMM correctness against PyTorch reference."""
     scale_block_k = 128
     scale_block_n = 128
@@ -253,12 +255,12 @@ def test_grouped_fp8_gemm_correctness(num_groups, m_per_group, n, k):
         n=n,
         k=k,
         num_groups=num_groups,
-        tile_m=128,
-        tile_n=128,
-        tile_k=128,
+        tile_m=tile_m,
+        tile_n=tile_n,
+        tile_k=tile_k,
         scale_block_k=scale_block_k,
         scale_block_n=scale_block_n,
-        out_dtype="bf16",
+        out_dtype=out_dtype,
     )
 
     # Launch wrapper
@@ -291,7 +293,10 @@ def launch_kernel(d, a, b, sa, sb, gl):
         pytest.param(8, 512, 1024, 1024, id="perf-8g-512m", marks=pytest.mark.large_shape),
     ],
 )
-def test_grouped_fp8_gemm_performance(num_groups, m_per_group, n, k):
+def test_grouped_fp8_gemm_performance(num_groups, m_per_group, n, k,
+                                      tile_m=128, tile_n=128, tile_k=128,
+                                      out_dtype="bf16",
+                                      num_iters=20, num_warmup=3):
     """Benchmark grouped FP8 GEMM performance."""
     scale_block_k = 128
     scale_block_n = 128
@@ -306,12 +311,12 @@ def test_grouped_fp8_gemm_performance(num_groups, m_per_group, n, k):
         n=n,
         k=k,
         num_groups=num_groups,
-        tile_m=128,
-        tile_n=128,
-        tile_k=128,
+        tile_m=tile_m,
+        tile_n=tile_n,
+        tile_k=tile_k,
         scale_block_k=scale_block_k,
         scale_block_n=scale_block_n,
-        out_dtype="bf16",
+        out_dtype=out_dtype,
     )
 
     stream = torch.cuda.current_stream()
@@ -327,8 +332,8 @@ def launch_kernel(d, a, b, sa, sb, gl):
         scale_a.contiguous().view(-1),
         scale_b.contiguous().view(-1),
         grouped_layout.contiguous(),
-        num_iters=20,
-        num_warmup=3,
+        num_iters=num_iters,
+        num_warmup=num_warmup,
     )
 
     flops = 2 * M * n * k
@@ -369,5 +374,10 @@ def launch_kernel(d, a, b, sa, sb, gl):
     m_list = [args.m_per_group] if args.m_per_group > 0 else [128, 256, 512, 1024]
 
     for m_per_group in m_list:
-        test_grouped_fp8_gemm_correctness(args.num_groups, m_per_group, args.N, args.K)
-        test_grouped_fp8_gemm_performance(args.num_groups, m_per_group, args.N, args.K)
+        test_grouped_fp8_gemm_correctness(args.num_groups, m_per_group, args.N, args.K,
+                                          tile_m=args.tile_m, tile_n=args.tile_n,
+                                          tile_k=args.tile_k, out_dtype=args.out_dtype)
+        test_grouped_fp8_gemm_performance(args.num_groups, m_per_group, args.N, args.K,
+                                          tile_m=args.tile_m, tile_n=args.tile_n,
+                                          tile_k=args.tile_k, out_dtype=args.out_dtype,
+                                          num_iters=args.num_iters, num_warmup=args.num_warmup)

From d4794b8e3b9236c0004beed4ffd1dc655a572194 Mon Sep 17 00:00:00 2001
From: Aryaman Gupta <aryaman.gupta@amd.com>
Date: Tue, 31 Mar 2026 07:20:46 -0500
Subject: [PATCH 11/39] test_grouped_gemm: fix device mismatch with
 set_default_device

Explicitly create the CPU reference output tensor with device='cpu'
to avoid conflict when torch.set_default_device('cuda') is active.
The reference matmul stays on CPU due to hipBLAS issues on this ROCm.

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
---
 tests/kernels/test_grouped_gemm.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/tests/kernels/test_grouped_gemm.py b/tests/kernels/test_grouped_gemm.py
index f08092df7..173c68a64 100644
--- a/tests/kernels/test_grouped_gemm.py
+++ b/tests/kernels/test_grouped_gemm.py
@@ -153,11 +153,11 @@ def torch_grouped_gemm_ref(
     b_scaled = b_scaled * scale_b.view(num_groups, nblk_n, 1, nblk_k, 1)
     b_scaled = b_scaled.view(num_groups, N, K)
 
-    # Compute grouped GEMM (on CPU to avoid hipBLAS issues with small/irregular shapes)
+    # Compute grouped GEMM on CPU (hipBLAS on this ROCm version can't handle these shapes)
     a_scaled_cpu = a_scaled.cpu()
     b_scaled_cpu = b_scaled.cpu()
     grouped_layout_cpu = grouped_layout.cpu()
-    d = torch.zeros(M, N, dtype=torch.float32)
+    d = torch.zeros(M, N, dtype=torch.float32, device="cpu")
     for g in range(num_groups):
         mask = grouped_layout_cpu == g
         if mask.any():

From 0eafe32747fe9213d505726e3696659acdd504f5 Mon Sep 17 00:00:00 2001
From: Aryaman Gupta <aryaman.gupta@amd.com>
Date: Tue, 31 Mar 2026 08:32:40 -0500
Subject: [PATCH 12/39] grouped_gemm.py: fixes bug in buffer_load offsets

---
 kernels/grouped_gemm.py | 12 +++++++-----
 1 file changed, 7 insertions(+), 5 deletions(-)

diff --git a/kernels/grouped_gemm.py b/kernels/grouped_gemm.py
index eba3569e5..4c8a3a462 100644
--- a/kernels/grouped_gemm.py
+++ b/kernels/grouped_gemm.py
@@ -251,8 +251,9 @@ def grouped_fp8_gemm_kernel(
                     row_global = bx_m + row_local
                     a_idx = row_global * k_in + k_base + col_local
 
-                    # Load 16 bytes (16 FP8 elements)
-                    a_vec = buffer_ops.buffer_load(a_rsrc, a_idx, vec_width=4, dtype=T.i32)
+                    # Load 16 bytes (16 FP8 elements);
+                    # buffer_load internally multiplies offset by element size, so we divide index by 4 for i32
+                    a_vec = buffer_ops.buffer_load(a_rsrc, a_idx // fx.Index(4), vec_width=4, dtype=T.i32)
 
                     # Store to LDS
                     lds_coord = (row_local, col_local)
@@ -322,10 +323,11 @@ def grouped_fp8_gemm_kernel(
                                 b_col = by_n + n_tile_base + arith.index(ni * 16) + lane_mod_16
                                 b_k_base = k_base + fx.Index(k_offset_bytes) + lane_div_16 * fx.Index(16)
 
-                                b_idx0 = b_group_off + b_col * k_in + b_k_base
-                                b_idx1 = b_idx0 + fx.Index(8)
+                                b_byte_off = b_group_off + b_col * k_in + b_k_base
+                                b_idx0 = b_byte_off // fx.Index(4)
+                                b_idx1 = b_idx0 + fx.Index(2)  # +2 i32 elements = +8 bytes
 
-                                # Load 8 bytes each for the two K32 MFMAs
+                                # Load 8 bytes each for the two K32 MFMAs; offset in i32 elements
                                 b0_i32x2 = buffer_ops.buffer_load(b_rsrc, b_idx0, vec_width=2, dtype=T.i32)
                                 b1_i32x2 = buffer_ops.buffer_load(b_rsrc, b_idx1, vec_width=2, dtype=T.i32)
 

From d27833126f23a48f372844a19b4f4237d7737cd4 Mon Sep 17 00:00:00 2001
From: Aryaman Gupta <aryaman.gupta@amd.com>
Date: Tue, 31 Mar 2026 12:08:46 -0500
Subject: [PATCH 13/39] grouped_gemm.py: adds LDS ping-pong

---
 kernels/grouped_gemm.py | 72 +++++++++++++++++++++++++----------------
 1 file changed, 45 insertions(+), 27 deletions(-)

diff --git a/kernels/grouped_gemm.py b/kernels/grouped_gemm.py
index 4c8a3a462..198ea8045 100644
--- a/kernels/grouped_gemm.py
+++ b/kernels/grouped_gemm.py
@@ -15,7 +15,8 @@
   - A: (1, 128) - per-token, per-128-K-elements
   - B: (128, 128) - per-128-N, per-128-K block
 
-This is Step 0 (baseline): single-buffered LDS, no advanced optimizations.
+Optimizations applied:
+  - LDS ping-pong double buffering for A tiles
 """
 
 import functools
@@ -69,6 +70,7 @@ def compile_grouped_fp8_gemm(
     """
     gpu_arch = get_hip_arch()
     _is_gfx950 = str(gpu_arch).startswith("gfx95")
+
     allocator = SmemAllocator(None, arch=gpu_arch, global_sym_name="smem_grouped_gemm")
 
     # Validate parameters
@@ -95,18 +97,19 @@ def compile_grouped_fp8_gemm(
     sb_per_tile = tile_k // scale_block_k  # scale blocks per K-tile
     k_unroll = tile_k // 64  # K64-byte micro-steps (for K32 MFMA pairs)
 
-    # LDS allocation (single-buffered for baseline)
+    # LDS allocation: 2x for ping-pong double buffer
     lds_a_bytes = tile_m * tile_k * elem_bytes
-    lds_alloc_bytes = lds_a_bytes
+    lds_total_bytes = 2 * lds_a_bytes
     lds_alloc_offset = allocator._align(allocator.ptr, 16)
-    allocator.ptr = lds_alloc_offset + lds_alloc_bytes
+    allocator.ptr = lds_alloc_offset + lds_total_bytes
+    lds_tile_elems = tile_m * tile_k  # element offset between ping and pong
 
     # Module name for caching
     module_name = (
         f"grouped_fp8_gemm_{out_dtype}"
         f"_n{n}_k{k}_g{num_groups}"
         f"_t{tile_m}x{tile_n}x{tile_k}"
-        f"_baseline"
+        f"_pingpong"
     ).replace("-", "_")
 
     # Thread -> tile element mapping for A loads
@@ -153,11 +156,13 @@ def grouped_fp8_gemm_kernel(
         lane_div_16 = fx.get(coord_lane16, 0)
         lane_mod_16 = fx.get(coord_lane16, 1)
 
-        # LDS setup
+        # LDS setup: single memref for both ping-pong buffers
         base_ptr = allocator.get_base()
-        lds_a = SmemPtr(base_ptr, lds_alloc_offset, T.f8, shape=(tile_m * tile_k,)).get()
+        lds_a = SmemPtr(base_ptr, lds_alloc_offset, T.f8, shape=(2 * tile_m * tile_k,)).get()
         lds_stride = tile_k
         layout_lds = fx.make_layout((tile_m, tile_k), stride=(lds_stride, 1))
+        lds_base_pong = fx.Index(0)
+        lds_base_ping = fx.Index(lds_tile_elems)
 
         # Buffer resources
         a_nbytes = m_in * k_in
@@ -232,14 +237,10 @@ def grouped_fp8_gemm_kernel(
             layout_a_tile = fx.make_layout((tile_m, tile_k_div16), stride=(tile_k_div16, 1))
             loads_per_thread = bytes_per_thread_a // 16  # 16-byte loads
 
-            # Main K-loop
-            c_scale_block_k = fx.Index(scale_block_k)
-            c_tile_k = fx.Index(tile_k)
-
-            for k_tile_idx in range_constexpr(num_k_tiles):
-                k_base = fx.Index(k_tile_idx * tile_k)
-
-                # ===== Load A tile to LDS =====
+            # ── Helper: load A tile to LDS ──────────────────────────────
+            def load_a_tile(k_tile_idx_py, lds_base):
+                """Load A[bx_m : bx_m+tile_m, k_base : k_base+tile_k] into lds_a at lds_base."""
+                k_base = fx.Index(k_tile_idx_py * tile_k)
                 for load_idx in range_constexpr(loads_per_thread):
                     lin_idx = tx * fx.Index(loads_per_thread) + fx.Index(load_idx)
                     coord = fx.idx2crd(lin_idx, layout_a_tile)
@@ -247,26 +248,24 @@ def grouped_fp8_gemm_kernel(
                     col_local_16 = fx.get(coord, 1)
                     col_local = col_local_16 * fx.Index(16)
 
-                    # Global A index
                     row_global = bx_m + row_local
                     a_idx = row_global * k_in + k_base + col_local
 
-                    # Load 16 bytes (16 FP8 elements);
-                    # buffer_load internally multiplies offset by element size, so we divide index by 4 for i32
                     a_vec = buffer_ops.buffer_load(a_rsrc, a_idx // fx.Index(4), vec_width=4, dtype=T.i32)
 
-                    # Store to LDS
                     lds_coord = (row_local, col_local)
-                    lds_idx = crd2idx(lds_coord, layout_lds)
+                    lds_idx = crd2idx(lds_coord, layout_lds) + lds_base
                     a_vec_f8 = vector.bitcast(T.vec(16, T.f8), a_vec)
                     vector.store(a_vec_f8, lds_a, [lds_idx])
 
-                gpu.barrier()
+            # ── Helper: compute one K-tile from LDS ─────────────────────
+            def compute_tile(accs_in, k_tile_idx_py, lds_base):
+                """Compute MFMA tiles for one K-tile, return updated accumulators."""
+                current_accs = list(accs_in)
+                k_base = fx.Index(k_tile_idx_py * tile_k)
 
-                # ===== Compute MFMA tiles =====
-                # For each scale block in this K-tile
                 for sb in range_constexpr(sb_per_tile):
-                    kb = fx.Index(k_tile_idx * sb_per_tile + sb)  # Global K-block index
+                    kb = fx.Index(k_tile_idx_py * sb_per_tile + sb)
 
                     # Load scale_a for this K-block (per-token scale)
                     # scale_a layout: [scale_k, M] transposed
@@ -299,7 +298,7 @@ def grouped_fp8_gemm_kernel(
 
                     for ku_local in range_constexpr(ku_per_sb):
                         ku = sb * ku_per_sb + ku_local
-                        k_offset_bytes = ku * 64  # Byte offset within tile
+                        k_offset_bytes = ku * 64
 
                         for mi in range_constexpr(m_repeat):
                             # Load A from LDS (16 bytes = 2 x 8 bytes for K32 MFMA pair)
@@ -308,7 +307,7 @@ def grouped_fp8_gemm_kernel(
 
                             # Load 16 bytes and split into two i64 for K32 MFMAs
                             lds_coord_a = (row_a_lds, col_a_base)
-                            lds_idx_a = crd2idx(lds_coord_a, layout_lds)
+                            lds_idx_a = crd2idx(lds_coord_a, layout_lds) + lds_base
                             a16 = vector.load_op(T.vec(16, T.f8), lds_a, [lds_idx_a])
                             a_i64x2 = vector.bitcast(T.i64x2, a16)
                             a0 = vector.extract(a_i64x2, static_position=[0], dynamic_position=[])
@@ -349,10 +348,29 @@ def grouped_fp8_gemm_kernel(
                                 s_a_v4 = s_a_vecs[mi]
                                 s_b_bc = vector.broadcast(T.f32x4, s_b_vals[ni])
                                 scaled = ArithValue(mfma_result) * ArithValue(s_a_v4)
-                                accs[acc_idx] = math_dialect.fma(scaled, s_b_bc, accs[acc_idx])
+                                current_accs[acc_idx] = math_dialect.fma(scaled, s_b_bc, current_accs[acc_idx])
 
+                return current_accs
+
+            # ===== Ping-pong K-loop =====
+            # Prologue: load first tile into pong
+            load_a_tile(0, lds_base_pong)
+            gpu.barrier()
+
+            for k_pair in range_constexpr(0, num_k_tiles, 2):
+                # Load next tile into ping while computing current from pong
+                if k_pair + 1 < num_k_tiles:
+                    load_a_tile(k_pair + 1, lds_base_ping)
+                accs = compute_tile(accs, k_pair, lds_base_pong)
                 gpu.barrier()
 
+                # Load next tile into pong while computing current from ping
+                if k_pair + 1 < num_k_tiles:
+                    if k_pair + 2 < num_k_tiles:
+                        load_a_tile(k_pair + 2, lds_base_pong)
+                    accs = compute_tile(accs, k_pair + 1, lds_base_ping)
+                    gpu.barrier()
+
             # ===== Epilogue: store results =====
             c_n = n_in
             lane_div_16_mul4 = lane_div_16 * fx.Index(4)

From 84936b9b7cd1f57f87d27a0fa86e53a129daa65f Mon Sep 17 00:00:00 2001
From: Aryaman Gupta <aryaman.gupta@amd.com>
Date: Wed, 1 Apr 2026 07:19:21 -0500
Subject: [PATCH 14/39] grouped_gemm.py: adds XOR swizzle to LDS

---
 kernels/grouped_gemm.py | 101 ++++++++++++++++++++++++++--------------
 1 file changed, 66 insertions(+), 35 deletions(-)

diff --git a/kernels/grouped_gemm.py b/kernels/grouped_gemm.py
index 198ea8045..36aee2eee 100644
--- a/kernels/grouped_gemm.py
+++ b/kernels/grouped_gemm.py
@@ -17,6 +17,7 @@
 
 Optimizations applied:
   - LDS ping-pong double buffering for A tiles
+  - XOR swizzle for LDS bank conflict avoidance
 """
 
 import functools
@@ -36,7 +37,12 @@
 from flydsl.expr.typing import T
 from flydsl.expr.arith import ArithValue
 
-from kernels.mfma_preshuffle_pipeline import crd2idx
+from kernels.mfma_preshuffle_pipeline import (
+    crd2idx,
+    lds_store_16b_xor16,
+    swizzle_xor16,
+    tile_chunk_coord_i32,
+)
 
 
 @functools.lru_cache(maxsize=128)
@@ -113,8 +119,13 @@ def compile_grouped_fp8_gemm(
     ).replace("-", "_")
 
     # Thread -> tile element mapping for A loads
+    tile_k_bytes = tile_k * elem_bytes
+    tile_k_dwords = tile_k_bytes // 4
     bytes_a_per_tile = tile_m * tile_k * elem_bytes
     bytes_per_thread_a = bytes_a_per_tile // total_threads
+    a_load_bytes = 16  # 16-byte loads (dwordx4)
+    chunk_i32_a = a_load_bytes // 4  # 4 dwords per load
+    num_a_loads = bytes_per_thread_a // a_load_bytes
 
     @flyc.kernel(name=module_name)
     def grouped_fp8_gemm_kernel(
@@ -232,31 +243,58 @@ def grouped_fp8_gemm_kernel(
                 n_blk = col_base // c_scale_block_n
                 n_block_for_scale.append(n_blk)
 
-            # A load mapping: thread -> (row, col) in tile
-            tile_k_div16 = tile_k // 16
-            layout_a_tile = fx.make_layout((tile_m, tile_k_div16), stride=(tile_k_div16, 1))
-            loads_per_thread = bytes_per_thread_a // 16  # 16-byte loads
-
-            # ── Helper: load A tile to LDS ──────────────────────────────
+            # A load mapping: thread -> (row, col_i32) in tile (dword-indexed K)
+            layout_a_tile_div4 = fx.make_layout(
+                (tile_m, tile_k_dwords), stride=(tile_k_dwords, 1)
+            )
+            c_chunk_a = fx.Index(chunk_i32_a)
+            tx_i32_base = tx * c_chunk_a
+            _k_div4_factor = k_in // fx.Index(4)
+            k_blocks16 = arith.index(tile_k_bytes // 16)
+            c4_bytes = fx.Index(4)
+
+            # Precompute per-load tile coordinates (row_local, col_local_i32)
+            a_row_local = []
+            a_col_local_i32 = []
+            for i in range_constexpr(num_a_loads):
+                row_local, col_local_i32 = tile_chunk_coord_i32(
+                    arith, tx_i32_base=tx_i32_base, i=i,
+                    total_threads=total_threads,
+                    layout_tile_div4=layout_a_tile_div4,
+                    chunk_i32=chunk_i32_a,
+                )
+                a_row_local.append(row_local)
+                a_col_local_i32.append(col_local_i32)
+
+            # ── Helper: load A tile to LDS with XOR swizzle ─────────────
             def load_a_tile(k_tile_idx_py, lds_base):
-                """Load A[bx_m : bx_m+tile_m, k_base : k_base+tile_k] into lds_a at lds_base."""
-                k_base = fx.Index(k_tile_idx_py * tile_k)
-                for load_idx in range_constexpr(loads_per_thread):
-                    lin_idx = tx * fx.Index(loads_per_thread) + fx.Index(load_idx)
-                    coord = fx.idx2crd(lin_idx, layout_a_tile)
-                    row_local = fx.get(coord, 0)
-                    col_local_16 = fx.get(coord, 1)
-                    col_local = col_local_16 * fx.Index(16)
-
-                    row_global = bx_m + row_local
-                    a_idx = row_global * k_in + k_base + col_local
-
-                    a_vec = buffer_ops.buffer_load(a_rsrc, a_idx // fx.Index(4), vec_width=4, dtype=T.i32)
-
-                    lds_coord = (row_local, col_local)
-                    lds_idx = crd2idx(lds_coord, layout_lds) + lds_base
-                    a_vec_f8 = vector.bitcast(T.vec(16, T.f8), a_vec)
-                    vector.store(a_vec_f8, lds_a, [lds_idx])
+                """Load A tile from global to LDS with XOR16 swizzle."""
+                base_k_div4 = fx.Index(k_tile_idx_py * tile_k_dwords)
+                for i in range_constexpr(num_a_loads):
+                    row_global = bx_m + a_row_local[i]
+                    idx_i32 = row_global * _k_div4_factor + base_k_div4 + a_col_local_i32[i]
+                    a_vec = buffer_ops.buffer_load(a_rsrc, idx_i32, vec_width=4, dtype=T.i32)
+                    lds_store_16b_xor16(
+                        arith, vector,
+                        lds_memref=lds_a, vec16_ty=T.f8x16,
+                        layout_lds=layout_lds,
+                        row_local=a_row_local[i],
+                        col_local_i32=a_col_local_i32[i],
+                        tx_c4=c4_bytes, k_blocks16=k_blocks16,
+                        lds_base=lds_base,
+                        vec_part_i32x4=a_vec, elem_bytes=elem_bytes,
+                    )
+
+            # ── Helper: load A K64 pack from LDS with XOR swizzle ────────
+            def lds_load_packs_k64(curr_row_a_lds, col_base_bytes, lds_base):
+                """Load 16B from LDS with XOR16 swizzle, return two i64 halves."""
+                col_base_swz_bytes = swizzle_xor16(curr_row_a_lds, col_base_bytes, k_blocks16)
+                idx_a16 = crd2idx((curr_row_a_lds, col_base_swz_bytes), layout_lds) + lds_base
+                loaded_a16 = vector.load_op(T.vec(16, T.f8), lds_a, [idx_a16])
+                a_i64x2 = vector.bitcast(T.i64x2, loaded_a16)
+                a0 = vector.extract(a_i64x2, static_position=[0], dynamic_position=[])
+                a1 = vector.extract(a_i64x2, static_position=[1], dynamic_position=[])
+                return a0, a1
 
             # ── Helper: compute one K-tile from LDS ─────────────────────
             def compute_tile(accs_in, k_tile_idx_py, lds_base):
@@ -301,17 +339,10 @@ def compute_tile(accs_in, k_tile_idx_py, lds_base):
                         k_offset_bytes = ku * 64
 
                         for mi in range_constexpr(m_repeat):
-                            # Load A from LDS (16 bytes = 2 x 8 bytes for K32 MFMA pair)
+                            # Load A from LDS with XOR swizzle (16 bytes = 2 x 8 bytes for K32 MFMA pair)
                             row_a_lds = lane_mod_16 + arith.index(mi * 16)
-                            col_a_base = lane_div_16 * fx.Index(16) + fx.Index(k_offset_bytes)
-
-                            # Load 16 bytes and split into two i64 for K32 MFMAs
-                            lds_coord_a = (row_a_lds, col_a_base)
-                            lds_idx_a = crd2idx(lds_coord_a, layout_lds) + lds_base
-                            a16 = vector.load_op(T.vec(16, T.f8), lds_a, [lds_idx_a])
-                            a_i64x2 = vector.bitcast(T.i64x2, a16)
-                            a0 = vector.extract(a_i64x2, static_position=[0], dynamic_position=[])
-                            a1 = vector.extract(a_i64x2, static_position=[1], dynamic_position=[])
+                            col_a_base_bytes = lane_div_16 * fx.Index(16) + fx.Index(k_offset_bytes)
+                            a0, a1 = lds_load_packs_k64(row_a_lds, col_a_base_bytes, lds_base)
 
                             for ni in range_constexpr(num_acc_n):
                                 acc_idx = mi * num_acc_n + ni

From c9aed0a19077c41fd81c1ac1cf4e584cdeb655e9 Mon Sep 17 00:00:00 2001
From: Aryaman Gupta <aryaman.gupta@amd.com>
Date: Wed, 1 Apr 2026 08:34:31 -0500
Subject: [PATCH 15/39] grouped_gemm, test: implements preshuffle optimization
 for weights

---
 kernels/grouped_gemm.py            | 111 +++++++++++++++++++----------
 tests/kernels/test_grouped_gemm.py |   8 ++-
 2 files changed, 81 insertions(+), 38 deletions(-)

diff --git a/kernels/grouped_gemm.py b/kernels/grouped_gemm.py
index 36aee2eee..e049ba21c 100644
--- a/kernels/grouped_gemm.py
+++ b/kernels/grouped_gemm.py
@@ -18,6 +18,7 @@
 Optimizations applied:
   - LDS ping-pong double buffering for A tiles
   - XOR swizzle for LDS bank conflict avoidance
+  - Preshuffle B layout with load_b_pack_k32
 """
 
 import functools
@@ -40,6 +41,8 @@
 from kernels.mfma_preshuffle_pipeline import (
     crd2idx,
     lds_store_16b_xor16,
+    load_b_pack_k32,
+    make_preshuffle_b_layout,
     swizzle_xor16,
     tile_chunk_coord_i32,
 )
@@ -102,6 +105,7 @@ def compile_grouped_fp8_gemm(
     scale_n = n // scale_block_n
     sb_per_tile = tile_k // scale_block_k  # scale blocks per K-tile
     k_unroll = tile_k // 64  # K64-byte micro-steps (for K32 MFMA pairs)
+    kpack_bytes = 16  # 16-byte packs for FP8
 
     # LDS allocation: 2x for ping-pong double buffer
     lds_a_bytes = tile_m * tile_k * elem_bytes
@@ -243,6 +247,27 @@ def grouped_fp8_gemm_kernel(
                 n_blk = col_base // c_scale_block_n
                 n_block_for_scale.append(n_blk)
 
+            # B preshuffle layout: total N = num_groups * N (all groups concatenated)
+            c_n_total = num_groups_in * n_in
+            b_layout = make_preshuffle_b_layout(
+                arith, c_n=c_n_total, c_k=k_in,
+                kpack_bytes=kpack_bytes, elem_bytes=elem_bytes,
+            )
+            layout_b = b_layout.layout_b
+
+            # Decompose global N column into (n_blk, n_intra) for preshuffle layout
+            c_n0 = c_n_total // fx.Index(16)
+            c_n0_i32 = arith.index_cast(T.i32, c_n0)
+            layout_n_blk_intra = fx.make_layout((c_n0_i32, 16), stride=(16, 1))
+            n_blk_list = []
+            n_intra_list = []
+            group_n_off = group_idx * n_in  # N-offset for this group in concatenated B
+            for ni in range_constexpr(num_acc_n):
+                col_global = group_n_off + by_n + n_tile_base + arith.index(ni * 16) + lane_mod_16
+                coord_ni = fx.idx2crd(col_global, layout_n_blk_intra)
+                n_blk_list.append(fx.get(coord_ni, 0))
+                n_intra_list.append(fx.get(coord_ni, 1))
+
             # A load mapping: thread -> (row, col_i32) in tile (dword-indexed K)
             layout_a_tile_div4 = fx.make_layout(
                 (tile_m, tile_k_dwords), stride=(tile_k_dwords, 1)
@@ -296,11 +321,46 @@ def lds_load_packs_k64(curr_row_a_lds, col_base_bytes, lds_base):
                 a1 = vector.extract(a_i64x2, static_position=[1], dynamic_position=[])
                 return a0, a1
 
-            # ── Helper: compute one K-tile from LDS ─────────────────────
-            def compute_tile(accs_in, k_tile_idx_py, lds_base):
+            # ── Helper: load one B pack (K32 micro-step) ────────────────
+            def load_b_pack(base_k, ki_step, ni):
+                return load_b_pack_k32(
+                    buffer_ops, arith, vector,
+                    arg_b=arg_b, b_rsrc=b_rsrc,
+                    layout_b=layout_b,
+                    base_k=base_k, ki_step=ki_step,
+                    n_blk=n_blk_list[ni],
+                    n_intra=n_intra_list[ni],
+                    lane_div_16=lane_div_16,
+                    elem_type=T.f8,
+                    kpack_bytes=kpack_bytes,
+                    elem_bytes=elem_bytes,
+                )
+
+            # ── Helper: prefetch entire B tile (gmem -> regs) ───────────
+            def load_b_tile(base_k):
+                """Load all B packs for one K-tile.
+
+                Returns list of length k_unroll, each entry is
+                (packs_half0[ni], packs_half1[ni]) for one K64 micro-step.
+                """
+                b_tile = []
+                for ku in range_constexpr(k_unroll):
+                    packs0 = []
+                    packs1 = []
+                    for ni in range_constexpr(num_acc_n):
+                        ki0 = (ku * 2) + 0
+                        ki1 = (ku * 2) + 1
+                        b0 = load_b_pack(base_k, ki0, ni)
+                        b1 = load_b_pack(base_k, ki1, ni)
+                        packs0.append(b0)
+                        packs1.append(b1)
+                    b_tile.append((packs0, packs1))
+                return b_tile
+
+            # ── Helper: compute one K-tile from LDS + B tile ────────────
+            def compute_tile(accs_in, k_tile_idx_py, lds_base, b_tile_in):
                 """Compute MFMA tiles for one K-tile, return updated accumulators."""
                 current_accs = list(accs_in)
-                k_base = fx.Index(k_tile_idx_py * tile_k)
 
                 for sb in range_constexpr(sb_per_tile):
                     kb = fx.Index(k_tile_idx_py * sb_per_tile + sb)
@@ -331,15 +391,14 @@ def compute_tile(accs_in, k_tile_idx_py, lds_base):
                         s_b_vals.append(s_b_val)
 
                     # MFMA computation for this scale block
-                    # K64 micro-steps within scale block
                     ku_per_sb = scale_block_k // 64
 
                     for ku_local in range_constexpr(ku_per_sb):
                         ku = sb * ku_per_sb + ku_local
                         k_offset_bytes = ku * 64
+                        b_packs0, b_packs1 = b_tile_in[ku]
 
                         for mi in range_constexpr(m_repeat):
-                            # Load A from LDS with XOR swizzle (16 bytes = 2 x 8 bytes for K32 MFMA pair)
                             row_a_lds = lane_mod_16 + arith.index(mi * 16)
                             col_a_base_bytes = lane_div_16 * fx.Index(16) + fx.Index(k_offset_bytes)
                             a0, a1 = lds_load_packs_k64(row_a_lds, col_a_base_bytes, lds_base)
@@ -347,33 +406,10 @@ def compute_tile(accs_in, k_tile_idx_py, lds_base):
                             for ni in range_constexpr(num_acc_n):
                                 acc_idx = mi * num_acc_n + ni
 
-                                # Load B from global memory
-                                # B layout: [num_groups, N, K] with K-major
-                                b_group_off = group_idx * (n_in * k_in)
-                                b_col = by_n + n_tile_base + arith.index(ni * 16) + lane_mod_16
-                                b_k_base = k_base + fx.Index(k_offset_bytes) + lane_div_16 * fx.Index(16)
-
-                                b_byte_off = b_group_off + b_col * k_in + b_k_base
-                                b_idx0 = b_byte_off // fx.Index(4)
-                                b_idx1 = b_idx0 + fx.Index(2)  # +2 i32 elements = +8 bytes
-
-                                # Load 8 bytes each for the two K32 MFMAs; offset in i32 elements
-                                b0_i32x2 = buffer_ops.buffer_load(b_rsrc, b_idx0, vec_width=2, dtype=T.i32)
-                                b1_i32x2 = buffer_ops.buffer_load(b_rsrc, b_idx1, vec_width=2, dtype=T.i32)
-
-                                b0_i64 = vector.extract(
-                                    vector.bitcast(T.vec(1, T.i64), b0_i32x2),
-                                    static_position=[0], dynamic_position=[]
-                                )
-                                b1_i64 = vector.extract(
-                                    vector.bitcast(T.vec(1, T.i64), b1_i32x2),
-                                    static_position=[0], dynamic_position=[]
-                                )
-
-                                # Two K32 MFMAs
+                                # Two K32 MFMAs using preshuffle B packs
                                 mfma_fn = rocdl.mfma_f32_16x16x32_fp8_fp8
-                                mfma_mid = mfma_fn(T.f32x4, [a0, b0_i64, acc_init, 0, 0, 0])
-                                mfma_result = mfma_fn(T.f32x4, [a1, b1_i64, mfma_mid, 0, 0, 0])
+                                mfma_mid = mfma_fn(T.f32x4, [a0, b_packs0[ni], acc_init, 0, 0, 0])
+                                mfma_result = mfma_fn(T.f32x4, [a1, b_packs1[ni], mfma_mid, 0, 0, 0])
 
                                 # Apply scales: accum += mfma_result * scale_a * scale_b
                                 s_a_v4 = s_a_vecs[mi]
@@ -384,22 +420,25 @@ def compute_tile(accs_in, k_tile_idx_py, lds_base):
                 return current_accs
 
             # ===== Ping-pong K-loop =====
-            # Prologue: load first tile into pong
+            # Prologue: load first A tile and B tile
             load_a_tile(0, lds_base_pong)
+            b_tile_pong = load_b_tile(fx.Index(0))
             gpu.barrier()
 
             for k_pair in range_constexpr(0, num_k_tiles, 2):
-                # Load next tile into ping while computing current from pong
+                # Load next A+B into ping while computing current from pong
                 if k_pair + 1 < num_k_tiles:
                     load_a_tile(k_pair + 1, lds_base_ping)
-                accs = compute_tile(accs, k_pair, lds_base_pong)
+                    b_tile_ping = load_b_tile(fx.Index((k_pair + 1) * tile_k))
+                accs = compute_tile(accs, k_pair, lds_base_pong, b_tile_pong)
                 gpu.barrier()
 
-                # Load next tile into pong while computing current from ping
+                # Load next A+B into pong while computing current from ping
                 if k_pair + 1 < num_k_tiles:
                     if k_pair + 2 < num_k_tiles:
                         load_a_tile(k_pair + 2, lds_base_pong)
-                    accs = compute_tile(accs, k_pair + 1, lds_base_ping)
+                        b_tile_pong = load_b_tile(fx.Index((k_pair + 2) * tile_k))
+                    accs = compute_tile(accs, k_pair + 1, lds_base_ping, b_tile_ping)
                     gpu.barrier()
 
             # ===== Epilogue: store results =====
diff --git a/tests/kernels/test_grouped_gemm.py b/tests/kernels/test_grouped_gemm.py
index 173c68a64..2850f11fa 100644
--- a/tests/kernels/test_grouped_gemm.py
+++ b/tests/kernels/test_grouped_gemm.py
@@ -28,6 +28,7 @@
 from kernels.grouped_gemm import compile_grouped_fp8_gemm
 from flydsl.runtime.device import get_rocm_arch
 from tests.test_common import run_perftest, verify_output
+from tests.utils import shuffle_weight
 
 logging.basicConfig(level=logging.INFO)
 
@@ -216,12 +217,15 @@ def generate_grouped_gemm_inputs(
     # Output buffer
     d = torch.zeros(M, n, dtype=torch.bfloat16, device=device)
 
-    # Reference output
+    # Reference output (uses unshuffled B)
     ref_d = torch_grouped_gemm_ref(
         a_fp8, scale_a, b_fp8, scale_b, grouped_layout, scale_block_k, scale_block_n
     )
 
-    return a_fp8, scale_a, b_fp8, scale_b, grouped_layout, d, ref_d, M
+    # Preshuffle B for kernel (applied per-group, batch dim folded automatically)
+    b_shuffled = shuffle_weight(b_fp8, layout=(16, 16))
+
+    return a_fp8, scale_a, b_shuffled, scale_b, grouped_layout, d, ref_d, M
 
 
 def _as_i8(t: torch.Tensor) -> torch.Tensor:

From a8e83971a6f0b8ed600e673f4b58d47f2344711b Mon Sep 17 00:00:00 2001
From: Aryaman Gupta <aryaman.gupta@amd.com>
Date: Thu, 2 Apr 2026 05:17:31 -0500
Subject: [PATCH 16/39] group_gemm.py: implements prefetch optimization

---
 kernels/grouped_gemm.py | 39 ++++++++++++++++++++++++++++++++-------
 1 file changed, 32 insertions(+), 7 deletions(-)

diff --git a/kernels/grouped_gemm.py b/kernels/grouped_gemm.py
index e049ba21c..cd3f7e5d5 100644
--- a/kernels/grouped_gemm.py
+++ b/kernels/grouped_gemm.py
@@ -19,6 +19,7 @@
   - LDS ping-pong double buffering for A tiles
   - XOR swizzle for LDS bank conflict avoidance
   - Preshuffle B layout with load_b_pack_k32
+  - A0 LDS prefetch (cross-tile, hides LDS read latency behind VMEM)
 """
 
 import functools
@@ -357,8 +358,12 @@ def load_b_tile(base_k):
                     b_tile.append((packs0, packs1))
                 return b_tile
 
+            # Base coordinates for A0 prefetch (mi=0, ku=0)
+            row_a_lds_base = lane_mod_16  # mi=0
+            col_offset_base_bytes = lane_div_16 * fx.Index(16)  # ku=0
+
             # ── Helper: compute one K-tile from LDS + B tile ────────────
-            def compute_tile(accs_in, k_tile_idx_py, lds_base, b_tile_in):
+            def compute_tile(accs_in, k_tile_idx_py, lds_base, b_tile_in, *, a0_prefetch=None):
                 """Compute MFMA tiles for one K-tile, return updated accumulators."""
                 current_accs = list(accs_in)
 
@@ -399,9 +404,13 @@ def compute_tile(accs_in, k_tile_idx_py, lds_base, b_tile_in):
                         b_packs0, b_packs1 = b_tile_in[ku]
 
                         for mi in range_constexpr(m_repeat):
-                            row_a_lds = lane_mod_16 + arith.index(mi * 16)
-                            col_a_base_bytes = lane_div_16 * fx.Index(16) + fx.Index(k_offset_bytes)
-                            a0, a1 = lds_load_packs_k64(row_a_lds, col_a_base_bytes, lds_base)
+                            # Use prefetched A0 for the very first iteration
+                            if a0_prefetch is not None and sb == 0 and ku_local == 0 and mi == 0:
+                                a0, a1 = a0_prefetch
+                            else:
+                                row_a_lds = lane_mod_16 + arith.index(mi * 16)
+                                col_a_base_bytes = lane_div_16 * fx.Index(16) + fx.Index(k_offset_bytes)
+                                a0, a1 = lds_load_packs_k64(row_a_lds, col_a_base_bytes, lds_base)
 
                             for ni in range_constexpr(num_acc_n):
                                 acc_idx = mi * num_acc_n + ni
@@ -425,22 +434,38 @@ def compute_tile(accs_in, k_tile_idx_py, lds_base, b_tile_in):
             b_tile_pong = load_b_tile(fx.Index(0))
             gpu.barrier()
 
+            # Prefetch first A pack from pong (hides LDS latency behind upcoming VMEM)
+            a0_prefetch_pong = lds_load_packs_k64(row_a_lds_base, col_offset_base_bytes, lds_base_pong)
+
             for k_pair in range_constexpr(0, num_k_tiles, 2):
                 # Load next A+B into ping while computing current from pong
                 if k_pair + 1 < num_k_tiles:
                     load_a_tile(k_pair + 1, lds_base_ping)
                     b_tile_ping = load_b_tile(fx.Index((k_pair + 1) * tile_k))
-                accs = compute_tile(accs, k_pair, lds_base_pong, b_tile_pong)
+                accs = compute_tile(accs, k_pair, lds_base_pong, b_tile_pong,
+                                    a0_prefetch=a0_prefetch_pong)
+                a0_prefetch_pong = None
                 gpu.barrier()
 
-                # Load next A+B into pong while computing current from ping
+                # Prefetch first A pack from ping
                 if k_pair + 1 < num_k_tiles:
+                    a0_prefetch_ping = lds_load_packs_k64(
+                        row_a_lds_base, col_offset_base_bytes, lds_base_ping)
+
+                    # Load next A+B into pong while computing current from ping
                     if k_pair + 2 < num_k_tiles:
                         load_a_tile(k_pair + 2, lds_base_pong)
                         b_tile_pong = load_b_tile(fx.Index((k_pair + 2) * tile_k))
-                    accs = compute_tile(accs, k_pair + 1, lds_base_ping, b_tile_ping)
+                    accs = compute_tile(accs, k_pair + 1, lds_base_ping, b_tile_ping,
+                                        a0_prefetch=a0_prefetch_ping)
+                    a0_prefetch_ping = None
                     gpu.barrier()
 
+                    # Prefetch first A pack from pong for next iteration
+                    if k_pair + 2 < num_k_tiles:
+                        a0_prefetch_pong = lds_load_packs_k64(
+                            row_a_lds_base, col_offset_base_bytes, lds_base_pong)
+
             # ===== Epilogue: store results =====
             c_n = n_in
             lane_div_16_mul4 = lane_div_16 * fx.Index(4)

From d687bd35255f0a49939cdd15b5660b4b478ee01a Mon Sep 17 00:00:00 2001
From: Aryaman Gupta <aryaman.gupta@amd.com>
Date: Thu, 2 Apr 2026 08:44:43 -0500
Subject: [PATCH 17/39] adds masked group gemm kernels

---
 kernels/grouped_gemm_blockscale_masked.py     | 520 ++++++++++++++++++
 .../test_grouped_gemm_blockscale_masked.py    | 386 +++++++++++++
 2 files changed, 906 insertions(+)
 create mode 100644 kernels/grouped_gemm_blockscale_masked.py
 create mode 100644 tests/kernels/test_grouped_gemm_blockscale_masked.py

diff --git a/kernels/grouped_gemm_blockscale_masked.py b/kernels/grouped_gemm_blockscale_masked.py
new file mode 100644
index 000000000..5e62be94f
--- /dev/null
+++ b/kernels/grouped_gemm_blockscale_masked.py
@@ -0,0 +1,520 @@
+# SPDX-License-Identifier: Apache-2.0
+# Copyright (c) 2025 FlyDSL Project Contributors
+
+"""Masked Grouped FP8 GEMM kernel (M-grouped masked layout).
+
+API matching DeepGEMM's m_grouped_fp8_gemm_nt_masked:
+  - A: [G, expected_m, K] FP8 - padded activation tensor per group
+  - scale_a: [G, scale_k, expected_m] FP32 - per-token, per-128K scales (transposed)
+  - B: [G, N, K] FP8 - one weight matrix per group
+  - scale_b: [G, scale_n, scale_k] FP32 - per-block scales
+  - D: [G, expected_m, N] BF16 - padded output tensor per group
+  - masked_m: [G] INT32 - tracks the actual number of valid tokens per group
+  - expected_m: INT32 - the padded capacity (max_m) for the M dimension
+
+Block scaling granularity (matching DeepGEMM's 1D2D configuration):
+  - A: (1, 128) - per-token, per-128-K-elements
+  - B: (128, 128) - per-128-N, per-128-K block
+
+Optimizations applied:
+  - LDS ping-pong double buffering for A tiles
+  - XOR swizzle for LDS bank conflict avoidance
+  - Preshuffle B layout with load_b_pack_k32
+  - Dynamic block-level early exit using masked_m to skip computing padded garbage
+"""
+
+import functools
+import os
+
+import flydsl.compiler as flyc
+import flydsl.expr as fx
+from flydsl.compiler.kernel_function import CompilationContext
+from flydsl.expr import arith, gpu, buffer_ops, vector, rocdl
+from flydsl.expr import range_constexpr
+from flydsl.runtime.device import get_rocm_arch as get_hip_arch
+from flydsl.utils.smem_allocator import SmemAllocator, SmemPtr
+
+from flydsl._mlir import ir
+from flydsl._mlir.dialects import scf
+from flydsl._mlir.dialects import math as math_dialect
+from flydsl.expr.typing import T
+from flydsl.expr.arith import ArithValue
+
+from kernels.mfma_preshuffle_pipeline import (
+    crd2idx,
+    lds_store_16b_xor16,
+    load_b_pack_k32,
+    make_preshuffle_b_layout,
+    swizzle_xor16,
+    tile_chunk_coord_i32,
+)
+
+
+@functools.lru_cache(maxsize=128)
+def compile_masked_grouped_fp8_gemm(
+    *,
+    n: int,
+    k: int,
+    num_groups: int,
+    tile_m: int = 128,
+    tile_n: int = 128,
+    tile_k: int = 128,
+    scale_block_k: int = 128,
+    scale_block_n: int = 128,
+    out_dtype: str = "bf16",
+):
+    """Compile masked grouped FP8 GEMM kernel and return the JIT launcher.
+
+    Args:
+        n: N dimension (output columns per group)
+        k: K dimension (reduction dimension)
+        num_groups: Number of groups (experts)
+        tile_m: M tile size (default 128)
+        tile_n: N tile size (default 128)
+        tile_k: K tile size (default 128)
+        scale_block_k: K-dimension scale block size (default 128)
+        scale_block_n: N-dimension scale block size (default 128)
+        out_dtype: Output data type ("bf16" or "f16")
+
+    Returns:
+        JIT launcher function.
+    """
+    gpu_arch = get_hip_arch()
+    _is_gfx950 = str(gpu_arch).startswith("gfx95")
+
+    allocator = SmemAllocator(None, arch=gpu_arch, global_sym_name="smem_masked_grouped_gemm")
+
+    # Validate parameters
+    if k % tile_k != 0:
+        raise ValueError(f"k ({k}) must be divisible by tile_k ({tile_k})")
+    if n % tile_n != 0:
+        raise ValueError(f"n ({n}) must be divisible by tile_n ({tile_n})")
+    if tile_k % scale_block_k != 0:
+        raise ValueError(f"tile_k ({tile_k}) must be divisible by scale_block_k ({scale_block_k})")
+    if tile_n % scale_block_n != 0:
+        raise ValueError(f"tile_n ({tile_n}) must be divisible by scale_block_n ({scale_block_n})")
+
+    # Output type
+    if out_dtype not in ("bf16", "f16"):
+        raise ValueError(f"out_dtype must be 'bf16' or 'f16', got {out_dtype!r}")
+    out_mlir = lambda: T.bf16 if out_dtype == "bf16" else T.f16
+
+    # Compile-time constants
+    total_threads = 256
+    elem_bytes = 1  # FP8
+    num_k_tiles = k // tile_k
+    scale_k = k // scale_block_k
+    scale_n = n // scale_block_n
+    sb_per_tile = tile_k // scale_block_k  # scale blocks per K-tile
+    k_unroll = tile_k // 64  # K64-byte micro-steps (for K32 MFMA pairs)
+    kpack_bytes = 16  # 16-byte packs for FP8
+
+    # LDS allocation: 2x for ping-pong double buffer
+    lds_a_bytes = tile_m * tile_k * elem_bytes
+    lds_total_bytes = 2 * lds_a_bytes
+    lds_alloc_offset = allocator._align(allocator.ptr, 16)
+    allocator.ptr = lds_alloc_offset + lds_total_bytes
+    lds_tile_elems = tile_m * tile_k  # element offset between ping and pong
+
+    # Module name for caching
+    module_name = (
+        f"masked_grouped_fp8_gemm_{out_dtype}"
+        f"_n{n}_k{k}_g{num_groups}"
+        f"_t{tile_m}x{tile_n}x{tile_k}"
+        f"_pingpong"
+    ).replace("-", "_")
+
+    # Thread -> tile element mapping for A loads
+    tile_k_bytes = tile_k * elem_bytes
+    tile_k_dwords = tile_k_bytes // 4
+    bytes_a_per_tile = tile_m * tile_k * elem_bytes
+    bytes_per_thread_a = bytes_a_per_tile // total_threads
+    a_load_bytes = 16  # 16-byte loads (dwordx4)
+    chunk_i32_a = a_load_bytes // 4  # 4 dwords per load
+    num_a_loads = bytes_per_thread_a // a_load_bytes
+
+    @flyc.kernel(name=module_name)
+    def masked_grouped_fp8_gemm_kernel(
+        arg_d: fx.Tensor,
+        arg_a: fx.Tensor,
+        arg_b: fx.Tensor,
+        arg_scale_a: fx.Tensor,
+        arg_scale_b: fx.Tensor,
+        arg_masked_m: fx.Tensor,
+        i32_expected_m: fx.Int32,
+        i32_n: fx.Int32,
+        i32_k: fx.Int32,
+        i32_num_groups: fx.Int32,
+    ):
+        # Convert runtime parameters to index type
+        # In the masked kernel, expected_m acts as our padded max capacity per group.
+        m_in = arith.index_cast(T.index, i32_expected_m)
+        n_in = arith.index_cast(T.index, i32_n)
+        k_in = arith.index_cast(T.index, i32_k)
+        num_groups_in = arith.index_cast(T.index, i32_num_groups)
+
+        # Thread and 3D block IDs
+        tx = gpu.thread_id("x")
+        by = gpu.block_id("x")  # N-block index
+        bx = gpu.block_id("y")  # M-block index
+        bz = gpu.block_id("z")  # Group ID index
+        group_idx = arith.index_cast(T.index, bz)
+
+        # Block positions
+        bx_m = bx * fx.Index(tile_m)
+        by_n = by * fx.Index(tile_n)
+
+        # Wave/lane decomposition (256 threads = 4 waves x 64 lanes)
+        layout_wave_lane = fx.make_layout((4, 64), stride=(64, 1))
+        coord_wave_lane = fx.idx2crd(tx, layout_wave_lane)
+        wave_id = fx.get(coord_wave_lane, 0)
+        lane_id = fx.get(coord_wave_lane, 1)
+
+        # Lane decomposition for MFMA (lane_id -> lane_div_16, lane_mod_16)
+        layout_lane16 = fx.make_layout((4, 16), stride=(16, 1))
+        coord_lane16 = fx.idx2crd(lane_id, layout_lane16)
+        lane_div_16 = fx.get(coord_lane16, 0)
+        lane_mod_16 = fx.get(coord_lane16, 1)
+
+        # LDS setup: single memref for both ping-pong buffers
+        base_ptr = allocator.get_base()
+        lds_a = SmemPtr(base_ptr, lds_alloc_offset, T.f8, shape=(2 * tile_m * tile_k,)).get()
+        lds_stride = tile_k
+        layout_lds = fx.make_layout((tile_m, tile_k), stride=(lds_stride, 1))
+        lds_base_pong = fx.Index(0)
+        lds_base_ping = fx.Index(lds_tile_elems)
+
+        # Buffer resources
+        a_nbytes = num_groups_in * m_in * k_in
+        a_rsrc = buffer_ops.create_buffer_resource(
+            arg_a, max_size=False, num_records_bytes=arith.index_cast(T.i64, a_nbytes)
+        )
+
+        b_nbytes = num_groups_in * n_in * k_in
+        b_rsrc = buffer_ops.create_buffer_resource(
+            arg_b, max_size=False, num_records_bytes=arith.index_cast(T.i64, b_nbytes)
+        )
+
+        d_nbytes = num_groups_in * m_in * n_in * fx.Index(2)  # bf16/f16 = 2 bytes
+        d_rsrc = buffer_ops.create_buffer_resource(
+            arg_d, max_size=False, num_records_bytes=arith.index_cast(T.i64, d_nbytes)
+        )
+
+        # Scale buffers
+        # scale_a: [G, scale_k, max_m] 
+        sa_nbytes = num_groups_in * fx.Index(scale_k) * m_in * fx.Index(4)
+        sa_rsrc = buffer_ops.create_buffer_resource(
+            arg_scale_a, max_size=False, num_records_bytes=arith.index_cast(T.i64, sa_nbytes)
+        )
+
+        # scale_b: [G, scale_n, scale_k]
+        sb_nbytes = num_groups_in * fx.Index(scale_n * scale_k * 4)
+        sb_rsrc = buffer_ops.create_buffer_resource(
+            arg_scale_b, max_size=False, num_records_bytes=arith.index_cast(T.i64, sb_nbytes)
+        )
+
+        # masked_m: [G]
+        mask_nbytes = num_groups_in * fx.Index(4)
+        mask_rsrc = buffer_ops.create_buffer_resource(
+            arg_masked_m, max_size=False, num_records_bytes=arith.index_cast(T.i64, mask_nbytes)
+        )
+
+        # Early exit for invalid blocks that fall entirely within the padded garbage
+        bx_m_i32 = arith.index_cast(T.i32, bx_m)
+        valid_m_i32 = buffer_ops.buffer_load(mask_rsrc, group_idx, vec_width=1, dtype=T.i32)
+        is_valid = arith.cmpi(arith.CmpIPredicate.ult, bx_m_i32, valid_m_i32)
+
+        _if_valid = scf.IfOp(is_valid)
+        with ir.InsertionPoint(_if_valid.then_block):
+
+            # MFMA tiling constants
+            m_repeat = tile_m // 16  # 8 for tile_m=128
+            num_waves = 4
+            n_per_wave = tile_n // num_waves  # 32 for tile_n=128
+            num_acc_n = n_per_wave // 16  # 2 for n_per_wave=32
+
+            # Initialize accumulators (FP32)
+            acc_init = arith.constant_vector(0.0, T.f32x4)
+            num_accs = m_repeat * num_acc_n
+            accs = [acc_init] * num_accs
+
+            # Wave's N-tile base
+            wave_mod_4 = wave_id % fx.Index(4)
+            n_tile_base = wave_mod_4 * fx.Index(n_per_wave)
+
+            # Precompute N-block indices for scale_b
+            c_scale_block_n = fx.Index(scale_block_n)
+            c_scale_k = fx.Index(scale_k)
+            n_block_for_scale = []
+            for ni in range_constexpr(num_acc_n):
+                col_base = by_n + n_tile_base + arith.index(ni * 16)
+                n_blk = col_base // c_scale_block_n
+                n_block_for_scale.append(n_blk)
+
+            # B preshuffle layout: total N = num_groups * N (all groups concatenated)
+            c_n_total = num_groups_in * n_in
+            b_layout = make_preshuffle_b_layout(
+                arith, c_n=c_n_total, c_k=k_in,
+                kpack_bytes=kpack_bytes, elem_bytes=elem_bytes,
+            )
+            layout_b = b_layout.layout_b
+
+            # Decompose global N column into (n_blk, n_intra) for preshuffle layout
+            c_n0 = c_n_total // fx.Index(16)
+            c_n0_i32 = arith.index_cast(T.i32, c_n0)
+            layout_n_blk_intra = fx.make_layout((c_n0_i32, 16), stride=(16, 1))
+            n_blk_list = []
+            n_intra_list = []
+            group_n_off = group_idx * n_in  # N-offset for this group in concatenated B
+            for ni in range_constexpr(num_acc_n):
+                col_global = group_n_off + by_n + n_tile_base + arith.index(ni * 16) + lane_mod_16
+                coord_ni = fx.idx2crd(col_global, layout_n_blk_intra)
+                n_blk_list.append(fx.get(coord_ni, 0))
+                n_intra_list.append(fx.get(coord_ni, 1))
+
+            # A load mapping: thread -> (row, col_i32) in tile (dword-indexed K)
+            layout_a_tile_div4 = fx.make_layout(
+                (tile_m, tile_k_dwords), stride=(tile_k_dwords, 1)
+            )
+            c_chunk_a = fx.Index(chunk_i32_a)
+            tx_i32_base = tx * c_chunk_a
+            _k_div4_factor = k_in // fx.Index(4)
+            group_a_off_div4 = group_idx * m_in * _k_div4_factor  # 3D A Offset
+            k_blocks16 = arith.index(tile_k_bytes // 16)
+            c4_bytes = fx.Index(4)
+
+            # Precompute per-load tile coordinates (row_local, col_local_i32)
+            a_row_local = []
+            a_col_local_i32 = []
+            for i in range_constexpr(num_a_loads):
+                row_local, col_local_i32 = tile_chunk_coord_i32(
+                    arith, tx_i32_base=tx_i32_base, i=i,
+                    total_threads=total_threads,
+                    layout_tile_div4=layout_a_tile_div4,
+                    chunk_i32=chunk_i32_a,
+                )
+                a_row_local.append(row_local)
+                a_col_local_i32.append(col_local_i32)
+
+            # ── Helper: load A tile to LDS with XOR swizzle ─────────────
+            def load_a_tile(k_tile_idx_py, lds_base):
+                """Load A tile from global to LDS with XOR16 swizzle."""
+                base_k_div4 = fx.Index(k_tile_idx_py * tile_k_dwords)
+                for i in range_constexpr(num_a_loads):
+                    row_global = bx_m + a_row_local[i]
+                    idx_i32 = group_a_off_div4 + row_global * _k_div4_factor + base_k_div4 + a_col_local_i32[i]
+                    a_vec = buffer_ops.buffer_load(a_rsrc, idx_i32, vec_width=4, dtype=T.i32)
+                    lds_store_16b_xor16(
+                        arith, vector,
+                        lds_memref=lds_a, vec16_ty=T.f8x16,
+                        layout_lds=layout_lds,
+                        row_local=a_row_local[i],
+                        col_local_i32=a_col_local_i32[i],
+                        tx_c4=c4_bytes, k_blocks16=k_blocks16,
+                        lds_base=lds_base,
+                        vec_part_i32x4=a_vec, elem_bytes=elem_bytes,
+                    )
+
+            # ── Helper: load A K64 pack from LDS with XOR swizzle ────────
+            def lds_load_packs_k64(curr_row_a_lds, col_base_bytes, lds_base):
+                """Load 16B from LDS with XOR16 swizzle, return two i64 halves."""
+                col_base_swz_bytes = swizzle_xor16(curr_row_a_lds, col_base_bytes, k_blocks16)
+                idx_a16 = crd2idx((curr_row_a_lds, col_base_swz_bytes), layout_lds) + lds_base
+                loaded_a16 = vector.load_op(T.vec(16, T.f8), lds_a, [idx_a16])
+                a_i64x2 = vector.bitcast(T.i64x2, loaded_a16)
+                a0 = vector.extract(a_i64x2, static_position=[0], dynamic_position=[])
+                a1 = vector.extract(a_i64x2, static_position=[1], dynamic_position=[])
+                return a0, a1
+
+            # ── Helper: load one B pack (K32 micro-step) ────────────────
+            def load_b_pack(base_k, ki_step, ni):
+                return load_b_pack_k32(
+                    buffer_ops, arith, vector,
+                    arg_b=arg_b, b_rsrc=b_rsrc,
+                    layout_b=layout_b,
+                    base_k=base_k, ki_step=ki_step,
+                    n_blk=n_blk_list[ni],
+                    n_intra=n_intra_list[ni],
+                    lane_div_16=lane_div_16,
+                    elem_type=T.f8,
+                    kpack_bytes=kpack_bytes,
+                    elem_bytes=elem_bytes,
+                )
+
+            # ── Helper: prefetch entire B tile (gmem -> regs) ───────────
+            def load_b_tile(base_k):
+                """Load all B packs for one K-tile.
+
+                Returns list of length k_unroll, each entry is
+                (packs_half0[ni], packs_half1[ni]) for one K64 micro-step.
+                """
+                b_tile = []
+                for ku in range_constexpr(k_unroll):
+                    packs0 = []
+                    packs1 = []
+                    for ni in range_constexpr(num_acc_n):
+                        ki0 = (ku * 2) + 0
+                        ki1 = (ku * 2) + 1
+                        b0 = load_b_pack(base_k, ki0, ni)
+                        b1 = load_b_pack(base_k, ki1, ni)
+                        packs0.append(b0)
+                        packs1.append(b1)
+                    b_tile.append((packs0, packs1))
+                return b_tile
+
+            # ── Helper: compute one K-tile from LDS + B tile ────────────
+            c_scale_k = fx.Index(scale_k)
+            sa_group_off = group_idx * c_scale_k * m_in  # 3D scale_a Offset
+
+            def compute_tile(accs_in, k_tile_idx_py, lds_base, b_tile_in):
+                """Compute MFMA tiles for one K-tile, return updated accumulators."""
+                current_accs = list(accs_in)
+
+                for sb in range_constexpr(sb_per_tile):
+                    kb = fx.Index(k_tile_idx_py * sb_per_tile + sb)
+
+                    # Load scale_a for this K-block (per-token scale)
+                    # scale_a layout: [G, scale_k, expected_m] transposed
+                    sa_base = sa_group_off + kb * m_in
+                    s_a_vecs = []
+                    row_off_base = lane_div_16 * fx.Index(4)
+                    for mi in range_constexpr(m_repeat):
+                        s_a_row = []
+                        for ii in range_constexpr(4):
+                            row_in_tile = arith.index(mi * 16) + row_off_base + fx.Index(ii)
+                            row_global = bx_m + row_in_tile
+                            sa_idx = sa_base + row_global
+                            s_a_val = buffer_ops.buffer_load(sa_rsrc, sa_idx, vec_width=1, dtype=T.f32)
+                            s_a_row.append(s_a_val)
+                        s_a_vec4 = vector.from_elements(T.f32x4, s_a_row)
+                        s_a_vecs.append(s_a_vec4)
+
+                    # Load scale_b for this K-block
+                    # scale_b layout: [G, scale_n, scale_k]
+                    sb_group_offset = group_idx * fx.Index(scale_n * scale_k)
+                    s_b_vals = []
+                    for ni in range_constexpr(num_acc_n):
+                        sb_idx = sb_group_offset + n_block_for_scale[ni] * c_scale_k + kb
+                        s_b_val = buffer_ops.buffer_load(sb_rsrc, sb_idx, vec_width=1, dtype=T.f32)
+                        s_b_vals.append(s_b_val)
+
+                    # MFMA computation for this scale block
+                    ku_per_sb = scale_block_k // 64
+
+                    for ku_local in range_constexpr(ku_per_sb):
+                        ku = sb * ku_per_sb + ku_local
+                        k_offset_bytes = ku * 64
+                        b_packs0, b_packs1 = b_tile_in[ku]
+
+                        for mi in range_constexpr(m_repeat):
+                            row_a_lds = lane_mod_16 + arith.index(mi * 16)
+                            col_a_base_bytes = lane_div_16 * fx.Index(16) + fx.Index(k_offset_bytes)
+                            a0, a1 = lds_load_packs_k64(row_a_lds, col_a_base_bytes, lds_base)
+
+                            for ni in range_constexpr(num_acc_n):
+                                acc_idx = mi * num_acc_n + ni
+
+                                # Two K32 MFMAs using preshuffle B packs
+                                mfma_fn = rocdl.mfma_f32_16x16x32_fp8_fp8
+                                mfma_mid = mfma_fn(T.f32x4, [a0, b_packs0[ni], acc_init, 0, 0, 0])
+                                mfma_result = mfma_fn(T.f32x4, [a1, b_packs1[ni], mfma_mid, 0, 0, 0])
+
+                                # Apply scales: accum += mfma_result * scale_a * scale_b
+                                s_a_v4 = s_a_vecs[mi]
+                                s_b_bc = vector.broadcast(T.f32x4, s_b_vals[ni])
+                                scaled = ArithValue(mfma_result) * ArithValue(s_a_v4)
+                                current_accs[acc_idx] = math_dialect.fma(scaled, s_b_bc, current_accs[acc_idx])
+
+                return current_accs
+
+            # ===== Ping-pong K-loop =====
+            # Prologue: load first A tile and B tile
+            load_a_tile(0, lds_base_pong)
+            b_tile_pong = load_b_tile(fx.Index(0))
+            gpu.barrier()
+
+            for k_pair in range_constexpr(0, num_k_tiles, 2):
+                # Load next A+B into ping while computing current from pong
+                if k_pair + 1 < num_k_tiles:
+                    load_a_tile(k_pair + 1, lds_base_ping)
+                    b_tile_ping = load_b_tile(fx.Index((k_pair + 1) * tile_k))
+                accs = compute_tile(accs, k_pair, lds_base_pong, b_tile_pong)
+                gpu.barrier()
+
+                # Load next A+B into pong while computing current from ping
+                if k_pair + 1 < num_k_tiles:
+                    if k_pair + 2 < num_k_tiles:
+                        load_a_tile(k_pair + 2, lds_base_pong)
+                        b_tile_pong = load_b_tile(fx.Index((k_pair + 2) * tile_k))
+                    accs = compute_tile(accs, k_pair + 1, lds_base_ping, b_tile_ping)
+                    gpu.barrier()
+
+            # ===== Epilogue: store results =====
+            c_n = n_in
+            lane_div_16_mul4 = lane_div_16 * fx.Index(4)
+            d_group_off = group_idx * m_in * n_in  # 3D D Offset
+
+            for mi in range_constexpr(m_repeat):
+                for ii in range_constexpr(4):
+                    row_off = lane_div_16_mul4 + fx.Index(ii)
+                    row_in_tile = arith.index(mi * 16) + row_off
+                    row_global = bx_m + row_in_tile
+
+                    for ni in range_constexpr(num_acc_n):
+                        acc_idx = mi * num_acc_n + ni
+                        col_base = by_n + n_tile_base + arith.index(ni * 16) + lane_mod_16
+
+                        # Extract scalar from accumulator
+                        val_f32 = vector.extract(accs[acc_idx], static_position=[ii], dynamic_position=[])
+                        val_out = arith.trunc_f(out_mlir(), val_f32)
+
+                        # Store to D 
+                        d_idx = d_group_off + row_global * c_n + col_base
+                        buffer_ops.buffer_store(val_out, d_rsrc, d_idx)
+
+            scf.YieldOp([])
+
+    # ===== JIT Launcher =====
+    @flyc.jit
+    def launch_masked_grouped_fp8_gemm(
+        arg_d: fx.Tensor,
+        arg_a: fx.Tensor,
+        arg_b: fx.Tensor,
+        arg_scale_a: fx.Tensor,
+        arg_scale_b: fx.Tensor,
+        arg_masked_m: fx.Tensor,
+        i32_expected_m: fx.Int32,
+        i32_n: fx.Int32,
+        i32_k: fx.Int32,
+        i32_num_groups: fx.Int32,
+        stream: fx.Stream,
+    ):
+        allocator.finalized = False
+        ctx = CompilationContext.get_current()
+        with ir.InsertionPoint(ctx.gpu_module_body):
+            allocator.finalize()
+
+        # Grid dimensions
+        max_m_in = arith.index_cast(T.index, i32_expected_m)
+        n_in = arith.index_cast(T.index, i32_n)
+        num_groups_in = arith.index_cast(T.index, i32_num_groups)
+
+        gx = n_in // fx.Index(tile_n)  # N-blocks
+        gy = (max_m_in + fx.Index(tile_m - 1)) // fx.Index(tile_m)  # M-blocks (ceil)
+        gz = num_groups_in
+
+        launcher = masked_grouped_fp8_gemm_kernel(
+            arg_d,
+            arg_a,
+            arg_b,
+            arg_scale_a,
+            arg_scale_b,
+            arg_masked_m,
+            i32_expected_m,
+            i32_n,
+            i32_k,
+            i32_num_groups,
+        )
+        launcher.launch(grid=(gx, gy, gz), block=(total_threads, 1, 1), stream=stream)
+
+    return launch_masked_grouped_fp8_gemm
\ No newline at end of file
diff --git a/tests/kernels/test_grouped_gemm_blockscale_masked.py b/tests/kernels/test_grouped_gemm_blockscale_masked.py
new file mode 100644
index 000000000..f52d73e4e
--- /dev/null
+++ b/tests/kernels/test_grouped_gemm_blockscale_masked.py
@@ -0,0 +1,386 @@
+#!/usr/bin/env python3
+
+# SPDX-License-Identifier: Apache-2.0
+# Copyright (c) 2025 FlyDSL Project Contributors
+
+"""Tests for Masked Grouped FP8 GEMM kernel.
+
+Tests the masked grouped FP8 GEMM with block scaling, matching DeepGEMM's
+m_grouped_fp8_gemm_nt_masked API.
+"""
+
+import os
+import sys
+import logging
+
+import torch
+import pytest
+
+_REPO_ROOT = os.path.abspath(os.path.join(os.path.dirname(__file__), "../.."))
+_PYTHON_CANDIDATES = [
+    os.path.join(_REPO_ROOT, "build", "python_packages"),
+    _REPO_ROOT,
+]
+for _p in reversed(_PYTHON_CANDIDATES):
+    if os.path.isdir(_p) and _p not in sys.path:
+        sys.path.insert(0, _p)
+
+# Assuming the previous kernel code was saved here
+from kernels.masked_grouped_gemm import compile_masked_grouped_fp8_gemm
+from flydsl.runtime.device import get_rocm_arch
+from tests.test_common import run_perftest, verify_output
+from tests.utils import shuffle_weight
+
+logging.basicConfig(level=logging.INFO)
+
+ARCH = get_rocm_arch()
+# Use appropriate FP8 dtype for the architecture
+DTYPE_FP8 = torch.float8_e4m3fn if "gfx95" in ARCH else torch.float8_e4m3fnuz
+
+
+def ceil_div(x: int, y: int) -> int:
+    return (x + y - 1) // y
+
+
+def quantize_a_masked_to_fp8(x: torch.Tensor, scale_block_k: int = 128) -> tuple[torch.Tensor, torch.Tensor]:
+    """Quantize padded 3D A tensor to FP8 with per-row, per-block scaling.
+
+    Args:
+        x: Input tensor [G, max_m, K]
+        scale_block_k: K-dimension block size for scaling
+
+    Returns:
+        (x_fp8, scale): FP8 tensor and scale factors [G, scale_k, max_m]
+    """
+    G, max_m, K = x.shape
+    nblk_k = K // scale_block_k
+
+    # Reshape to [G, max_m, nblk_k, scale_block_k]
+    x_blocks = x.view(G, max_m, nblk_k, scale_block_k)
+
+    # Compute per-block max (for scale)
+    x_amax = x_blocks.abs().amax(dim=-1).clamp(min=1e-12)
+
+    fp8_max = torch.finfo(DTYPE_FP8).max
+    scale = x_amax / fp8_max
+
+    # Quantize
+    x_scaled = x_blocks / scale.unsqueeze(-1)
+    x_fp8 = x_scaled.to(DTYPE_FP8).view(G, max_m, K)
+
+    # Transpose scale to [G, scale_k, max_m] to match kernel layout
+    scale = scale.transpose(1, 2).contiguous()
+
+    return x_fp8, scale
+
+
+def quantize_b_to_fp8(
+    b: torch.Tensor, scale_block_n: int = 128, scale_block_k: int = 128
+) -> tuple[torch.Tensor, torch.Tensor]:
+    """Quantize B tensor to FP8 with per-block scaling.
+
+    Args:
+        b: Input tensor [num_groups, N, K]
+        scale_block_n: N-dimension block size
+        scale_block_k: K-dimension block size
+
+    Returns:
+        (b_fp8, scale_b): FP8 tensor and scale factors [num_groups, scale_n, scale_k]
+    """
+    num_groups, N, K = b.shape
+    nblk_n = N // scale_block_n
+    nblk_k = K // scale_block_k
+
+    # Reshape to [num_groups, nblk_n, scale_block_n, nblk_k, scale_block_k]
+    b_blocks = b.view(num_groups, nblk_n, scale_block_n, nblk_k, scale_block_k)
+
+    # Compute per-block max
+    b_amax = b_blocks.abs().amax(dim=(2, 4)).clamp(min=1e-12)
+
+    fp8_max = torch.finfo(DTYPE_FP8).max
+    scale = b_amax / fp8_max
+
+    # Quantize
+    b_scaled = b_blocks / scale.view(num_groups, nblk_n, 1, nblk_k, 1)
+    b_fp8 = b_scaled.to(DTYPE_FP8).view(num_groups, N, K)
+
+    return b_fp8, scale
+
+
+def torch_masked_grouped_gemm_ref(
+    a: torch.Tensor,
+    scale_a: torch.Tensor,
+    b: torch.Tensor,
+    scale_b: torch.Tensor,
+    masked_m: torch.Tensor,
+    scale_block_k: int = 128,
+    scale_block_n: int = 128,
+) -> torch.Tensor:
+    """PyTorch reference implementation for masked grouped FP8 GEMM.
+
+    Args:
+        a: [G, max_m, K] FP8 tensor
+        scale_a: [G, scale_k, max_m] FP32 scale factors (transposed layout)
+        b: [G, N, K] FP8 tensor
+        scale_b: [G, scale_n, scale_k] FP32 scale factors
+        masked_m: [G] INT32 true sequence length per group
+        scale_block_k: K-dimension scale block size
+        scale_block_n: N-dimension scale block size
+
+    Returns:
+        d: [G, max_m, N] BF16 output tensor
+    """
+    G, max_m, K = a.shape
+    _, N, _ = b.shape
+    nblk_k = K // scale_block_k
+    nblk_n = N // scale_block_n
+
+    # Dequantize A
+    a_f32 = a.to(torch.float32)
+    # scale_a is [G, scale_k, max_m], transpose to [G, max_m, scale_k]
+    scale_a_t = scale_a.transpose(1, 2)  
+    a_scaled = a_f32.view(G, max_m, nblk_k, scale_block_k) * scale_a_t.unsqueeze(-1)
+    a_scaled = a_scaled.view(G, max_m, K)
+
+    # Dequantize B
+    b_f32 = b.to(torch.float32)
+    b_scaled = b_f32.view(G, nblk_n, scale_block_n, nblk_k, scale_block_k)
+    b_scaled = b_scaled * scale_b.view(G, nblk_n, 1, nblk_k, 1)
+    b_scaled = b_scaled.view(G, N, K)
+
+    # Compute masked grouped GEMM on CPU
+    a_scaled_cpu = a_scaled.cpu()
+    b_scaled_cpu = b_scaled.cpu()
+    m_cpu = masked_m.cpu()
+    
+    d = torch.zeros(G, max_m, N, dtype=torch.float32, device="cpu")
+    for g in range(G):
+        m_actual = m_cpu[g].item()
+        if m_actual > 0:
+            d[g, :m_actual, :] = a_scaled_cpu[g, :m_actual, :] @ b_scaled_cpu[g].T
+
+    return d.to(torch.bfloat16).to(a.device)
+
+
+def generate_masked_grouped_gemm_inputs(
+    num_groups: int,
+    max_m: int,
+    expected_m_per_group: int,
+    n: int,
+    k: int,
+    scale_block_k: int = 128,
+    scale_block_n: int = 128,
+    device: str = "cuda",
+):
+    """Generate test inputs for masked grouped GEMM.
+
+    Args:
+        num_groups: Number of groups
+        max_m: Capacity padding dimension for M
+        expected_m_per_group: Average actual M rows per group
+        n: N dimension
+        k: K dimension
+
+    Returns:
+        Tuple of (a_fp8, scale_a, b_shuffled, scale_b, masked_m, d, ref_d)
+    """
+    # Generate valid length array
+    masked_m = torch.empty(num_groups, dtype=torch.int32, device=device)
+    for g in range(num_groups):
+        m_val = int(expected_m_per_group * (0.8 + 0.4 * torch.rand(1).item()))
+        m_val = min(m_val, max_m)  # cap at max_m
+        masked_m[g] = m_val
+
+    # Generate random padded data
+    a_f32 = torch.randn(num_groups, max_m, k, device=device, dtype=torch.float32)
+    b_f32 = torch.randn(num_groups, n, k, device=device, dtype=torch.float32)
+
+    # Quantize to FP8
+    a_fp8, scale_a = quantize_a_masked_to_fp8(a_f32, scale_block_k)
+    b_fp8, scale_b = quantize_b_to_fp8(b_f32, scale_block_n, scale_block_k)
+
+    # Output buffer
+    d = torch.zeros(num_groups, max_m, n, dtype=torch.bfloat16, device=device)
+
+    # Reference output
+    ref_d = torch_masked_grouped_gemm_ref(
+        a_fp8, scale_a, b_fp8, scale_b, masked_m, scale_block_k, scale_block_n
+    )
+
+    # Preshuffle B for kernel (applied per-group, batch dim folded automatically)
+    b_shuffled = shuffle_weight(b_fp8, layout=(16, 16))
+
+    return a_fp8, scale_a, b_shuffled, scale_b, masked_m, d, ref_d
+
+
+def _as_i8(t: torch.Tensor) -> torch.Tensor:
+    """View FP8 tensor as int8 for kernel interface."""
+    return t.view(torch.int8)
+
+
+@pytest.mark.parametrize(
+    "num_groups,max_m,expected_m,n,k",
+    [
+        pytest.param(1, 256, 100, 128, 128, id="single-group-small"),
+        pytest.param(4, 256, 150, 128, 128, id="four-groups-small"),
+        pytest.param(8, 512, 300, 256, 256, id="eight-groups-medium"),
+        pytest.param(8, 1024, 800, 512, 512, id="eight-groups-larger", marks=pytest.mark.large_shape),
+    ],
+)
+def test_masked_grouped_fp8_gemm_correctness(num_groups, max_m, expected_m, n, k,
+                                             tile_m=128, tile_n=128, tile_k=128,
+                                             out_dtype="bf16"):
+    """Test masked grouped FP8 GEMM correctness against PyTorch reference."""
+    scale_block_k = 128
+    scale_block_n = 128
+
+    # Generate inputs
+    a_fp8, scale_a, b_fp8, scale_b, masked_m, d, ref_d = generate_masked_grouped_gemm_inputs(
+        num_groups, max_m, expected_m, n, k, scale_block_k, scale_block_n
+    )
+
+    # Compile kernel
+    launch_fn = compile_masked_grouped_fp8_gemm(
+        n=n,
+        k=k,
+        num_groups=num_groups,
+        tile_m=tile_m,
+        tile_n=tile_n,
+        tile_k=tile_k,
+        scale_block_k=scale_block_k,
+        scale_block_n=scale_block_n,
+        out_dtype=out_dtype,
+    )
+
+    # Launch wrapper
+    stream = torch.cuda.current_stream()
+
+    def launch_kernel(d, a, b, sa, sb, mask):
+        launch_fn(d, a, b, sa, sb, mask, max_m, n, k, num_groups, stream)
+
+    launch_kernel(
+        d.contiguous().view(-1),
+        _as_i8(a_fp8.contiguous().view(-1)),
+        _as_i8(b_fp8.contiguous().view(-1)),
+        scale_a.contiguous().view(-1),
+        scale_b.contiguous().view(-1),
+        masked_m.contiguous(),
+    )
+    torch.cuda.synchronize()
+
+    # Verify correctness
+    c_out_f32 = d.to(torch.float32)
+    c_ref = ref_d.to(torch.float32)
+
+    # Note: the kernel computes in block sizes of `tile_m` and does NOT mask out D 
+    # at the granularity of individual elements in the store epilogue.
+    # Therefore, padded rows (m_actual to max_m) in the computed tiles contain garbage.
+    # We must explicitly zero out the unused rows in the output before comparing.
+    for g in range(num_groups):
+        m_val = masked_m[g].item()
+        c_out_f32[g, m_val:, :] = 0.0
+        c_ref[g, m_val:, :] = 0.0
+
+    msg = f"num_groups={num_groups}, max_m={max_m}, N={n}, K={k}"
+    passed = verify_output(c_out_f32, c_ref, rtol=1e-2, atol=1e-2, msg=msg)
+    assert passed, f"Correctness check failed for {msg}"
+
+
+@pytest.mark.parametrize(
+    "num_groups,max_m,expected_m,n,k",
+    [
+        pytest.param(8, 1024, 800, 1024, 1024, id="perf-8g-800m", marks=pytest.mark.large_shape),
+    ],
+)
+def test_masked_grouped_fp8_gemm_performance(num_groups, max_m, expected_m, n, k,
+                                             tile_m=128, tile_n=128, tile_k=128,
+                                             out_dtype="bf16",
+                                             num_iters=20, num_warmup=3):
+    """Benchmark masked grouped FP8 GEMM performance."""
+    scale_block_k = 128
+    scale_block_n = 128
+
+    # Generate inputs
+    a_fp8, scale_a, b_fp8, scale_b, masked_m, d, ref_d = generate_masked_grouped_gemm_inputs(
+        num_groups, max_m, expected_m, n, k, scale_block_k, scale_block_n
+    )
+
+    # Compile kernel
+    launch_fn = compile_masked_grouped_fp8_gemm(
+        n=n,
+        k=k,
+        num_groups=num_groups,
+        tile_m=tile_m,
+        tile_n=tile_n,
+        tile_k=tile_k,
+        scale_block_k=scale_block_k,
+        scale_block_n=scale_block_n,
+        out_dtype=out_dtype,
+    )
+
+    stream = torch.cuda.current_stream()
+
+    def launch_kernel(d, a, b, sa, sb, mask):
+        launch_fn(d, a, b, sa, sb, mask, max_m, n, k, num_groups, stream)
+
+    _, us = run_perftest(
+        launch_kernel,
+        d.contiguous().view(-1),
+        _as_i8(a_fp8.contiguous().view(-1)),
+        _as_i8(b_fp8.contiguous().view(-1)),
+        scale_a.contiguous().view(-1),
+        scale_b.contiguous().view(-1),
+        masked_m.contiguous(),
+        num_iters=num_iters,
+        num_warmup=num_warmup,
+    )
+
+    # Compute effective FLOPs/BW based on ACTUAL valid tokens (as padding is mostly skipped)
+    valid_m_sum = masked_m.sum().item()
+    flops = 2 * valid_m_sum * n * k
+    tflops = flops / (us / 1e6) / 1e12
+    
+    bytes_a = valid_m_sum * k  # FP8
+    bytes_b = num_groups * n * k  # FP8
+    bytes_d = valid_m_sum * n * 2  # BF16
+    bytes_scales = (k // scale_block_k) * valid_m_sum * 4 + num_groups * (n // scale_block_n) * (k // scale_block_k) * 4
+    total_bytes = bytes_a + bytes_b + bytes_d + bytes_scales
+    bandwidth_tbs = total_bytes / (us / 1e6) / 1e12
+
+    print(f"\n  [{num_groups} groups, max_m={max_m}, expected_m={expected_m}, N={n}, K={k}]")
+    print(f"  Throughput: {us:.1f} us, {tflops:.2f} TFLOPS, BW: {bandwidth_tbs:.3f} TB/s (Effective)")
+
+
+if __name__ == "__main__":
+    import argparse
+
+    parser = argparse.ArgumentParser(
+        description="Masked Grouped FP8 GEMM benchmark",
+        formatter_class=argparse.ArgumentDefaultsHelpFormatter,
+    )
+    parser.add_argument("--num_groups", type=int, default=4)
+    parser.add_argument("--max_m", type=int, default=512)
+    parser.add_argument("--expected_m", type=int, default=0,
+                        help="Approx valid M rows per group (0 = sweep [128, 256, 384])")
+    parser.add_argument("-N", type=int, default=512)
+    parser.add_argument("-K", type=int, default=512)
+    parser.add_argument("--tile_m", type=int, default=128)
+    parser.add_argument("--tile_n", type=int, default=128)
+    parser.add_argument("--tile_k", type=int, default=128)
+    parser.add_argument("--out_dtype", type=str, default="bf16", choices=["bf16", "f16"])
+    parser.add_argument("--num_iters", type=int, default=100)
+    parser.add_argument("--num_warmup", type=int, default=5)
+    args = parser.parse_args()
+
+    torch.set_default_device("cuda")
+
+    m_list = [args.expected_m] if args.expected_m > 0 else [128, 256, 384]
+
+    for expected_m in m_list:
+        test_masked_grouped_fp8_gemm_correctness(args.num_groups, args.max_m, expected_m, args.N, args.K,
+                                                 tile_m=args.tile_m, tile_n=args.tile_n,
+                                                 tile_k=args.tile_k, out_dtype=args.out_dtype)
+        test_masked_grouped_fp8_gemm_performance(args.num_groups, args.max_m, expected_m, args.N, args.K,
+                                                 tile_m=args.tile_m, tile_n=args.tile_n,
+                                                 tile_k=args.tile_k, out_dtype=args.out_dtype,
+                                                 num_iters=args.num_iters, num_warmup=args.num_warmup)
\ No newline at end of file

From fa6570bf269346b284fef6c71b41b602e7304309 Mon Sep 17 00:00:00 2001
From: Aryaman Gupta <aryaman.gupta@amd.com>
Date: Thu, 2 Apr 2026 16:39:24 +0000
Subject: [PATCH 18/39] test_grouped_gemm_blockscale_masked.py: corrects import

---
 tests/kernels/test_grouped_gemm_blockscale_masked.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/tests/kernels/test_grouped_gemm_blockscale_masked.py b/tests/kernels/test_grouped_gemm_blockscale_masked.py
index f52d73e4e..511d3e808 100644
--- a/tests/kernels/test_grouped_gemm_blockscale_masked.py
+++ b/tests/kernels/test_grouped_gemm_blockscale_masked.py
@@ -26,7 +26,7 @@
         sys.path.insert(0, _p)
 
 # Assuming the previous kernel code was saved here
-from kernels.masked_grouped_gemm import compile_masked_grouped_fp8_gemm
+from kernels.grouped_gemm_blockscale_masked import compile_masked_grouped_fp8_gemm
 from flydsl.runtime.device import get_rocm_arch
 from tests.test_common import run_perftest, verify_output
 from tests.utils import shuffle_weight

From 546b5c54de0a81fa2a3b263fd5de51530303020d Mon Sep 17 00:00:00 2001
From: Aryaman Gupta <aryaman.gupta@amd.com>
Date: Thu, 2 Apr 2026 16:40:40 +0000
Subject: [PATCH 19/39] grouped_gemm_blockscale_masked.py: corrects group_index
 assignment

---
 kernels/grouped_gemm_blockscale_masked.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/kernels/grouped_gemm_blockscale_masked.py b/kernels/grouped_gemm_blockscale_masked.py
index 5e62be94f..67f07901b 100644
--- a/kernels/grouped_gemm_blockscale_masked.py
+++ b/kernels/grouped_gemm_blockscale_masked.py
@@ -158,7 +158,7 @@ def masked_grouped_fp8_gemm_kernel(
         by = gpu.block_id("x")  # N-block index
         bx = gpu.block_id("y")  # M-block index
         bz = gpu.block_id("z")  # Group ID index
-        group_idx = arith.index_cast(T.index, bz)
+        group_idx = bz
 
         # Block positions
         bx_m = bx * fx.Index(tile_m)

From b9bcc2900a9552b53edce3b1278b82bee641357b Mon Sep 17 00:00:00 2001
From: Aryaman Gupta <aryaman.gupta@amd.com>
Date: Fri, 10 Apr 2026 06:33:03 -0500
Subject: [PATCH 20/39] grouped gemm masked: adds A0 prefetch optimization

---
 ... => grouped_gemm_blockscale_contiguous.py} |  0
 kernels/grouped_gemm_blockscale_masked.py     | 39 +++++++++++++++----
 ...est_grouped_gemm_blockscale_contiguous.py} |  0
 3 files changed, 32 insertions(+), 7 deletions(-)
 rename kernels/{grouped_gemm.py => grouped_gemm_blockscale_contiguous.py} (100%)
 rename tests/kernels/{test_grouped_gemm.py => test_grouped_gemm_blockscale_contiguous.py} (100%)

diff --git a/kernels/grouped_gemm.py b/kernels/grouped_gemm_blockscale_contiguous.py
similarity index 100%
rename from kernels/grouped_gemm.py
rename to kernels/grouped_gemm_blockscale_contiguous.py
diff --git a/kernels/grouped_gemm_blockscale_masked.py b/kernels/grouped_gemm_blockscale_masked.py
index 67f07901b..197ddf1fc 100644
--- a/kernels/grouped_gemm_blockscale_masked.py
+++ b/kernels/grouped_gemm_blockscale_masked.py
@@ -20,6 +20,7 @@
   - LDS ping-pong double buffering for A tiles
   - XOR swizzle for LDS bank conflict avoidance
   - Preshuffle B layout with load_b_pack_k32
+  - A0 LDS prefetch (cross-tile, hides LDS read latency behind VMEM)
   - Dynamic block-level early exit using masked_m to skip computing padded garbage
 """
 
@@ -362,11 +363,15 @@ def load_b_tile(base_k):
                     b_tile.append((packs0, packs1))
                 return b_tile
 
+            # Base coordinates for A0 prefetch (mi=0, ku=0)
+            row_a_lds_base = lane_mod_16  # mi=0
+            col_offset_base_bytes = lane_div_16 * fx.Index(16)  # ku=0
+
             # ── Helper: compute one K-tile from LDS + B tile ────────────
             c_scale_k = fx.Index(scale_k)
             sa_group_off = group_idx * c_scale_k * m_in  # 3D scale_a Offset
 
-            def compute_tile(accs_in, k_tile_idx_py, lds_base, b_tile_in):
+            def compute_tile(accs_in, k_tile_idx_py, lds_base, b_tile_in, *, a0_prefetch=None):
                 """Compute MFMA tiles for one K-tile, return updated accumulators."""
                 current_accs = list(accs_in)
 
@@ -407,9 +412,13 @@ def compute_tile(accs_in, k_tile_idx_py, lds_base, b_tile_in):
                         b_packs0, b_packs1 = b_tile_in[ku]
 
                         for mi in range_constexpr(m_repeat):
-                            row_a_lds = lane_mod_16 + arith.index(mi * 16)
-                            col_a_base_bytes = lane_div_16 * fx.Index(16) + fx.Index(k_offset_bytes)
-                            a0, a1 = lds_load_packs_k64(row_a_lds, col_a_base_bytes, lds_base)
+                            # Use prefetched A0 for the very first iteration
+                            if a0_prefetch is not None and sb == 0 and ku_local == 0 and mi == 0:
+                                a0, a1 = a0_prefetch
+                            else:
+                                row_a_lds = lane_mod_16 + arith.index(mi * 16)
+                                col_a_base_bytes = lane_div_16 * fx.Index(16) + fx.Index(k_offset_bytes)
+                                a0, a1 = lds_load_packs_k64(row_a_lds, col_a_base_bytes, lds_base)
 
                             for ni in range_constexpr(num_acc_n):
                                 acc_idx = mi * num_acc_n + ni
@@ -433,22 +442,38 @@ def compute_tile(accs_in, k_tile_idx_py, lds_base, b_tile_in):
             b_tile_pong = load_b_tile(fx.Index(0))
             gpu.barrier()
 
+            # Prefetch first A pack from pong (hides LDS latency behind upcoming VMEM)
+            a0_prefetch_pong = lds_load_packs_k64(row_a_lds_base, col_offset_base_bytes, lds_base_pong)
+
             for k_pair in range_constexpr(0, num_k_tiles, 2):
                 # Load next A+B into ping while computing current from pong
                 if k_pair + 1 < num_k_tiles:
                     load_a_tile(k_pair + 1, lds_base_ping)
                     b_tile_ping = load_b_tile(fx.Index((k_pair + 1) * tile_k))
-                accs = compute_tile(accs, k_pair, lds_base_pong, b_tile_pong)
+                accs = compute_tile(accs, k_pair, lds_base_pong, b_tile_pong,
+                                    a0_prefetch=a0_prefetch_pong)
+                a0_prefetch_pong = None
                 gpu.barrier()
 
-                # Load next A+B into pong while computing current from ping
+                # Prefetch first A pack from ping
                 if k_pair + 1 < num_k_tiles:
+                    a0_prefetch_ping = lds_load_packs_k64(
+                        row_a_lds_base, col_offset_base_bytes, lds_base_ping)
+
+                    # Load next A+B into pong while computing current from ping
                     if k_pair + 2 < num_k_tiles:
                         load_a_tile(k_pair + 2, lds_base_pong)
                         b_tile_pong = load_b_tile(fx.Index((k_pair + 2) * tile_k))
-                    accs = compute_tile(accs, k_pair + 1, lds_base_ping, b_tile_ping)
+                    accs = compute_tile(accs, k_pair + 1, lds_base_ping, b_tile_ping,
+                                        a0_prefetch=a0_prefetch_ping)
+                    a0_prefetch_ping = None
                     gpu.barrier()
 
+                    # Prefetch first A pack from pong for next iteration
+                    if k_pair + 2 < num_k_tiles:
+                        a0_prefetch_pong = lds_load_packs_k64(
+                            row_a_lds_base, col_offset_base_bytes, lds_base_pong)
+
             # ===== Epilogue: store results =====
             c_n = n_in
             lane_div_16_mul4 = lane_div_16 * fx.Index(4)
diff --git a/tests/kernels/test_grouped_gemm.py b/tests/kernels/test_grouped_gemm_blockscale_contiguous.py
similarity index 100%
rename from tests/kernels/test_grouped_gemm.py
rename to tests/kernels/test_grouped_gemm_blockscale_contiguous.py

From 53442a90580ccfb53a3a7afbd24ca1b6932af3eb Mon Sep 17 00:00:00 2001
From: Aryaman Gupta <aryaman.gupta@amd.com>
Date: Fri, 10 Apr 2026 06:33:20 -0500
Subject: [PATCH 21/39] group gemm contiguous: renames files

---
 kernels/grouped_gemm_blockscale_contiguous.py            | 2 +-
 tests/kernels/test_grouped_gemm_blockscale_contiguous.py | 6 +++---
 2 files changed, 4 insertions(+), 4 deletions(-)

diff --git a/kernels/grouped_gemm_blockscale_contiguous.py b/kernels/grouped_gemm_blockscale_contiguous.py
index cd3f7e5d5..d1340d4c8 100644
--- a/kernels/grouped_gemm_blockscale_contiguous.py
+++ b/kernels/grouped_gemm_blockscale_contiguous.py
@@ -1,7 +1,7 @@
 # SPDX-License-Identifier: Apache-2.0
 # Copyright (c) 2025 FlyDSL Project Contributors
 
-"""Grouped FP8 GEMM kernel (M-grouped contiguous layout).
+"""Contiguous Grouped FP8 GEMM kernel with block scaling.
 
 API matching DeepGEMM's m_grouped_fp8_gemm_nt_contiguous:
   - A: [M_total, K] FP8 - concatenated rows from all groups
diff --git a/tests/kernels/test_grouped_gemm_blockscale_contiguous.py b/tests/kernels/test_grouped_gemm_blockscale_contiguous.py
index 2850f11fa..a56a891cd 100644
--- a/tests/kernels/test_grouped_gemm_blockscale_contiguous.py
+++ b/tests/kernels/test_grouped_gemm_blockscale_contiguous.py
@@ -3,9 +3,9 @@
 # SPDX-License-Identifier: Apache-2.0
 # Copyright (c) 2025 FlyDSL Project Contributors
 
-"""Tests for Grouped FP8 GEMM kernel.
+"""Tests for Contiguous Grouped FP8 GEMM kernel (blockscale).
 
-Tests the grouped FP8 GEMM with block scaling, matching DeepGEMM's
+Tests the contiguous grouped FP8 GEMM with block scaling, matching DeepGEMM's
 m_grouped_fp8_gemm_nt_contiguous API.
 """
 
@@ -25,7 +25,7 @@
     if os.path.isdir(_p) and _p not in sys.path:
         sys.path.insert(0, _p)
 
-from kernels.grouped_gemm import compile_grouped_fp8_gemm
+from kernels.grouped_gemm_blockscale_contiguous import compile_grouped_fp8_gemm
 from flydsl.runtime.device import get_rocm_arch
 from tests.test_common import run_perftest, verify_output
 from tests.utils import shuffle_weight

From 7e82c870ce2c951c6f9ae7a841bc3d5c060d85cd Mon Sep 17 00:00:00 2001
From: Aryaman Gupta <aryaman.gupta@amd.com>
Date: Mon, 13 Apr 2026 06:50:42 -0500
Subject: [PATCH 22/39] group gemm kernels: adds cshuffle epilogue stores

---
 kernels/grouped_gemm_blockscale_contiguous.py | 77 ++++++++++++++-----
 kernels/grouped_gemm_blockscale_masked.py     | 77 ++++++++++++++-----
 2 files changed, 112 insertions(+), 42 deletions(-)

diff --git a/kernels/grouped_gemm_blockscale_contiguous.py b/kernels/grouped_gemm_blockscale_contiguous.py
index d1340d4c8..31034b941 100644
--- a/kernels/grouped_gemm_blockscale_contiguous.py
+++ b/kernels/grouped_gemm_blockscale_contiguous.py
@@ -20,6 +20,7 @@
   - XOR swizzle for LDS bank conflict avoidance
   - Preshuffle B layout with load_b_pack_k32
   - A0 LDS prefetch (cross-tile, hides LDS read latency behind VMEM)
+  - CShuffle epilogue with vectorized stores
 """
 
 import functools
@@ -39,6 +40,7 @@
 from flydsl.expr.typing import T
 from flydsl.expr.arith import ArithValue
 
+from kernels.mfma_epilogues import mfma_epilog
 from kernels.mfma_preshuffle_pipeline import (
     crd2idx,
     lds_store_16b_xor16,
@@ -108,9 +110,11 @@ def compile_grouped_fp8_gemm(
     k_unroll = tile_k // 64  # K64-byte micro-steps (for K32 MFMA pairs)
     kpack_bytes = 16  # 16-byte packs for FP8
 
-    # LDS allocation: 2x for ping-pong double buffer
+    # LDS allocation: max of ping-pong A tiles and CShuffle epilogue output
     lds_a_bytes = tile_m * tile_k * elem_bytes
-    lds_total_bytes = 2 * lds_a_bytes
+    lds_pingpong_bytes = 2 * lds_a_bytes
+    lds_out_bytes = tile_m * tile_n * 2  # bf16/f16 = 2 bytes per element
+    lds_total_bytes = max(lds_pingpong_bytes, lds_out_bytes)
     lds_alloc_offset = allocator._align(allocator.ptr, 16)
     allocator.ptr = lds_alloc_offset + lds_total_bytes
     lds_tile_elems = tile_m * tile_k  # element offset between ping and pong
@@ -180,6 +184,9 @@ def grouped_fp8_gemm_kernel(
         lds_base_pong = fx.Index(0)
         lds_base_ping = fx.Index(lds_tile_elems)
 
+        # CShuffle epilogue LDS (aliased from same base, bf16 element type)
+        lds_out = SmemPtr(base_ptr, lds_alloc_offset, out_mlir(), shape=(tile_m * tile_n,)).get()
+
         # Buffer resources
         a_nbytes = m_in * k_in
         a_rsrc = buffer_ops.create_buffer_resource(
@@ -466,27 +473,55 @@ def compute_tile(accs_in, k_tile_idx_py, lds_base, b_tile_in, *, a0_prefetch=Non
                         a0_prefetch_pong = lds_load_packs_k64(
                             row_a_lds_base, col_offset_base_bytes, lds_base_pong)
 
-            # ===== Epilogue: store results =====
+            # ===== Epilogue: CShuffle vectorized stores =====
             c_n = n_in
-            lane_div_16_mul4 = lane_div_16 * fx.Index(4)
-
-            for mi in range_constexpr(m_repeat):
-                for ii in range_constexpr(4):
-                    row_off = lane_div_16_mul4 + fx.Index(ii)
-                    row_in_tile = arith.index(mi * 16) + row_off
-                    row_global = bx_m + row_in_tile
-
-                    for ni in range_constexpr(num_acc_n):
-                        acc_idx = mi * num_acc_n + ni
-                        col_base = by_n + n_tile_base + arith.index(ni * 16) + lane_mod_16
-
-                        # Extract scalar from accumulator
-                        val_f32 = vector.extract(accs[acc_idx], static_position=[ii], dynamic_position=[])
-                        val_out = arith.trunc_f(out_mlir(), val_f32)
+            vec1_out = T.vec(1, out_mlir())
+            e_vec = 4 if (tile_n % (32 * 4)) == 0 else 2
+
+            def write_row_to_lds(
+                *, mi, ii, row_in_tile, row,
+                row_base_lds, col_base_local, num_acc_n, lds_out,
+            ):
+                for ni in range_constexpr(num_acc_n):
+                    col_local = col_base_local + (ni * 16)
+                    acc_idx = mi * num_acc_n + ni
+                    acc = accs[acc_idx]
+                    val = vector.extract(acc, static_position=[ii], dynamic_position=[])
+                    v_out = arith.trunc_f(out_mlir(), val)
+                    lds_idx = row_base_lds + col_local
+                    v1 = vector.from_elements(vec1_out, [v_out])
+                    vector.store(v1, lds_out, [lds_idx], alignment=2)
+
+            def store_pair(*, row_local, row, row_ctx, col_pair0, col_g0, frag):
+                idx_out = row * c_n + col_g0
+                byte_off = idx_out * 2
+                if e_vec == 4:
+                    frag_i32x2 = vector.bitcast(T.vec(2, T.i32), frag)
+                    buffer_ops.buffer_store(
+                        frag_i32x2, d_rsrc, byte_off, offset_is_bytes=True
+                    )
+                else:
+                    frag_i32x1 = vector.bitcast(T.vec(1, T.i32), frag)
+                    frag_i32 = vector.extract(
+                        frag_i32x1, static_position=[0], dynamic_position=[]
+                    )
+                    buffer_ops.buffer_store(
+                        frag_i32, d_rsrc, byte_off, offset_is_bytes=True
+                    )
 
-                        # Store to D
-                        d_idx = row_global * c_n + col_base
-                        buffer_ops.buffer_store(val_out, d_rsrc, d_idx)
+            mfma_epilog(
+                use_cshuffle=True,
+                arith=arith, vector=vector, gpu=gpu,
+                range_constexpr=range_constexpr,
+                tile_m=tile_m, tile_n=tile_n, e_vec=e_vec,
+                m_repeat=m_repeat, num_acc_n=num_acc_n,
+                tx=tx, lane_div_16=lane_div_16, lane_mod_16=lane_mod_16,
+                bx_m=bx_m, by_n=by_n, n_tile_base=n_tile_base,
+                lds_out=lds_out,
+                frag_elem_type=out_mlir(),
+                write_row_to_lds=write_row_to_lds,
+                store_pair=store_pair,
+            )
 
             scf.YieldOp([])
 
diff --git a/kernels/grouped_gemm_blockscale_masked.py b/kernels/grouped_gemm_blockscale_masked.py
index 197ddf1fc..f3c1ee340 100644
--- a/kernels/grouped_gemm_blockscale_masked.py
+++ b/kernels/grouped_gemm_blockscale_masked.py
@@ -21,6 +21,7 @@
   - XOR swizzle for LDS bank conflict avoidance
   - Preshuffle B layout with load_b_pack_k32
   - A0 LDS prefetch (cross-tile, hides LDS read latency behind VMEM)
+  - CShuffle epilogue with vectorized stores
   - Dynamic block-level early exit using masked_m to skip computing padded garbage
 """
 
@@ -41,6 +42,7 @@
 from flydsl.expr.typing import T
 from flydsl.expr.arith import ArithValue
 
+from kernels.mfma_epilogues import mfma_epilog
 from kernels.mfma_preshuffle_pipeline import (
     crd2idx,
     lds_store_16b_xor16,
@@ -110,9 +112,11 @@ def compile_masked_grouped_fp8_gemm(
     k_unroll = tile_k // 64  # K64-byte micro-steps (for K32 MFMA pairs)
     kpack_bytes = 16  # 16-byte packs for FP8
 
-    # LDS allocation: 2x for ping-pong double buffer
+    # LDS allocation: max of ping-pong A tiles and CShuffle epilogue output
     lds_a_bytes = tile_m * tile_k * elem_bytes
-    lds_total_bytes = 2 * lds_a_bytes
+    lds_pingpong_bytes = 2 * lds_a_bytes
+    lds_out_bytes = tile_m * tile_n * 2  # bf16/f16 = 2 bytes per element
+    lds_total_bytes = max(lds_pingpong_bytes, lds_out_bytes)
     lds_alloc_offset = allocator._align(allocator.ptr, 16)
     allocator.ptr = lds_alloc_offset + lds_total_bytes
     lds_tile_elems = tile_m * tile_k  # element offset between ping and pong
@@ -185,6 +189,9 @@ def masked_grouped_fp8_gemm_kernel(
         lds_base_pong = fx.Index(0)
         lds_base_ping = fx.Index(lds_tile_elems)
 
+        # CShuffle epilogue LDS (aliased from same base, bf16 element type)
+        lds_out = SmemPtr(base_ptr, lds_alloc_offset, out_mlir(), shape=(tile_m * tile_n,)).get()
+
         # Buffer resources
         a_nbytes = num_groups_in * m_in * k_in
         a_rsrc = buffer_ops.create_buffer_resource(
@@ -474,28 +481,56 @@ def compute_tile(accs_in, k_tile_idx_py, lds_base, b_tile_in, *, a0_prefetch=Non
                         a0_prefetch_pong = lds_load_packs_k64(
                             row_a_lds_base, col_offset_base_bytes, lds_base_pong)
 
-            # ===== Epilogue: store results =====
+            # ===== Epilogue: CShuffle vectorized stores =====
             c_n = n_in
-            lane_div_16_mul4 = lane_div_16 * fx.Index(4)
             d_group_off = group_idx * m_in * n_in  # 3D D Offset
+            vec1_out = T.vec(1, out_mlir())
+            e_vec = 4 if (tile_n % (32 * 4)) == 0 else 2
+
+            def write_row_to_lds(
+                *, mi, ii, row_in_tile, row,
+                row_base_lds, col_base_local, num_acc_n, lds_out,
+            ):
+                for ni in range_constexpr(num_acc_n):
+                    col_local = col_base_local + (ni * 16)
+                    acc_idx = mi * num_acc_n + ni
+                    acc = accs[acc_idx]
+                    val = vector.extract(acc, static_position=[ii], dynamic_position=[])
+                    v_out = arith.trunc_f(out_mlir(), val)
+                    lds_idx = row_base_lds + col_local
+                    v1 = vector.from_elements(vec1_out, [v_out])
+                    vector.store(v1, lds_out, [lds_idx], alignment=2)
+
+            def store_pair(*, row_local, row, row_ctx, col_pair0, col_g0, frag):
+                idx_out = d_group_off + row * c_n + col_g0
+                byte_off = idx_out * 2
+                if e_vec == 4:
+                    frag_i32x2 = vector.bitcast(T.vec(2, T.i32), frag)
+                    buffer_ops.buffer_store(
+                        frag_i32x2, d_rsrc, byte_off, offset_is_bytes=True
+                    )
+                else:
+                    frag_i32x1 = vector.bitcast(T.vec(1, T.i32), frag)
+                    frag_i32 = vector.extract(
+                        frag_i32x1, static_position=[0], dynamic_position=[]
+                    )
+                    buffer_ops.buffer_store(
+                        frag_i32, d_rsrc, byte_off, offset_is_bytes=True
+                    )
 
-            for mi in range_constexpr(m_repeat):
-                for ii in range_constexpr(4):
-                    row_off = lane_div_16_mul4 + fx.Index(ii)
-                    row_in_tile = arith.index(mi * 16) + row_off
-                    row_global = bx_m + row_in_tile
-
-                    for ni in range_constexpr(num_acc_n):
-                        acc_idx = mi * num_acc_n + ni
-                        col_base = by_n + n_tile_base + arith.index(ni * 16) + lane_mod_16
-
-                        # Extract scalar from accumulator
-                        val_f32 = vector.extract(accs[acc_idx], static_position=[ii], dynamic_position=[])
-                        val_out = arith.trunc_f(out_mlir(), val_f32)
-
-                        # Store to D 
-                        d_idx = d_group_off + row_global * c_n + col_base
-                        buffer_ops.buffer_store(val_out, d_rsrc, d_idx)
+            mfma_epilog(
+                use_cshuffle=True,
+                arith=arith, vector=vector, gpu=gpu,
+                range_constexpr=range_constexpr,
+                tile_m=tile_m, tile_n=tile_n, e_vec=e_vec,
+                m_repeat=m_repeat, num_acc_n=num_acc_n,
+                tx=tx, lane_div_16=lane_div_16, lane_mod_16=lane_mod_16,
+                bx_m=bx_m, by_n=by_n, n_tile_base=n_tile_base,
+                lds_out=lds_out,
+                frag_elem_type=out_mlir(),
+                write_row_to_lds=write_row_to_lds,
+                store_pair=store_pair,
+            )
 
             scf.YieldOp([])
 

From 25b449a693c76ee18397ee3f0d9ab1c5b9f445c9 Mon Sep 17 00:00:00 2001
From: Aryaman Gupta <aryaman.gupta@amd.com>
Date: Mon, 13 Apr 2026 12:50:32 -0500
Subject: [PATCH 23/39] group gemm kernels: two-phase A load (prefetch + store
 separation)
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

Split load_a_tile into prefetch_a_tile (Global→VGPR) and
store_a_tile_to_lds (VGPR→LDS). Moves ds_write after compute_tile
to match the MoE blockscale 2-stage pipeline, enabling future
instruction scheduling to interleave ds_write with trailing MFMAs.

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
---
 kernels/grouped_gemm_blockscale_contiguous.py | 43 ++++++++++++++-----
 kernels/grouped_gemm_blockscale_masked.py     | 43 ++++++++++++++-----
 2 files changed, 64 insertions(+), 22 deletions(-)

diff --git a/kernels/grouped_gemm_blockscale_contiguous.py b/kernels/grouped_gemm_blockscale_contiguous.py
index 31034b941..c51a489e6 100644
--- a/kernels/grouped_gemm_blockscale_contiguous.py
+++ b/kernels/grouped_gemm_blockscale_contiguous.py
@@ -299,14 +299,22 @@ def grouped_fp8_gemm_kernel(
                 a_row_local.append(row_local)
                 a_col_local_i32.append(col_local_i32)
 
-            # ── Helper: load A tile to LDS with XOR swizzle ─────────────
-            def load_a_tile(k_tile_idx_py, lds_base):
-                """Load A tile from global to LDS with XOR16 swizzle."""
+            # ── Helper: prefetch A tile (gmem -> regs) ─────────────────
+            def prefetch_a_tile(k_tile_idx_py):
+                """Load A tile from global memory into VGPRs."""
                 base_k_div4 = fx.Index(k_tile_idx_py * tile_k_dwords)
+                parts = []
                 for i in range_constexpr(num_a_loads):
                     row_global = bx_m + a_row_local[i]
                     idx_i32 = row_global * _k_div4_factor + base_k_div4 + a_col_local_i32[i]
                     a_vec = buffer_ops.buffer_load(a_rsrc, idx_i32, vec_width=4, dtype=T.i32)
+                    parts.append(vector.bitcast(T.i32x4, a_vec))
+                return parts
+
+            # ── Helper: store A regs to LDS with XOR swizzle ───────────
+            def store_a_tile_to_lds(a_parts, lds_base):
+                """Write prefetched A tile from VGPRs into LDS with XOR16 swizzle."""
+                for i in range_constexpr(num_a_loads):
                     lds_store_16b_xor16(
                         arith, vector,
                         lds_memref=lds_a, vec16_ty=T.f8x16,
@@ -315,7 +323,7 @@ def load_a_tile(k_tile_idx_py, lds_base):
                         col_local_i32=a_col_local_i32[i],
                         tx_c4=c4_bytes, k_blocks16=k_blocks16,
                         lds_base=lds_base,
-                        vec_part_i32x4=a_vec, elem_bytes=elem_bytes,
+                        vec_part_i32x4=a_parts[i], elem_bytes=elem_bytes,
                     )
 
             # ── Helper: load A K64 pack from LDS with XOR swizzle ────────
@@ -436,8 +444,9 @@ def compute_tile(accs_in, k_tile_idx_py, lds_base, b_tile_in, *, a0_prefetch=Non
                 return current_accs
 
             # ===== Ping-pong K-loop =====
-            # Prologue: load first A tile and B tile
-            load_a_tile(0, lds_base_pong)
+            # Prologue: prefetch first A tile into VGPRs, store to LDS, load B
+            a_regs0 = prefetch_a_tile(0)
+            store_a_tile_to_lds(a_regs0, lds_base_pong)
             b_tile_pong = load_b_tile(fx.Index(0))
             gpu.barrier()
 
@@ -445,27 +454,39 @@ def compute_tile(accs_in, k_tile_idx_py, lds_base, b_tile_in, *, a0_prefetch=Non
             a0_prefetch_pong = lds_load_packs_k64(row_a_lds_base, col_offset_base_bytes, lds_base_pong)
 
             for k_pair in range_constexpr(0, num_k_tiles, 2):
-                # Load next A+B into ping while computing current from pong
+                # Prefetch next A+B to VGPRs (VMEM issued before compute)
                 if k_pair + 1 < num_k_tiles:
-                    load_a_tile(k_pair + 1, lds_base_ping)
+                    a_regs_ping = prefetch_a_tile(k_pair + 1)
                     b_tile_ping = load_b_tile(fx.Index((k_pair + 1) * tile_k))
+
+                # Compute current tile from pong LDS
                 accs = compute_tile(accs, k_pair, lds_base_pong, b_tile_pong,
                                     a0_prefetch=a0_prefetch_pong)
                 a0_prefetch_pong = None
+
+                # Store next A to LDS (ds_write after compute, overlaps with trailing MFMAs)
+                if k_pair + 1 < num_k_tiles:
+                    store_a_tile_to_lds(a_regs_ping, lds_base_ping)
                 gpu.barrier()
 
-                # Prefetch first A pack from ping
                 if k_pair + 1 < num_k_tiles:
+                    # Prefetch first A pack from ping
                     a0_prefetch_ping = lds_load_packs_k64(
                         row_a_lds_base, col_offset_base_bytes, lds_base_ping)
 
-                    # Load next A+B into pong while computing current from ping
+                    # Prefetch next A+B to VGPRs
                     if k_pair + 2 < num_k_tiles:
-                        load_a_tile(k_pair + 2, lds_base_pong)
+                        a_regs_pong = prefetch_a_tile(k_pair + 2)
                         b_tile_pong = load_b_tile(fx.Index((k_pair + 2) * tile_k))
+
+                    # Compute current tile from ping LDS
                     accs = compute_tile(accs, k_pair + 1, lds_base_ping, b_tile_ping,
                                         a0_prefetch=a0_prefetch_ping)
                     a0_prefetch_ping = None
+
+                    # Store next A to LDS
+                    if k_pair + 2 < num_k_tiles:
+                        store_a_tile_to_lds(a_regs_pong, lds_base_pong)
                     gpu.barrier()
 
                     # Prefetch first A pack from pong for next iteration
diff --git a/kernels/grouped_gemm_blockscale_masked.py b/kernels/grouped_gemm_blockscale_masked.py
index f3c1ee340..00a9f6755 100644
--- a/kernels/grouped_gemm_blockscale_masked.py
+++ b/kernels/grouped_gemm_blockscale_masked.py
@@ -304,14 +304,22 @@ def masked_grouped_fp8_gemm_kernel(
                 a_row_local.append(row_local)
                 a_col_local_i32.append(col_local_i32)
 
-            # ── Helper: load A tile to LDS with XOR swizzle ─────────────
-            def load_a_tile(k_tile_idx_py, lds_base):
-                """Load A tile from global to LDS with XOR16 swizzle."""
+            # ── Helper: prefetch A tile (gmem -> regs) ─────────────────
+            def prefetch_a_tile(k_tile_idx_py):
+                """Load A tile from global memory into VGPRs."""
                 base_k_div4 = fx.Index(k_tile_idx_py * tile_k_dwords)
+                parts = []
                 for i in range_constexpr(num_a_loads):
                     row_global = bx_m + a_row_local[i]
                     idx_i32 = group_a_off_div4 + row_global * _k_div4_factor + base_k_div4 + a_col_local_i32[i]
                     a_vec = buffer_ops.buffer_load(a_rsrc, idx_i32, vec_width=4, dtype=T.i32)
+                    parts.append(vector.bitcast(T.i32x4, a_vec))
+                return parts
+
+            # ── Helper: store A regs to LDS with XOR swizzle ───────────
+            def store_a_tile_to_lds(a_parts, lds_base):
+                """Write prefetched A tile from VGPRs into LDS with XOR16 swizzle."""
+                for i in range_constexpr(num_a_loads):
                     lds_store_16b_xor16(
                         arith, vector,
                         lds_memref=lds_a, vec16_ty=T.f8x16,
@@ -320,7 +328,7 @@ def load_a_tile(k_tile_idx_py, lds_base):
                         col_local_i32=a_col_local_i32[i],
                         tx_c4=c4_bytes, k_blocks16=k_blocks16,
                         lds_base=lds_base,
-                        vec_part_i32x4=a_vec, elem_bytes=elem_bytes,
+                        vec_part_i32x4=a_parts[i], elem_bytes=elem_bytes,
                     )
 
             # ── Helper: load A K64 pack from LDS with XOR swizzle ────────
@@ -444,8 +452,9 @@ def compute_tile(accs_in, k_tile_idx_py, lds_base, b_tile_in, *, a0_prefetch=Non
                 return current_accs
 
             # ===== Ping-pong K-loop =====
-            # Prologue: load first A tile and B tile
-            load_a_tile(0, lds_base_pong)
+            # Prologue: prefetch first A tile into VGPRs, store to LDS, load B
+            a_regs0 = prefetch_a_tile(0)
+            store_a_tile_to_lds(a_regs0, lds_base_pong)
             b_tile_pong = load_b_tile(fx.Index(0))
             gpu.barrier()
 
@@ -453,27 +462,39 @@ def compute_tile(accs_in, k_tile_idx_py, lds_base, b_tile_in, *, a0_prefetch=Non
             a0_prefetch_pong = lds_load_packs_k64(row_a_lds_base, col_offset_base_bytes, lds_base_pong)
 
             for k_pair in range_constexpr(0, num_k_tiles, 2):
-                # Load next A+B into ping while computing current from pong
+                # Prefetch next A+B to VGPRs (VMEM issued before compute)
                 if k_pair + 1 < num_k_tiles:
-                    load_a_tile(k_pair + 1, lds_base_ping)
+                    a_regs_ping = prefetch_a_tile(k_pair + 1)
                     b_tile_ping = load_b_tile(fx.Index((k_pair + 1) * tile_k))
+
+                # Compute current tile from pong LDS
                 accs = compute_tile(accs, k_pair, lds_base_pong, b_tile_pong,
                                     a0_prefetch=a0_prefetch_pong)
                 a0_prefetch_pong = None
+
+                # Store next A to LDS (ds_write after compute)
+                if k_pair + 1 < num_k_tiles:
+                    store_a_tile_to_lds(a_regs_ping, lds_base_ping)
                 gpu.barrier()
 
-                # Prefetch first A pack from ping
                 if k_pair + 1 < num_k_tiles:
+                    # Prefetch first A pack from ping
                     a0_prefetch_ping = lds_load_packs_k64(
                         row_a_lds_base, col_offset_base_bytes, lds_base_ping)
 
-                    # Load next A+B into pong while computing current from ping
+                    # Prefetch next A+B to VGPRs
                     if k_pair + 2 < num_k_tiles:
-                        load_a_tile(k_pair + 2, lds_base_pong)
+                        a_regs_pong = prefetch_a_tile(k_pair + 2)
                         b_tile_pong = load_b_tile(fx.Index((k_pair + 2) * tile_k))
+
+                    # Compute current tile from ping LDS
                     accs = compute_tile(accs, k_pair + 1, lds_base_ping, b_tile_ping,
                                         a0_prefetch=a0_prefetch_ping)
                     a0_prefetch_ping = None
+
+                    # Store next A to LDS
+                    if k_pair + 2 < num_k_tiles:
+                        store_a_tile_to_lds(a_regs_pong, lds_base_pong)
                     gpu.barrier()
 
                     # Prefetch first A pack from pong for next iteration

From abec5b655417976b22bdcba6d5df54d6832c5f3e Mon Sep 17 00:00:00 2001
From: Aryaman Gupta <aryaman.gupta@amd.com>
Date: Mon, 13 Apr 2026 13:01:43 -0500
Subject: [PATCH 24/39] group gemm kernels: adds sched_group_barrier
 instruction scheduling

Adds hot_loop_scheduler() with coarse-grained sched_group_barrier
hints matching the moe_blockscale_2stage pattern. Placed after
store_a_tile_to_lds and before gpu.barrier(), only emitted when
a next tile actually exists (avoids LLVM assertion from mismatched
instruction counts on tail iterations).

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
---
 kernels/grouped_gemm_blockscale_contiguous.py | 15 +++++++++++++++
 kernels/grouped_gemm_blockscale_masked.py     | 15 +++++++++++++++
 2 files changed, 30 insertions(+)

diff --git a/kernels/grouped_gemm_blockscale_contiguous.py b/kernels/grouped_gemm_blockscale_contiguous.py
index c51a489e6..e4139d1dc 100644
--- a/kernels/grouped_gemm_blockscale_contiguous.py
+++ b/kernels/grouped_gemm_blockscale_contiguous.py
@@ -377,6 +377,19 @@ def load_b_tile(base_k):
             row_a_lds_base = lane_mod_16  # mi=0
             col_offset_base_bytes = lane_div_16 * fx.Index(16)  # ku=0
 
+            # ── Scheduling hints (sched_group_barrier, MoE stage 2 pattern) ──
+            ku_per_sb = scale_block_k // 64
+            rocdl.sched_barrier(0)
+
+            def hot_loop_scheduler():
+                mfma_per_ku = m_repeat * num_acc_n * 2  # m * n_acc * 2(k32)
+                total_mfma = k_unroll * mfma_per_ku
+                rocdl.sched_group_barrier(rocdl.mask_dsrd, ku_per_sb * m_repeat, 0)
+                rocdl.sched_group_barrier(rocdl.mask_mfma, total_mfma, 1)
+                rocdl.sched_group_barrier(rocdl.mask_vmem_rd, num_a_loads, 2)
+                rocdl.sched_group_barrier(rocdl.mask_dswr, num_a_loads, 3)
+                rocdl.sched_barrier(0)
+
             # ── Helper: compute one K-tile from LDS + B tile ────────────
             def compute_tile(accs_in, k_tile_idx_py, lds_base, b_tile_in, *, a0_prefetch=None):
                 """Compute MFMA tiles for one K-tile, return updated accumulators."""
@@ -467,6 +480,7 @@ def compute_tile(accs_in, k_tile_idx_py, lds_base, b_tile_in, *, a0_prefetch=Non
                 # Store next A to LDS (ds_write after compute, overlaps with trailing MFMAs)
                 if k_pair + 1 < num_k_tiles:
                     store_a_tile_to_lds(a_regs_ping, lds_base_ping)
+                    hot_loop_scheduler()
                 gpu.barrier()
 
                 if k_pair + 1 < num_k_tiles:
@@ -487,6 +501,7 @@ def compute_tile(accs_in, k_tile_idx_py, lds_base, b_tile_in, *, a0_prefetch=Non
                     # Store next A to LDS
                     if k_pair + 2 < num_k_tiles:
                         store_a_tile_to_lds(a_regs_pong, lds_base_pong)
+                        hot_loop_scheduler()
                     gpu.barrier()
 
                     # Prefetch first A pack from pong for next iteration
diff --git a/kernels/grouped_gemm_blockscale_masked.py b/kernels/grouped_gemm_blockscale_masked.py
index 00a9f6755..8b3fa2e8b 100644
--- a/kernels/grouped_gemm_blockscale_masked.py
+++ b/kernels/grouped_gemm_blockscale_masked.py
@@ -382,6 +382,19 @@ def load_b_tile(base_k):
             row_a_lds_base = lane_mod_16  # mi=0
             col_offset_base_bytes = lane_div_16 * fx.Index(16)  # ku=0
 
+            # ── Scheduling hints (sched_group_barrier, MoE stage 2 pattern) ──
+            ku_per_sb = scale_block_k // 64
+            rocdl.sched_barrier(0)
+
+            def hot_loop_scheduler():
+                mfma_per_ku = m_repeat * num_acc_n * 2  # m * n_acc * 2(k32)
+                total_mfma = k_unroll * mfma_per_ku
+                rocdl.sched_group_barrier(rocdl.mask_dsrd, ku_per_sb * m_repeat, 0)
+                rocdl.sched_group_barrier(rocdl.mask_mfma, total_mfma, 1)
+                rocdl.sched_group_barrier(rocdl.mask_vmem_rd, num_a_loads, 2)
+                rocdl.sched_group_barrier(rocdl.mask_dswr, num_a_loads, 3)
+                rocdl.sched_barrier(0)
+
             # ── Helper: compute one K-tile from LDS + B tile ────────────
             c_scale_k = fx.Index(scale_k)
             sa_group_off = group_idx * c_scale_k * m_in  # 3D scale_a Offset
@@ -475,6 +488,7 @@ def compute_tile(accs_in, k_tile_idx_py, lds_base, b_tile_in, *, a0_prefetch=Non
                 # Store next A to LDS (ds_write after compute)
                 if k_pair + 1 < num_k_tiles:
                     store_a_tile_to_lds(a_regs_ping, lds_base_ping)
+                    hot_loop_scheduler()
                 gpu.barrier()
 
                 if k_pair + 1 < num_k_tiles:
@@ -495,6 +509,7 @@ def compute_tile(accs_in, k_tile_idx_py, lds_base, b_tile_in, *, a0_prefetch=Non
                     # Store next A to LDS
                     if k_pair + 2 < num_k_tiles:
                         store_a_tile_to_lds(a_regs_pong, lds_base_pong)
+                        hot_loop_scheduler()
                     gpu.barrier()
 
                     # Prefetch first A pack from pong for next iteration

From 52db079496ad9f17c29e7eec6d5598feeb9f1b40 Mon Sep 17 00:00:00 2001
From: Aryaman Gupta <aryaman.gupta@amd.com>
Date: Mon, 13 Apr 2026 13:06:41 -0500
Subject: [PATCH 25/39] group gemm kernels: adds waves_per_eu compile hint
 support

Adds optional waves_per_eu parameter to compile functions. When set,
applies rocdl.waves_per_eu attribute to gpu.func for occupancy
tuning. Matches the pattern from blockscale_preshuffle_gemm and
moe_blockscale_2stage kernels.

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
---
 kernels/grouped_gemm_blockscale_contiguous.py | 7 +++++++
 kernels/grouped_gemm_blockscale_masked.py     | 7 +++++++
 2 files changed, 14 insertions(+)

diff --git a/kernels/grouped_gemm_blockscale_contiguous.py b/kernels/grouped_gemm_blockscale_contiguous.py
index e4139d1dc..97c080cd7 100644
--- a/kernels/grouped_gemm_blockscale_contiguous.py
+++ b/kernels/grouped_gemm_blockscale_contiguous.py
@@ -63,6 +63,7 @@ def compile_grouped_fp8_gemm(
     scale_block_k: int = 128,
     scale_block_n: int = 128,
     out_dtype: str = "bf16",
+    waves_per_eu: int | None = None,
 ):
     """Compile grouped FP8 GEMM kernel and return the JIT launcher.
 
@@ -599,6 +600,12 @@ def launch_grouped_fp8_gemm(
             i32_k,
             i32_num_groups,
         )
+        if waves_per_eu is not None:
+            _wpe = int(waves_per_eu)
+            if _wpe >= 1:
+                for op in ctx.gpu_module_body.operations:
+                    if hasattr(op, 'attributes') and op.OPERATION_NAME == "gpu.func":
+                        op.attributes["rocdl.waves_per_eu"] = ir.IntegerAttr.get(T.i32, _wpe)
         launcher.launch(grid=(gx, gy, 1), block=(total_threads, 1, 1), stream=stream)
 
     return launch_grouped_fp8_gemm
diff --git a/kernels/grouped_gemm_blockscale_masked.py b/kernels/grouped_gemm_blockscale_masked.py
index 8b3fa2e8b..53e13e16d 100644
--- a/kernels/grouped_gemm_blockscale_masked.py
+++ b/kernels/grouped_gemm_blockscale_masked.py
@@ -65,6 +65,7 @@ def compile_masked_grouped_fp8_gemm(
     scale_block_k: int = 128,
     scale_block_n: int = 128,
     out_dtype: str = "bf16",
+    waves_per_eu: int | None = None,
 ):
     """Compile masked grouped FP8 GEMM kernel and return the JIT launcher.
 
@@ -611,6 +612,12 @@ def launch_masked_grouped_fp8_gemm(
             i32_k,
             i32_num_groups,
         )
+        if waves_per_eu is not None:
+            _wpe = int(waves_per_eu)
+            if _wpe >= 1:
+                for op in ctx.gpu_module_body.operations:
+                    if hasattr(op, 'attributes') and op.OPERATION_NAME == "gpu.func":
+                        op.attributes["rocdl.waves_per_eu"] = ir.IntegerAttr.get(T.i32, _wpe)
         launcher.launch(grid=(gx, gy, gz), block=(total_threads, 1, 1), stream=stream)
 
     return launch_masked_grouped_fp8_gemm
\ No newline at end of file

From 6a6f661ea549c6dc46f6b83ffd99c3260c11bf88 Mon Sep 17 00:00:00 2001
From: Aryaman Gupta <aryaman.gupta@amd.com>
Date: Mon, 13 Apr 2026 13:36:48 -0500
Subject: [PATCH 26/39] group gemm tests: improved correctness coverage and
 fixed masked f16 bug

Contiguous test:
- Generate unaligned M group sizes with -1 padding rows (DeepGEMM convention)
- Add unaligned M test cases (2g-100m, 4g-200m)
- Add DeepSeek-V3 shapes (2112x7168, 7168x2304)
- Add out_dtype parametrization (bf16 + f16)
- Zero out padding rows before comparison
- Add --waves_per_eu CLI arg

Masked test:
- Fix output buffer dtype bug (was hardcoded bf16, now respects out_dtype)
- Add sparse masking test (4g-512max-50m)
- Add DeepSeek-V3 shapes
- Add out_dtype parametrization (bf16 + f16)
- Wire out_dtype through generate_masked_grouped_gemm_inputs
- Add --waves_per_eu CLI arg

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
---
 ...test_grouped_gemm_blockscale_contiguous.py | 89 +++++++++++++------
 .../test_grouped_gemm_blockscale_masked.py    | 48 ++++++----
 2 files changed, 92 insertions(+), 45 deletions(-)

diff --git a/tests/kernels/test_grouped_gemm_blockscale_contiguous.py b/tests/kernels/test_grouped_gemm_blockscale_contiguous.py
index a56a891cd..4222ce0f4 100644
--- a/tests/kernels/test_grouped_gemm_blockscale_contiguous.py
+++ b/tests/kernels/test_grouped_gemm_blockscale_contiguous.py
@@ -174,48 +174,66 @@ def generate_grouped_gemm_inputs(
     k: int,
     scale_block_k: int = 128,
     scale_block_n: int = 128,
+    out_dtype: str = "bf16",
     device: str = "cuda",
 ):
     """Generate test inputs for grouped GEMM.
 
+    Generates variable actual group sizes (unaligned), pads each group to
+    128-row alignment, and marks padding rows with -1 in grouped_layout
+    (matching DeepGEMM's contiguous layout convention).
+
     Args:
         num_groups: Number of groups
-        m_per_group: Approximate M rows per group
+        m_per_group: Approximate actual M rows per group (before alignment)
         n: N dimension
         k: K dimension
         scale_block_k: K-dimension scale block size
         scale_block_n: N-dimension scale block size
+        out_dtype: Output data type ("bf16" or "f16")
         device: Device to create tensors on
 
     Returns:
-        Tuple of (a_fp8, scale_a, b_fp8, scale_b, grouped_layout, d, ref_d)
+        Tuple of (a_fp8, scale_a, b_shuffled, scale_b, grouped_layout, d, ref_d, M)
     """
-    # Generate variable group sizes (aligned to tile_m=128)
-    tile_m = 128
-    ms = []
-    for _ in range(num_groups):
-        m = int(m_per_group * (0.8 + 0.4 * torch.rand(1).item()))
-        m = align(m, tile_m)
-        ms.append(m)
-    M = sum(ms)
+    alignment = 128  # DeepGEMM's get_mk_alignment_for_contiguous_layout() = 128
+    torch_out_dtype = torch.bfloat16 if out_dtype == "bf16" else torch.float16
 
-    # Create grouped_layout
+    # Generate variable actual group sizes, then align
+    actual_ms = []
+    aligned_ms = []
+    for _ in range(num_groups):
+        m_actual = int(m_per_group * (0.8 + 0.4 * torch.rand(1).item()))
+        m_actual = max(1, m_actual)  # at least 1 row
+        m_aligned = align(m_actual, alignment)
+        actual_ms.append(m_actual)
+        aligned_ms.append(m_aligned)
+    M = sum(aligned_ms)
+
+    # Create grouped_layout with -1 padding
     grouped_layout = torch.empty(M, dtype=torch.int32, device=device)
     start = 0
-    for g, m in enumerate(ms):
-        grouped_layout[start : start + m] = g
-        start += m
+    for g, (m_actual, m_aligned) in enumerate(zip(actual_ms, aligned_ms)):
+        grouped_layout[start : start + m_actual] = g
+        grouped_layout[start + m_actual : start + m_aligned] = -1
+        start += m_aligned
 
     # Generate random data
     a_f32 = torch.randn(M, k, device=device, dtype=torch.float32)
     b_f32 = torch.randn(num_groups, n, k, device=device, dtype=torch.float32)
 
+    # Zero out padding rows in A (matching DeepGEMM convention)
+    start = 0
+    for m_actual, m_aligned in zip(actual_ms, aligned_ms):
+        a_f32[start + m_actual : start + m_aligned] = 0
+        start += m_aligned
+
     # Quantize to FP8
     a_fp8, scale_a = quantize_to_fp8(a_f32, scale_block_k)
     b_fp8, scale_b = quantize_b_to_fp8(b_f32, scale_block_n, scale_block_k)
 
     # Output buffer
-    d = torch.zeros(M, n, dtype=torch.bfloat16, device=device)
+    d = torch.zeros(M, n, dtype=torch_out_dtype, device=device)
 
     # Reference output (uses unshuffled B)
     ref_d = torch_grouped_gemm_ref(
@@ -236,22 +254,33 @@ def _as_i8(t: torch.Tensor) -> torch.Tensor:
 @pytest.mark.parametrize(
     "num_groups,m_per_group,n,k",
     [
-        pytest.param(1, 128, 128, 128, id="single-group-small"),
-        pytest.param(2, 128, 128, 128, id="two-groups-small"),
-        pytest.param(4, 128, 256, 256, id="four-groups-medium"),
-        pytest.param(8, 256, 512, 512, id="eight-groups-larger", marks=pytest.mark.large_shape),
+        # Basic shapes
+        pytest.param(1, 128, 128, 128, id="1g-128m-128n-128k"),
+        pytest.param(2, 128, 128, 128, id="2g-128m-128n-128k"),
+        pytest.param(4, 128, 256, 256, id="4g-128m-256n-256k"),
+        # Unaligned M (produces -1 padding rows in grouped_layout)
+        pytest.param(2, 100, 128, 128, id="2g-100m-unaligned"),
+        pytest.param(4, 200, 256, 256, id="4g-200m-unaligned"),
+        # Larger shapes
+        pytest.param(8, 256, 512, 512, id="8g-256m-512n-512k", marks=pytest.mark.large_shape),
+        # DeepSeek-V3 shapes
+        pytest.param(8, 256, 2112, 7168, id="DS-8g-2112x7168", marks=pytest.mark.large_shape),
+        pytest.param(8, 256, 7168, 2304, id="DS-8g-7168x2304", marks=pytest.mark.large_shape),
     ],
 )
-def test_grouped_fp8_gemm_correctness(num_groups, m_per_group, n, k,
-                                      tile_m=128, tile_n=128, tile_k=128,
-                                      out_dtype="bf16"):
+@pytest.mark.parametrize("out_dtype", [
+    pytest.param("bf16", id="bf16"),
+    pytest.param("f16", id="f16"),
+])
+def test_grouped_fp8_gemm_correctness(num_groups, m_per_group, n, k, out_dtype,
+                                      tile_m=128, tile_n=128, tile_k=128):
     """Test grouped FP8 GEMM correctness against PyTorch reference."""
     scale_block_k = 128
     scale_block_n = 128
 
     # Generate inputs
     a_fp8, scale_a, b_fp8, scale_b, grouped_layout, d, ref_d, M = generate_grouped_gemm_inputs(
-        num_groups, m_per_group, n, k, scale_block_k, scale_block_n
+        num_groups, m_per_group, n, k, scale_block_k, scale_block_n, out_dtype=out_dtype,
     )
 
     # Compile kernel
@@ -283,10 +312,14 @@ def launch_kernel(d, a, b, sa, sb, gl):
     )
     torch.cuda.synchronize()
 
-    # Verify correctness
+    # Zero out padding rows (group_id == -1) before comparison
+    padding_mask = grouped_layout.cpu() == -1
     c_out_f32 = d.to(torch.float32)
     c_ref = ref_d.to(torch.float32)
-    msg = f"num_groups={num_groups}, M={M}, N={n}, K={k}"
+    c_out_f32[padding_mask] = 0.0
+    c_ref[padding_mask] = 0.0
+
+    msg = f"num_groups={num_groups}, M={M}, N={n}, K={k}, out={out_dtype}"
     passed = verify_output(c_out_f32, c_ref, rtol=1e-2, atol=1e-2, msg=msg)
     assert passed, f"Correctness check failed for {msg}"
 
@@ -307,7 +340,7 @@ def test_grouped_fp8_gemm_performance(num_groups, m_per_group, n, k,
 
     # Generate inputs
     a_fp8, scale_a, b_fp8, scale_b, grouped_layout, d, ref_d, M = generate_grouped_gemm_inputs(
-        num_groups, m_per_group, n, k, scale_block_k, scale_block_n
+        num_groups, m_per_group, n, k, scale_block_k, scale_block_n, out_dtype=out_dtype,
     )
 
     # Compile kernel
@@ -369,6 +402,7 @@ def launch_kernel(d, a, b, sa, sb, gl):
     parser.add_argument("--tile_n", type=int, default=128)
     parser.add_argument("--tile_k", type=int, default=128)
     parser.add_argument("--out_dtype", type=str, default="bf16", choices=["bf16", "f16"])
+    parser.add_argument("--waves_per_eu", type=int, default=None)
     parser.add_argument("--num_iters", type=int, default=100)
     parser.add_argument("--num_warmup", type=int, default=5)
     args = parser.parse_args()
@@ -379,8 +413,9 @@ def launch_kernel(d, a, b, sa, sb, gl):
 
     for m_per_group in m_list:
         test_grouped_fp8_gemm_correctness(args.num_groups, m_per_group, args.N, args.K,
+                                          out_dtype=args.out_dtype,
                                           tile_m=args.tile_m, tile_n=args.tile_n,
-                                          tile_k=args.tile_k, out_dtype=args.out_dtype)
+                                          tile_k=args.tile_k)
         test_grouped_fp8_gemm_performance(args.num_groups, m_per_group, args.N, args.K,
                                           tile_m=args.tile_m, tile_n=args.tile_n,
                                           tile_k=args.tile_k, out_dtype=args.out_dtype,
diff --git a/tests/kernels/test_grouped_gemm_blockscale_masked.py b/tests/kernels/test_grouped_gemm_blockscale_masked.py
index 511d3e808..993590330 100644
--- a/tests/kernels/test_grouped_gemm_blockscale_masked.py
+++ b/tests/kernels/test_grouped_gemm_blockscale_masked.py
@@ -170,6 +170,7 @@ def generate_masked_grouped_gemm_inputs(
     k: int,
     scale_block_k: int = 128,
     scale_block_n: int = 128,
+    out_dtype: str = "bf16",
     device: str = "cuda",
 ):
     """Generate test inputs for masked grouped GEMM.
@@ -180,10 +181,13 @@ def generate_masked_grouped_gemm_inputs(
         expected_m_per_group: Average actual M rows per group
         n: N dimension
         k: K dimension
+        out_dtype: Output data type ("bf16" or "f16")
 
     Returns:
         Tuple of (a_fp8, scale_a, b_shuffled, scale_b, masked_m, d, ref_d)
     """
+    torch_out_dtype = torch.bfloat16 if out_dtype == "bf16" else torch.float16
+
     # Generate valid length array
     masked_m = torch.empty(num_groups, dtype=torch.int32, device=device)
     for g in range(num_groups):
@@ -200,7 +204,7 @@ def generate_masked_grouped_gemm_inputs(
     b_fp8, scale_b = quantize_b_to_fp8(b_f32, scale_block_n, scale_block_k)
 
     # Output buffer
-    d = torch.zeros(num_groups, max_m, n, dtype=torch.bfloat16, device=device)
+    d = torch.zeros(num_groups, max_m, n, dtype=torch_out_dtype, device=device)
 
     # Reference output
     ref_d = torch_masked_grouped_gemm_ref(
@@ -221,22 +225,32 @@ def _as_i8(t: torch.Tensor) -> torch.Tensor:
 @pytest.mark.parametrize(
     "num_groups,max_m,expected_m,n,k",
     [
-        pytest.param(1, 256, 100, 128, 128, id="single-group-small"),
-        pytest.param(4, 256, 150, 128, 128, id="four-groups-small"),
-        pytest.param(8, 512, 300, 256, 256, id="eight-groups-medium"),
-        pytest.param(8, 1024, 800, 512, 512, id="eight-groups-larger", marks=pytest.mark.large_shape),
+        # Basic shapes
+        pytest.param(1, 256, 100, 128, 128, id="1g-256max-100m"),
+        pytest.param(4, 256, 150, 128, 128, id="4g-256max-150m"),
+        pytest.param(8, 512, 300, 256, 256, id="8g-512max-300m"),
+        # Small expected_m (many padding rows)
+        pytest.param(4, 512, 50, 128, 128, id="4g-512max-50m-sparse"),
+        # Larger shapes
+        pytest.param(8, 1024, 800, 512, 512, id="8g-1024max-800m", marks=pytest.mark.large_shape),
+        # DeepSeek-V3 shapes
+        pytest.param(8, 512, 300, 2112, 7168, id="DS-8g-2112x7168", marks=pytest.mark.large_shape),
+        pytest.param(8, 512, 300, 7168, 2304, id="DS-8g-7168x2304", marks=pytest.mark.large_shape),
     ],
 )
-def test_masked_grouped_fp8_gemm_correctness(num_groups, max_m, expected_m, n, k,
-                                             tile_m=128, tile_n=128, tile_k=128,
-                                             out_dtype="bf16"):
+@pytest.mark.parametrize("out_dtype", [
+    pytest.param("bf16", id="bf16"),
+    pytest.param("f16", id="f16"),
+])
+def test_masked_grouped_fp8_gemm_correctness(num_groups, max_m, expected_m, n, k, out_dtype,
+                                             tile_m=128, tile_n=128, tile_k=128):
     """Test masked grouped FP8 GEMM correctness against PyTorch reference."""
     scale_block_k = 128
     scale_block_n = 128
 
     # Generate inputs
     a_fp8, scale_a, b_fp8, scale_b, masked_m, d, ref_d = generate_masked_grouped_gemm_inputs(
-        num_groups, max_m, expected_m, n, k, scale_block_k, scale_block_n
+        num_groups, max_m, expected_m, n, k, scale_block_k, scale_block_n, out_dtype=out_dtype,
     )
 
     # Compile kernel
@@ -268,20 +282,16 @@ def launch_kernel(d, a, b, sa, sb, mask):
     )
     torch.cuda.synchronize()
 
-    # Verify correctness
+    # Verify correctness — zero out padding rows before comparison
+    # (kernel does not mask individual stores in the epilogue)
     c_out_f32 = d.to(torch.float32)
     c_ref = ref_d.to(torch.float32)
-
-    # Note: the kernel computes in block sizes of `tile_m` and does NOT mask out D 
-    # at the granularity of individual elements in the store epilogue.
-    # Therefore, padded rows (m_actual to max_m) in the computed tiles contain garbage.
-    # We must explicitly zero out the unused rows in the output before comparing.
     for g in range(num_groups):
         m_val = masked_m[g].item()
         c_out_f32[g, m_val:, :] = 0.0
         c_ref[g, m_val:, :] = 0.0
 
-    msg = f"num_groups={num_groups}, max_m={max_m}, N={n}, K={k}"
+    msg = f"num_groups={num_groups}, max_m={max_m}, N={n}, K={k}, out={out_dtype}"
     passed = verify_output(c_out_f32, c_ref, rtol=1e-2, atol=1e-2, msg=msg)
     assert passed, f"Correctness check failed for {msg}"
 
@@ -302,7 +312,7 @@ def test_masked_grouped_fp8_gemm_performance(num_groups, max_m, expected_m, n, k
 
     # Generate inputs
     a_fp8, scale_a, b_fp8, scale_b, masked_m, d, ref_d = generate_masked_grouped_gemm_inputs(
-        num_groups, max_m, expected_m, n, k, scale_block_k, scale_block_n
+        num_groups, max_m, expected_m, n, k, scale_block_k, scale_block_n, out_dtype=out_dtype,
     )
 
     # Compile kernel
@@ -368,6 +378,7 @@ def launch_kernel(d, a, b, sa, sb, mask):
     parser.add_argument("--tile_n", type=int, default=128)
     parser.add_argument("--tile_k", type=int, default=128)
     parser.add_argument("--out_dtype", type=str, default="bf16", choices=["bf16", "f16"])
+    parser.add_argument("--waves_per_eu", type=int, default=None)
     parser.add_argument("--num_iters", type=int, default=100)
     parser.add_argument("--num_warmup", type=int, default=5)
     args = parser.parse_args()
@@ -378,8 +389,9 @@ def launch_kernel(d, a, b, sa, sb, mask):
 
     for expected_m in m_list:
         test_masked_grouped_fp8_gemm_correctness(args.num_groups, args.max_m, expected_m, args.N, args.K,
+                                                 out_dtype=args.out_dtype,
                                                  tile_m=args.tile_m, tile_n=args.tile_n,
-                                                 tile_k=args.tile_k, out_dtype=args.out_dtype)
+                                                 tile_k=args.tile_k)
         test_masked_grouped_fp8_gemm_performance(args.num_groups, args.max_m, expected_m, args.N, args.K,
                                                  tile_m=args.tile_m, tile_n=args.tile_n,
                                                  tile_k=args.tile_k, out_dtype=args.out_dtype,

From 806816c796b490204857bfb83e159399a7b18d52 Mon Sep 17 00:00:00 2001
From: Aryaman Gupta <aryaman.gupta@amd.com>
Date: Fri, 17 Apr 2026 09:45:12 -0500
Subject: [PATCH 27/39] group gemm kernels: use blockscale intrinsic for gfx950

---
 kernels/grouped_gemm_blockscale_contiguous.py | 79 ++++++++++++++-----
 kernels/grouped_gemm_blockscale_masked.py     | 79 ++++++++++++++-----
 2 files changed, 122 insertions(+), 36 deletions(-)

diff --git a/kernels/grouped_gemm_blockscale_contiguous.py b/kernels/grouped_gemm_blockscale_contiguous.py
index 97c080cd7..cbbfb0216 100644
--- a/kernels/grouped_gemm_blockscale_contiguous.py
+++ b/kernels/grouped_gemm_blockscale_contiguous.py
@@ -378,13 +378,23 @@ def load_b_tile(base_k):
             row_a_lds_base = lane_mod_16  # mi=0
             col_offset_base_bytes = lane_div_16 * fx.Index(16)  # ku=0
 
+            # ── Pack helper for gfx950 K=128 MFMA ──────────────────────
+            mfma_res_ty = T.f32x4
+
+            def pack_i64x4_to_i32x8(x0, x1, x2, x3):
+                v4 = vector.from_elements(T.vec(4, T.i64), [x0, x1, x2, x3])
+                return vector.bitcast(T.vec(8, T.i32), v4)
+
             # ── Scheduling hints (sched_group_barrier, MoE stage 2 pattern) ──
             ku_per_sb = scale_block_k // 64
             rocdl.sched_barrier(0)
 
             def hot_loop_scheduler():
-                mfma_per_ku = m_repeat * num_acc_n * 2  # m * n_acc * 2(k32)
-                total_mfma = k_unroll * mfma_per_ku
+                mfma_group = num_acc_n
+                if _is_gfx950:
+                    total_mfma = sb_per_tile * m_repeat * mfma_group
+                else:
+                    total_mfma = k_unroll * m_repeat * mfma_group * 2
                 rocdl.sched_group_barrier(rocdl.mask_dsrd, ku_per_sb * m_repeat, 0)
                 rocdl.sched_group_barrier(rocdl.mask_mfma, total_mfma, 1)
                 rocdl.sched_group_barrier(rocdl.mask_vmem_rd, num_a_loads, 2)
@@ -425,35 +435,68 @@ def compute_tile(accs_in, k_tile_idx_py, lds_base, b_tile_in, *, a0_prefetch=Non
                         s_b_vals.append(s_b_val)
 
                     # MFMA computation for this scale block
-                    ku_per_sb = scale_block_k // 64
-
-                    for ku_local in range_constexpr(ku_per_sb):
-                        ku = sb * ku_per_sb + ku_local
-                        k_offset_bytes = ku * 64
-                        b_packs0, b_packs1 = b_tile_in[ku]
+                    if _is_gfx950:
+                        # gfx950: single K=128 MFMA per (sb, mi, ni)
+                        ku0 = sb * ku_per_sb
+                        ku1 = ku0 + 1
+                        b0_packs0, b0_packs1 = b_tile_in[ku0]
+                        b1_packs0, b1_packs1 = b_tile_in[ku1]
+                        col_base0 = col_offset_base_bytes + fx.Index(ku0 * 64)
+                        col_base1 = col_offset_base_bytes + fx.Index(ku1 * 64)
 
                         for mi in range_constexpr(m_repeat):
-                            # Use prefetched A0 for the very first iteration
-                            if a0_prefetch is not None and sb == 0 and ku_local == 0 and mi == 0:
+                            curr_row_a_lds = lane_mod_16 + arith.index(mi * 16)
+                            if a0_prefetch is not None and sb == 0 and mi == 0:
                                 a0, a1 = a0_prefetch
                             else:
-                                row_a_lds = lane_mod_16 + arith.index(mi * 16)
-                                col_a_base_bytes = lane_div_16 * fx.Index(16) + fx.Index(k_offset_bytes)
-                                a0, a1 = lds_load_packs_k64(row_a_lds, col_a_base_bytes, lds_base)
+                                a0, a1 = lds_load_packs_k64(curr_row_a_lds, col_base0, lds_base)
+                            a2, a3 = lds_load_packs_k64(curr_row_a_lds, col_base1, lds_base)
+                            a128 = pack_i64x4_to_i32x8(a0, a1, a2, a3)
 
                             for ni in range_constexpr(num_acc_n):
+                                b128 = pack_i64x4_to_i32x8(
+                                    b0_packs0[ni], b0_packs1[ni],
+                                    b1_packs0[ni], b1_packs1[ni],
+                                )
                                 acc_idx = mi * num_acc_n + ni
-
-                                # Two K32 MFMAs using preshuffle B packs
-                                mfma_fn = rocdl.mfma_f32_16x16x32_fp8_fp8
-                                mfma_mid = mfma_fn(T.f32x4, [a0, b_packs0[ni], acc_init, 0, 0, 0])
-                                mfma_result = mfma_fn(T.f32x4, [a1, b_packs1[ni], mfma_mid, 0, 0, 0])
+                                mfma_result = rocdl.mfma_scale_f32_16x16x128_f8f6f4(
+                                    mfma_res_ty,
+                                    [a128, b128, acc_init,
+                                     0, 0, 0, 0x7F7F7F7F, 0, 0x7F7F7F7F],
+                                )
 
                                 # Apply scales: accum += mfma_result * scale_a * scale_b
                                 s_a_v4 = s_a_vecs[mi]
                                 s_b_bc = vector.broadcast(T.f32x4, s_b_vals[ni])
                                 scaled = ArithValue(mfma_result) * ArithValue(s_a_v4)
                                 current_accs[acc_idx] = math_dialect.fma(scaled, s_b_bc, current_accs[acc_idx])
+                    else:
+                        # gfx942: two K=32 MFMAs per K64 micro-step
+                        for ku_local in range_constexpr(ku_per_sb):
+                            ku = sb * ku_per_sb + ku_local
+                            k_offset_bytes = ku * 64
+                            b_packs0, b_packs1 = b_tile_in[ku]
+
+                            for mi in range_constexpr(m_repeat):
+                                if a0_prefetch is not None and sb == 0 and ku_local == 0 and mi == 0:
+                                    a0, a1 = a0_prefetch
+                                else:
+                                    row_a_lds = lane_mod_16 + arith.index(mi * 16)
+                                    col_a_base_bytes = lane_div_16 * fx.Index(16) + fx.Index(k_offset_bytes)
+                                    a0, a1 = lds_load_packs_k64(row_a_lds, col_a_base_bytes, lds_base)
+
+                                for ni in range_constexpr(num_acc_n):
+                                    acc_idx = mi * num_acc_n + ni
+
+                                    mfma_fn = rocdl.mfma_f32_16x16x32_fp8_fp8
+                                    mfma_mid = mfma_fn(T.f32x4, [a0, b_packs0[ni], acc_init, 0, 0, 0])
+                                    mfma_result = mfma_fn(T.f32x4, [a1, b_packs1[ni], mfma_mid, 0, 0, 0])
+
+                                    # Apply scales: accum += mfma_result * scale_a * scale_b
+                                    s_a_v4 = s_a_vecs[mi]
+                                    s_b_bc = vector.broadcast(T.f32x4, s_b_vals[ni])
+                                    scaled = ArithValue(mfma_result) * ArithValue(s_a_v4)
+                                    current_accs[acc_idx] = math_dialect.fma(scaled, s_b_bc, current_accs[acc_idx])
 
                 return current_accs
 
diff --git a/kernels/grouped_gemm_blockscale_masked.py b/kernels/grouped_gemm_blockscale_masked.py
index 53e13e16d..3bd184e06 100644
--- a/kernels/grouped_gemm_blockscale_masked.py
+++ b/kernels/grouped_gemm_blockscale_masked.py
@@ -383,13 +383,23 @@ def load_b_tile(base_k):
             row_a_lds_base = lane_mod_16  # mi=0
             col_offset_base_bytes = lane_div_16 * fx.Index(16)  # ku=0
 
+            # ── Pack helper for gfx950 K=128 MFMA ──────────────────────
+            mfma_res_ty = T.f32x4
+
+            def pack_i64x4_to_i32x8(x0, x1, x2, x3):
+                v4 = vector.from_elements(T.vec(4, T.i64), [x0, x1, x2, x3])
+                return vector.bitcast(T.vec(8, T.i32), v4)
+
             # ── Scheduling hints (sched_group_barrier, MoE stage 2 pattern) ──
             ku_per_sb = scale_block_k // 64
             rocdl.sched_barrier(0)
 
             def hot_loop_scheduler():
-                mfma_per_ku = m_repeat * num_acc_n * 2  # m * n_acc * 2(k32)
-                total_mfma = k_unroll * mfma_per_ku
+                mfma_group = num_acc_n
+                if _is_gfx950:
+                    total_mfma = sb_per_tile * m_repeat * mfma_group
+                else:
+                    total_mfma = k_unroll * m_repeat * mfma_group * 2
                 rocdl.sched_group_barrier(rocdl.mask_dsrd, ku_per_sb * m_repeat, 0)
                 rocdl.sched_group_barrier(rocdl.mask_mfma, total_mfma, 1)
                 rocdl.sched_group_barrier(rocdl.mask_vmem_rd, num_a_loads, 2)
@@ -433,35 +443,68 @@ def compute_tile(accs_in, k_tile_idx_py, lds_base, b_tile_in, *, a0_prefetch=Non
                         s_b_vals.append(s_b_val)
 
                     # MFMA computation for this scale block
-                    ku_per_sb = scale_block_k // 64
-
-                    for ku_local in range_constexpr(ku_per_sb):
-                        ku = sb * ku_per_sb + ku_local
-                        k_offset_bytes = ku * 64
-                        b_packs0, b_packs1 = b_tile_in[ku]
+                    if _is_gfx950:
+                        # gfx950: single K=128 MFMA per (sb, mi, ni)
+                        ku0 = sb * ku_per_sb
+                        ku1 = ku0 + 1
+                        b0_packs0, b0_packs1 = b_tile_in[ku0]
+                        b1_packs0, b1_packs1 = b_tile_in[ku1]
+                        col_base0 = col_offset_base_bytes + fx.Index(ku0 * 64)
+                        col_base1 = col_offset_base_bytes + fx.Index(ku1 * 64)
 
                         for mi in range_constexpr(m_repeat):
-                            # Use prefetched A0 for the very first iteration
-                            if a0_prefetch is not None and sb == 0 and ku_local == 0 and mi == 0:
+                            curr_row_a_lds = lane_mod_16 + arith.index(mi * 16)
+                            if a0_prefetch is not None and sb == 0 and mi == 0:
                                 a0, a1 = a0_prefetch
                             else:
-                                row_a_lds = lane_mod_16 + arith.index(mi * 16)
-                                col_a_base_bytes = lane_div_16 * fx.Index(16) + fx.Index(k_offset_bytes)
-                                a0, a1 = lds_load_packs_k64(row_a_lds, col_a_base_bytes, lds_base)
+                                a0, a1 = lds_load_packs_k64(curr_row_a_lds, col_base0, lds_base)
+                            a2, a3 = lds_load_packs_k64(curr_row_a_lds, col_base1, lds_base)
+                            a128 = pack_i64x4_to_i32x8(a0, a1, a2, a3)
 
                             for ni in range_constexpr(num_acc_n):
+                                b128 = pack_i64x4_to_i32x8(
+                                    b0_packs0[ni], b0_packs1[ni],
+                                    b1_packs0[ni], b1_packs1[ni],
+                                )
                                 acc_idx = mi * num_acc_n + ni
-
-                                # Two K32 MFMAs using preshuffle B packs
-                                mfma_fn = rocdl.mfma_f32_16x16x32_fp8_fp8
-                                mfma_mid = mfma_fn(T.f32x4, [a0, b_packs0[ni], acc_init, 0, 0, 0])
-                                mfma_result = mfma_fn(T.f32x4, [a1, b_packs1[ni], mfma_mid, 0, 0, 0])
+                                mfma_result = rocdl.mfma_scale_f32_16x16x128_f8f6f4(
+                                    mfma_res_ty,
+                                    [a128, b128, acc_init,
+                                     0, 0, 0, 0x7F7F7F7F, 0, 0x7F7F7F7F],
+                                )
 
                                 # Apply scales: accum += mfma_result * scale_a * scale_b
                                 s_a_v4 = s_a_vecs[mi]
                                 s_b_bc = vector.broadcast(T.f32x4, s_b_vals[ni])
                                 scaled = ArithValue(mfma_result) * ArithValue(s_a_v4)
                                 current_accs[acc_idx] = math_dialect.fma(scaled, s_b_bc, current_accs[acc_idx])
+                    else:
+                        # gfx942: two K=32 MFMAs per K64 micro-step
+                        for ku_local in range_constexpr(ku_per_sb):
+                            ku = sb * ku_per_sb + ku_local
+                            k_offset_bytes = ku * 64
+                            b_packs0, b_packs1 = b_tile_in[ku]
+
+                            for mi in range_constexpr(m_repeat):
+                                if a0_prefetch is not None and sb == 0 and ku_local == 0 and mi == 0:
+                                    a0, a1 = a0_prefetch
+                                else:
+                                    row_a_lds = lane_mod_16 + arith.index(mi * 16)
+                                    col_a_base_bytes = lane_div_16 * fx.Index(16) + fx.Index(k_offset_bytes)
+                                    a0, a1 = lds_load_packs_k64(row_a_lds, col_a_base_bytes, lds_base)
+
+                                for ni in range_constexpr(num_acc_n):
+                                    acc_idx = mi * num_acc_n + ni
+
+                                    mfma_fn = rocdl.mfma_f32_16x16x32_fp8_fp8
+                                    mfma_mid = mfma_fn(T.f32x4, [a0, b_packs0[ni], acc_init, 0, 0, 0])
+                                    mfma_result = mfma_fn(T.f32x4, [a1, b_packs1[ni], mfma_mid, 0, 0, 0])
+
+                                    # Apply scales: accum += mfma_result * scale_a * scale_b
+                                    s_a_v4 = s_a_vecs[mi]
+                                    s_b_bc = vector.broadcast(T.f32x4, s_b_vals[ni])
+                                    scaled = ArithValue(mfma_result) * ArithValue(s_a_v4)
+                                    current_accs[acc_idx] = math_dialect.fma(scaled, s_b_bc, current_accs[acc_idx])
 
                 return current_accs
 

From e89141b99d124ac3373dbedd7413878b52271a09 Mon Sep 17 00:00:00 2001
From: Aryaman Gupta <aryaman.gupta@amd.com>
Date: Fri, 17 Apr 2026 10:26:51 -0500
Subject: [PATCH 28/39] =?UTF-8?q?group=20gemm=20tests:=20fix=20DS-V3=20tes?=
 =?UTF-8?q?t=20shape=20N=3D2112=E2=86=922048=20for=20scale=5Fblock=5Fn=20d?=
 =?UTF-8?q?ivisibility?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
---
 tests/kernels/test_grouped_gemm_blockscale_contiguous.py | 2 +-
 tests/kernels/test_grouped_gemm_blockscale_masked.py     | 2 +-
 2 files changed, 2 insertions(+), 2 deletions(-)

diff --git a/tests/kernels/test_grouped_gemm_blockscale_contiguous.py b/tests/kernels/test_grouped_gemm_blockscale_contiguous.py
index 4222ce0f4..703e0bc7a 100644
--- a/tests/kernels/test_grouped_gemm_blockscale_contiguous.py
+++ b/tests/kernels/test_grouped_gemm_blockscale_contiguous.py
@@ -264,7 +264,7 @@ def _as_i8(t: torch.Tensor) -> torch.Tensor:
         # Larger shapes
         pytest.param(8, 256, 512, 512, id="8g-256m-512n-512k", marks=pytest.mark.large_shape),
         # DeepSeek-V3 shapes
-        pytest.param(8, 256, 2112, 7168, id="DS-8g-2112x7168", marks=pytest.mark.large_shape),
+        pytest.param(8, 256, 2048, 7168, id="DS-8g-2048x7168", marks=pytest.mark.large_shape),
         pytest.param(8, 256, 7168, 2304, id="DS-8g-7168x2304", marks=pytest.mark.large_shape),
     ],
 )
diff --git a/tests/kernels/test_grouped_gemm_blockscale_masked.py b/tests/kernels/test_grouped_gemm_blockscale_masked.py
index 993590330..53065673c 100644
--- a/tests/kernels/test_grouped_gemm_blockscale_masked.py
+++ b/tests/kernels/test_grouped_gemm_blockscale_masked.py
@@ -234,7 +234,7 @@ def _as_i8(t: torch.Tensor) -> torch.Tensor:
         # Larger shapes
         pytest.param(8, 1024, 800, 512, 512, id="8g-1024max-800m", marks=pytest.mark.large_shape),
         # DeepSeek-V3 shapes
-        pytest.param(8, 512, 300, 2112, 7168, id="DS-8g-2112x7168", marks=pytest.mark.large_shape),
+        pytest.param(8, 512, 300, 2048, 7168, id="DS-8g-2048x7168", marks=pytest.mark.large_shape),
         pytest.param(8, 512, 300, 7168, 2304, id="DS-8g-7168x2304", marks=pytest.mark.large_shape),
     ],
 )

From 2f8a43f213bc7826ff79a1a09a56b4e623ee96d8 Mon Sep 17 00:00:00 2001
From: Aryaman Gupta <aryaman.gupta@amd.com>
Date: Thu, 23 Apr 2026 04:50:12 -0500
Subject: [PATCH 29/39] group gemm kernels: use blockscale intrinsic for gfx950

Replace unity scaling (0x7F7F7F7F) with actual E8M0 hardware scale
application in the mfma_scale_f32_16x16x128_f8f6f4 instruction.
Converts FP32 block scales to E8M0 (exponent extraction via >> 23),
loads per-lane scaleA (varies by lane_mod_16) and uniform scaleB,
and accumulates directly into the running accumulator. Eliminates
software multiply + FMA scale application on gfx950.

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
---
 kernels/grouped_gemm_blockscale_contiguous.py | 33 +++++++++++++------
 kernels/grouped_gemm_blockscale_masked.py     | 33 +++++++++++++------
 2 files changed, 46 insertions(+), 20 deletions(-)

diff --git a/kernels/grouped_gemm_blockscale_contiguous.py b/kernels/grouped_gemm_blockscale_contiguous.py
index cbbfb0216..e49d80b29 100644
--- a/kernels/grouped_gemm_blockscale_contiguous.py
+++ b/kernels/grouped_gemm_blockscale_contiguous.py
@@ -436,7 +436,7 @@ def compute_tile(accs_in, k_tile_idx_py, lds_base, b_tile_in, *, a0_prefetch=Non
 
                     # MFMA computation for this scale block
                     if _is_gfx950:
-                        # gfx950: single K=128 MFMA per (sb, mi, ni)
+                        # gfx950: single K=128 MFMA with hardware E8M0 block scaling
                         ku0 = sb * ku_per_sb
                         ku1 = ku0 + 1
                         b0_packs0, b0_packs1 = b_tile_in[ku0]
@@ -444,6 +444,24 @@ def compute_tile(accs_in, k_tile_idx_py, lds_base, b_tile_in, *, a0_prefetch=Non
                         col_base0 = col_offset_base_bytes + fx.Index(ku0 * 64)
                         col_base1 = col_offset_base_bytes + fx.Index(ku1 * 64)
 
+                        # Load per-lane scaleA E8M0 (one per mi, varies by lane_mod_16)
+                        sa_e8m0_list = []
+                        for mi in range_constexpr(m_repeat):
+                            sa_row = bx_m + arith.index(mi * 16) + lane_mod_16
+                            sa_idx = sa_base + sa_row
+                            sa_f32 = buffer_ops.buffer_load(sa_rsrc, sa_idx, vec_width=1, dtype=T.f32)
+                            sa_i32 = arith.bitcast(T.i32, sa_f32)
+                            sa_e8m0 = arith.andi(arith.shrui(sa_i32, fx.Int32(23)), fx.Int32(0xFF))
+                            sa_e8m0_list.append(sa_e8m0)
+
+                        # Load uniform scaleB E8M0 (one per ni, same for all lanes)
+                        sb_e8m0_list = []
+                        for ni in range_constexpr(num_acc_n):
+                            sb_f32 = s_b_vals[ni]
+                            sb_i32 = arith.bitcast(T.i32, sb_f32)
+                            sb_e8m0 = arith.andi(arith.shrui(sb_i32, fx.Int32(23)), fx.Int32(0xFF))
+                            sb_e8m0_list.append(sb_e8m0)
+
                         for mi in range_constexpr(m_repeat):
                             curr_row_a_lds = lane_mod_16 + arith.index(mi * 16)
                             if a0_prefetch is not None and sb == 0 and mi == 0:
@@ -459,17 +477,12 @@ def compute_tile(accs_in, k_tile_idx_py, lds_base, b_tile_in, *, a0_prefetch=Non
                                     b1_packs0[ni], b1_packs1[ni],
                                 )
                                 acc_idx = mi * num_acc_n + ni
-                                mfma_result = rocdl.mfma_scale_f32_16x16x128_f8f6f4(
+                                # Hardware scaling + direct accumulation
+                                current_accs[acc_idx] = rocdl.mfma_scale_f32_16x16x128_f8f6f4(
                                     mfma_res_ty,
-                                    [a128, b128, acc_init,
-                                     0, 0, 0, 0x7F7F7F7F, 0, 0x7F7F7F7F],
+                                    [a128, b128, current_accs[acc_idx],
+                                     0, 0, 0, sa_e8m0_list[mi], 0, sb_e8m0_list[ni]],
                                 )
-
-                                # Apply scales: accum += mfma_result * scale_a * scale_b
-                                s_a_v4 = s_a_vecs[mi]
-                                s_b_bc = vector.broadcast(T.f32x4, s_b_vals[ni])
-                                scaled = ArithValue(mfma_result) * ArithValue(s_a_v4)
-                                current_accs[acc_idx] = math_dialect.fma(scaled, s_b_bc, current_accs[acc_idx])
                     else:
                         # gfx942: two K=32 MFMAs per K64 micro-step
                         for ku_local in range_constexpr(ku_per_sb):
diff --git a/kernels/grouped_gemm_blockscale_masked.py b/kernels/grouped_gemm_blockscale_masked.py
index 3bd184e06..abf214545 100644
--- a/kernels/grouped_gemm_blockscale_masked.py
+++ b/kernels/grouped_gemm_blockscale_masked.py
@@ -444,7 +444,7 @@ def compute_tile(accs_in, k_tile_idx_py, lds_base, b_tile_in, *, a0_prefetch=Non
 
                     # MFMA computation for this scale block
                     if _is_gfx950:
-                        # gfx950: single K=128 MFMA per (sb, mi, ni)
+                        # gfx950: single K=128 MFMA with hardware E8M0 block scaling
                         ku0 = sb * ku_per_sb
                         ku1 = ku0 + 1
                         b0_packs0, b0_packs1 = b_tile_in[ku0]
@@ -452,6 +452,24 @@ def compute_tile(accs_in, k_tile_idx_py, lds_base, b_tile_in, *, a0_prefetch=Non
                         col_base0 = col_offset_base_bytes + fx.Index(ku0 * 64)
                         col_base1 = col_offset_base_bytes + fx.Index(ku1 * 64)
 
+                        # Load per-lane scaleA E8M0 (one per mi, varies by lane_mod_16)
+                        sa_e8m0_list = []
+                        for mi in range_constexpr(m_repeat):
+                            sa_row = bx_m + arith.index(mi * 16) + lane_mod_16
+                            sa_idx = sa_base + sa_row
+                            sa_f32 = buffer_ops.buffer_load(sa_rsrc, sa_idx, vec_width=1, dtype=T.f32)
+                            sa_i32 = arith.bitcast(T.i32, sa_f32)
+                            sa_e8m0 = arith.andi(arith.shrui(sa_i32, fx.Int32(23)), fx.Int32(0xFF))
+                            sa_e8m0_list.append(sa_e8m0)
+
+                        # Load uniform scaleB E8M0 (one per ni, same for all lanes)
+                        sb_e8m0_list = []
+                        for ni in range_constexpr(num_acc_n):
+                            sb_f32 = s_b_vals[ni]
+                            sb_i32 = arith.bitcast(T.i32, sb_f32)
+                            sb_e8m0 = arith.andi(arith.shrui(sb_i32, fx.Int32(23)), fx.Int32(0xFF))
+                            sb_e8m0_list.append(sb_e8m0)
+
                         for mi in range_constexpr(m_repeat):
                             curr_row_a_lds = lane_mod_16 + arith.index(mi * 16)
                             if a0_prefetch is not None and sb == 0 and mi == 0:
@@ -467,17 +485,12 @@ def compute_tile(accs_in, k_tile_idx_py, lds_base, b_tile_in, *, a0_prefetch=Non
                                     b1_packs0[ni], b1_packs1[ni],
                                 )
                                 acc_idx = mi * num_acc_n + ni
-                                mfma_result = rocdl.mfma_scale_f32_16x16x128_f8f6f4(
+                                # Hardware scaling + direct accumulation
+                                current_accs[acc_idx] = rocdl.mfma_scale_f32_16x16x128_f8f6f4(
                                     mfma_res_ty,
-                                    [a128, b128, acc_init,
-                                     0, 0, 0, 0x7F7F7F7F, 0, 0x7F7F7F7F],
+                                    [a128, b128, current_accs[acc_idx],
+                                     0, 0, 0, sa_e8m0_list[mi], 0, sb_e8m0_list[ni]],
                                 )
-
-                                # Apply scales: accum += mfma_result * scale_a * scale_b
-                                s_a_v4 = s_a_vecs[mi]
-                                s_b_bc = vector.broadcast(T.f32x4, s_b_vals[ni])
-                                scaled = ArithValue(mfma_result) * ArithValue(s_a_v4)
-                                current_accs[acc_idx] = math_dialect.fma(scaled, s_b_bc, current_accs[acc_idx])
                     else:
                         # gfx942: two K=32 MFMAs per K64 micro-step
                         for ku_local in range_constexpr(ku_per_sb):

From 3b3cb0827c553ed2f749d6078884319474268624 Mon Sep 17 00:00:00 2001
From: Aryaman Gupta <aryaman.gupta@amd.com>
Date: Thu, 23 Apr 2026 05:45:27 -0500
Subject: [PATCH 30/39] group gemm kernels: fix E8M0 conversion to use
 ArithValue operators

Replace raw arith.shrui/arith.andi calls with ArithValue operator
overloading (>> and &) for the FP32-to-E8M0 conversion. The raw
dialect ops require ir.Value operands, but fx.Int32() creates DSL
wrappers. ArithValue operators handle the unwrapping automatically.

Co-Authored-By: Claude Opus 4.6 <noreply@anthropic.com>
---
 kernels/grouped_gemm_blockscale_contiguous.py | 4 ++--
 kernels/grouped_gemm_blockscale_masked.py     | 4 ++--
 2 files changed, 4 insertions(+), 4 deletions(-)

diff --git a/kernels/grouped_gemm_blockscale_contiguous.py b/kernels/grouped_gemm_blockscale_contiguous.py
index e49d80b29..f79a2c0f8 100644
--- a/kernels/grouped_gemm_blockscale_contiguous.py
+++ b/kernels/grouped_gemm_blockscale_contiguous.py
@@ -451,7 +451,7 @@ def compute_tile(accs_in, k_tile_idx_py, lds_base, b_tile_in, *, a0_prefetch=Non
                             sa_idx = sa_base + sa_row
                             sa_f32 = buffer_ops.buffer_load(sa_rsrc, sa_idx, vec_width=1, dtype=T.f32)
                             sa_i32 = arith.bitcast(T.i32, sa_f32)
-                            sa_e8m0 = arith.andi(arith.shrui(sa_i32, fx.Int32(23)), fx.Int32(0xFF))
+                            sa_e8m0 = (ArithValue(sa_i32) >> fx.Int32(23)) & fx.Int32(0xFF)
                             sa_e8m0_list.append(sa_e8m0)
 
                         # Load uniform scaleB E8M0 (one per ni, same for all lanes)
@@ -459,7 +459,7 @@ def compute_tile(accs_in, k_tile_idx_py, lds_base, b_tile_in, *, a0_prefetch=Non
                         for ni in range_constexpr(num_acc_n):
                             sb_f32 = s_b_vals[ni]
                             sb_i32 = arith.bitcast(T.i32, sb_f32)
-                            sb_e8m0 = arith.andi(arith.shrui(sb_i32, fx.Int32(23)), fx.Int32(0xFF))
+                            sb_e8m0 = (ArithValue(sb_i32) >> fx.Int32(23)) & fx.Int32(0xFF)
                             sb_e8m0_list.append(sb_e8m0)
 
                         for mi in range_constexpr(m_repeat):
diff --git a/kernels/grouped_gemm_blockscale_masked.py b/kernels/grouped_gemm_blockscale_masked.py
index abf214545..b397a62ce 100644
--- a/kernels/grouped_gemm_blockscale_masked.py
+++ b/kernels/grouped_gemm_blockscale_masked.py
@@ -459,7 +459,7 @@ def compute_tile(accs_in, k_tile_idx_py, lds_base, b_tile_in, *, a0_prefetch=Non
                             sa_idx = sa_base + sa_row
                             sa_f32 = buffer_ops.buffer_load(sa_rsrc, sa_idx, vec_width=1, dtype=T.f32)
                             sa_i32 = arith.bitcast(T.i32, sa_f32)
-                            sa_e8m0 = arith.andi(arith.shrui(sa_i32, fx.Int32(23)), fx.Int32(0xFF))
+                            sa_e8m0 = (ArithValue(sa_i32) >> fx.Int32(23)) & fx.Int32(0xFF)
                             sa_e8m0_list.append(sa_e8m0)
 
                         # Load uniform scaleB E8M0 (one per ni, same for all lanes)
@@ -467,7 +467,7 @@ def compute_tile(accs_in, k_tile_idx_py, lds_base, b_tile_in, *, a0_prefetch=Non
                         for ni in range_constexpr(num_acc_n):
                             sb_f32 = s_b_vals[ni]
                             sb_i32 = arith.bitcast(T.i32, sb_f32)
-                            sb_e8m0 = arith.andi(arith.shrui(sb_i32, fx.Int32(23)), fx.Int32(0xFF))
+                            sb_e8m0 = (ArithValue(sb_i32) >> fx.Int32(23)) & fx.Int32(0xFF)
                             sb_e8m0_list.append(sb_e8m0)
 
                         for mi in range_constexpr(m_repeat):

From 68bfd1c17fbec89acac07f5db4af139522acdfa5 Mon Sep 17 00:00:00 2001
From: Aryaman Gupta <aryaman.gupta@amd.com>
Date: Thu, 23 Apr 2026 13:05:51 +0000
Subject: [PATCH 31/39] group gemm tests: align quantization with hardware E8M0
 block scaling
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

Use DeepGEMM's ceil_to_ue8m0 (round scale UP, not truncate) so that
x / scale_e8m0 ≤ fp8_max — truncation caused FP8 saturation and a
systematic per-element bias on every block, failing every config.

Switch reference to FP32-input GEMM (DeepGEMM convention) so the test
measures total kernel + quantization error against ground truth, and
tighten logits_diff threshold to 1e-3 to match DeepGEMM.

Co-Authored-By: Claude Opus 4 (1M context) <noreply@anthropic.com>
---
 ...test_grouped_gemm_blockscale_contiguous.py |  99 +++++++----------
 .../test_grouped_gemm_blockscale_masked.py    | 101 +++++++-----------
 2 files changed, 76 insertions(+), 124 deletions(-)

diff --git a/tests/kernels/test_grouped_gemm_blockscale_contiguous.py b/tests/kernels/test_grouped_gemm_blockscale_contiguous.py
index 703e0bc7a..03234ea92 100644
--- a/tests/kernels/test_grouped_gemm_blockscale_contiguous.py
+++ b/tests/kernels/test_grouped_gemm_blockscale_contiguous.py
@@ -35,6 +35,8 @@
 ARCH = get_rocm_arch()
 # Use appropriate FP8 dtype for the architecture
 DTYPE_FP8 = torch.float8_e4m3fn if "gfx95" in ARCH else torch.float8_e4m3fnuz
+# gfx950 uses hardware E8M0 block scaling — quantization must use E8M0-truncated scales
+USE_UE8M0 = "gfx95" in ARCH
 
 
 def ceil_div(x: int, y: int) -> int:
@@ -45,6 +47,18 @@ def align(x: int, y: int) -> int:
     return ceil_div(x, y) * y
 
 
+def fp32_to_e8m0(scale: torch.Tensor) -> torch.Tensor:
+    """Round FP32 scale UP to E8M0 precision (ceiling on exponent).
+
+    Matches DeepGEMM's ceil_to_ue8m0 (deep_gemm/utils/math.py). Rounding up is
+    required so that x / scale_e8m0 <= fp8_max — truncation would shrink the
+    scale, causing FP8 saturation and a systematic bias on every block.
+    """
+    bits = scale.abs().float().view(torch.int32)
+    exp = ((bits >> 23) & 0xFF) + (bits & 0x7FFFFF).bool().int()
+    return (exp.clamp(1, 254) << 23).view(torch.float32)
+
+
 def quantize_to_fp8(x: torch.Tensor, scale_block_k: int = 128) -> tuple[torch.Tensor, torch.Tensor]:
     """Quantize tensor to FP8 with per-row, per-block scaling.
 
@@ -67,6 +81,10 @@ def quantize_to_fp8(x: torch.Tensor, scale_block_k: int = 128) -> tuple[torch.Te
     fp8_max = torch.finfo(DTYPE_FP8).max
     scale = x_amax / fp8_max
 
+    # Truncate to E8M0 precision when hardware scaling is used (gfx950)
+    if USE_UE8M0:
+        scale = fp32_to_e8m0(scale)
+
     # Quantize
     x_scaled = x_blocks / scale.unsqueeze(2)
     x_fp8 = x_scaled.to(DTYPE_FP8).view(M, K)
@@ -103,6 +121,10 @@ def quantize_b_to_fp8(
     fp8_max = torch.finfo(DTYPE_FP8).max
     scale = b_amax / fp8_max
 
+    # Truncate to E8M0 precision when hardware scaling is used (gfx950)
+    if USE_UE8M0:
+        scale = fp32_to_e8m0(scale)
+
     # Quantize
     b_scaled = b_blocks / scale.view(num_groups, nblk_n, 1, nblk_k, 1)
     b_fp8 = b_scaled.to(DTYPE_FP8).view(num_groups, N, K)
@@ -110,63 +132,6 @@ def quantize_b_to_fp8(
     return b_fp8, scale
 
 
-def torch_grouped_gemm_ref(
-    a: torch.Tensor,
-    scale_a: torch.Tensor,
-    b: torch.Tensor,
-    scale_b: torch.Tensor,
-    grouped_layout: torch.Tensor,
-    scale_block_k: int = 128,
-    scale_block_n: int = 128,
-) -> torch.Tensor:
-    """PyTorch reference implementation for grouped FP8 GEMM with block scaling.
-
-    Args:
-        a: [M, K] FP8 tensor
-        scale_a: [scale_k, M] FP32 scale factors (transposed layout)
-        b: [num_groups, N, K] FP8 tensor
-        scale_b: [num_groups, scale_n, scale_k] FP32 scale factors
-        grouped_layout: [M] INT32 mapping rows to groups (-1 for padding)
-        scale_block_k: K-dimension scale block size
-        scale_block_n: N-dimension scale block size
-
-    Returns:
-        d: [M, N] BF16 output tensor
-    """
-    M, K = a.shape
-    num_groups, N, _ = b.shape
-    nblk_k = K // scale_block_k
-    nblk_n = N // scale_block_n
-
-    # Dequantize A
-    a_f32 = a.to(torch.float32)
-    # scale_a is [scale_k, M], transpose to [M, scale_k]
-    scale_a_t = scale_a.T  # [M, scale_k]
-    # Expand to element-wise: [M, nblk_k, scale_block_k]
-    a_scaled = a_f32.view(M, nblk_k, scale_block_k) * scale_a_t.view(M, nblk_k, 1)
-    a_scaled = a_scaled.view(M, K)
-
-    # Dequantize B per group
-    # scale_b: [num_groups, scale_n, scale_k]
-    # Expand to [num_groups, N, K]
-    b_f32 = b.to(torch.float32)
-    b_scaled = b_f32.view(num_groups, nblk_n, scale_block_n, nblk_k, scale_block_k)
-    b_scaled = b_scaled * scale_b.view(num_groups, nblk_n, 1, nblk_k, 1)
-    b_scaled = b_scaled.view(num_groups, N, K)
-
-    # Compute grouped GEMM on CPU (hipBLAS on this ROCm version can't handle these shapes)
-    a_scaled_cpu = a_scaled.cpu()
-    b_scaled_cpu = b_scaled.cpu()
-    grouped_layout_cpu = grouped_layout.cpu()
-    d = torch.zeros(M, N, dtype=torch.float32, device="cpu")
-    for g in range(num_groups):
-        mask = grouped_layout_cpu == g
-        if mask.any():
-            d[mask] = a_scaled_cpu[mask] @ b_scaled_cpu[g].T
-
-    return d.to(torch.bfloat16).to(a.device)
-
-
 def generate_grouped_gemm_inputs(
     num_groups: int,
     m_per_group: int,
@@ -228,6 +193,18 @@ def generate_grouped_gemm_inputs(
         a_f32[start + m_actual : start + m_aligned] = 0
         start += m_aligned
 
+    # Reference output from original FP32 data BEFORE quantization
+    # (matching DeepGEMM test convention: ref absorbs all quantization + scale errors)
+    a_cpu = a_f32.cpu()
+    b_cpu = b_f32.cpu()
+    gl_cpu = grouped_layout.cpu()
+    ref_d = torch.zeros(M, n, dtype=torch.float32, device="cpu")
+    for g in range(num_groups):
+        mask = gl_cpu == g
+        if mask.any():
+            ref_d[mask] = a_cpu[mask] @ b_cpu[g].T
+    ref_d = ref_d.to(torch_out_dtype).to(device)
+
     # Quantize to FP8
     a_fp8, scale_a = quantize_to_fp8(a_f32, scale_block_k)
     b_fp8, scale_b = quantize_b_to_fp8(b_f32, scale_block_n, scale_block_k)
@@ -235,11 +212,6 @@ def generate_grouped_gemm_inputs(
     # Output buffer
     d = torch.zeros(M, n, dtype=torch_out_dtype, device=device)
 
-    # Reference output (uses unshuffled B)
-    ref_d = torch_grouped_gemm_ref(
-        a_fp8, scale_a, b_fp8, scale_b, grouped_layout, scale_block_k, scale_block_n
-    )
-
     # Preshuffle B for kernel (applied per-group, batch dim folded automatically)
     b_shuffled = shuffle_weight(b_fp8, layout=(16, 16))
 
@@ -320,7 +292,8 @@ def launch_kernel(d, a, b, sa, sb, gl):
     c_ref[padding_mask] = 0.0
 
     msg = f"num_groups={num_groups}, M={M}, N={n}, K={k}, out={out_dtype}"
-    passed = verify_output(c_out_f32, c_ref, rtol=1e-2, atol=1e-2, msg=msg)
+    passed = verify_output(c_out_f32, c_ref, rtol=1e-2, atol=1e-2, msg=msg,
+                           logits_diff_threshold=1e-3)
     assert passed, f"Correctness check failed for {msg}"
 
 
diff --git a/tests/kernels/test_grouped_gemm_blockscale_masked.py b/tests/kernels/test_grouped_gemm_blockscale_masked.py
index 53065673c..b818eee2d 100644
--- a/tests/kernels/test_grouped_gemm_blockscale_masked.py
+++ b/tests/kernels/test_grouped_gemm_blockscale_masked.py
@@ -36,12 +36,30 @@
 ARCH = get_rocm_arch()
 # Use appropriate FP8 dtype for the architecture
 DTYPE_FP8 = torch.float8_e4m3fn if "gfx95" in ARCH else torch.float8_e4m3fnuz
+# gfx950 uses hardware E8M0 block scaling — quantization must use E8M0-rounded scales
+USE_UE8M0 = "gfx95" in ARCH
 
 
 def ceil_div(x: int, y: int) -> int:
     return (x + y - 1) // y
 
 
+def align(x: int, y: int) -> int:
+    return ceil_div(x, y) * y
+
+
+def fp32_to_e8m0(scale: torch.Tensor) -> torch.Tensor:
+    """Round FP32 scale UP to E8M0 precision (ceiling on exponent).
+
+    Matches DeepGEMM's ceil_to_ue8m0 (deep_gemm/utils/math.py). Rounding up is
+    required so that x / scale_e8m0 <= fp8_max — truncation would shrink the
+    scale, causing FP8 saturation and a systematic bias on every block.
+    """
+    bits = scale.abs().float().view(torch.int32)
+    exp = ((bits >> 23) & 0xFF) + (bits & 0x7FFFFF).bool().int()
+    return (exp.clamp(1, 254) << 23).view(torch.float32)
+
+
 def quantize_a_masked_to_fp8(x: torch.Tensor, scale_block_k: int = 128) -> tuple[torch.Tensor, torch.Tensor]:
     """Quantize padded 3D A tensor to FP8 with per-row, per-block scaling.
 
@@ -64,6 +82,10 @@ def quantize_a_masked_to_fp8(x: torch.Tensor, scale_block_k: int = 128) -> tuple
     fp8_max = torch.finfo(DTYPE_FP8).max
     scale = x_amax / fp8_max
 
+    # Round to E8M0 precision when hardware scaling is used (gfx950)
+    if USE_UE8M0:
+        scale = fp32_to_e8m0(scale)
+
     # Quantize
     x_scaled = x_blocks / scale.unsqueeze(-1)
     x_fp8 = x_scaled.to(DTYPE_FP8).view(G, max_m, K)
@@ -100,6 +122,10 @@ def quantize_b_to_fp8(
     fp8_max = torch.finfo(DTYPE_FP8).max
     scale = b_amax / fp8_max
 
+    # Round to E8M0 precision when hardware scaling is used (gfx950)
+    if USE_UE8M0:
+        scale = fp32_to_e8m0(scale)
+
     # Quantize
     b_scaled = b_blocks / scale.view(num_groups, nblk_n, 1, nblk_k, 1)
     b_fp8 = b_scaled.to(DTYPE_FP8).view(num_groups, N, K)
@@ -107,61 +133,6 @@ def quantize_b_to_fp8(
     return b_fp8, scale
 
 
-def torch_masked_grouped_gemm_ref(
-    a: torch.Tensor,
-    scale_a: torch.Tensor,
-    b: torch.Tensor,
-    scale_b: torch.Tensor,
-    masked_m: torch.Tensor,
-    scale_block_k: int = 128,
-    scale_block_n: int = 128,
-) -> torch.Tensor:
-    """PyTorch reference implementation for masked grouped FP8 GEMM.
-
-    Args:
-        a: [G, max_m, K] FP8 tensor
-        scale_a: [G, scale_k, max_m] FP32 scale factors (transposed layout)
-        b: [G, N, K] FP8 tensor
-        scale_b: [G, scale_n, scale_k] FP32 scale factors
-        masked_m: [G] INT32 true sequence length per group
-        scale_block_k: K-dimension scale block size
-        scale_block_n: N-dimension scale block size
-
-    Returns:
-        d: [G, max_m, N] BF16 output tensor
-    """
-    G, max_m, K = a.shape
-    _, N, _ = b.shape
-    nblk_k = K // scale_block_k
-    nblk_n = N // scale_block_n
-
-    # Dequantize A
-    a_f32 = a.to(torch.float32)
-    # scale_a is [G, scale_k, max_m], transpose to [G, max_m, scale_k]
-    scale_a_t = scale_a.transpose(1, 2)  
-    a_scaled = a_f32.view(G, max_m, nblk_k, scale_block_k) * scale_a_t.unsqueeze(-1)
-    a_scaled = a_scaled.view(G, max_m, K)
-
-    # Dequantize B
-    b_f32 = b.to(torch.float32)
-    b_scaled = b_f32.view(G, nblk_n, scale_block_n, nblk_k, scale_block_k)
-    b_scaled = b_scaled * scale_b.view(G, nblk_n, 1, nblk_k, 1)
-    b_scaled = b_scaled.view(G, N, K)
-
-    # Compute masked grouped GEMM on CPU
-    a_scaled_cpu = a_scaled.cpu()
-    b_scaled_cpu = b_scaled.cpu()
-    m_cpu = masked_m.cpu()
-    
-    d = torch.zeros(G, max_m, N, dtype=torch.float32, device="cpu")
-    for g in range(G):
-        m_actual = m_cpu[g].item()
-        if m_actual > 0:
-            d[g, :m_actual, :] = a_scaled_cpu[g, :m_actual, :] @ b_scaled_cpu[g].T
-
-    return d.to(torch.bfloat16).to(a.device)
-
-
 def generate_masked_grouped_gemm_inputs(
     num_groups: int,
     max_m: int,
@@ -199,6 +170,18 @@ def generate_masked_grouped_gemm_inputs(
     a_f32 = torch.randn(num_groups, max_m, k, device=device, dtype=torch.float32)
     b_f32 = torch.randn(num_groups, n, k, device=device, dtype=torch.float32)
 
+    # Reference output from original FP32 data BEFORE quantization
+    # (matching DeepGEMM test convention: ref absorbs all quantization + scale errors)
+    a_cpu = a_f32.cpu()
+    b_cpu = b_f32.cpu()
+    m_cpu = masked_m.cpu()
+    ref_d = torch.zeros(num_groups, max_m, n, dtype=torch.float32, device="cpu")
+    for g in range(num_groups):
+        m_actual = m_cpu[g].item()
+        if m_actual > 0:
+            ref_d[g, :m_actual, :] = a_cpu[g, :m_actual, :] @ b_cpu[g].T
+    ref_d = ref_d.to(torch_out_dtype).to(device)
+
     # Quantize to FP8
     a_fp8, scale_a = quantize_a_masked_to_fp8(a_f32, scale_block_k)
     b_fp8, scale_b = quantize_b_to_fp8(b_f32, scale_block_n, scale_block_k)
@@ -206,11 +189,6 @@ def generate_masked_grouped_gemm_inputs(
     # Output buffer
     d = torch.zeros(num_groups, max_m, n, dtype=torch_out_dtype, device=device)
 
-    # Reference output
-    ref_d = torch_masked_grouped_gemm_ref(
-        a_fp8, scale_a, b_fp8, scale_b, masked_m, scale_block_k, scale_block_n
-    )
-
     # Preshuffle B for kernel (applied per-group, batch dim folded automatically)
     b_shuffled = shuffle_weight(b_fp8, layout=(16, 16))
 
@@ -292,7 +270,8 @@ def launch_kernel(d, a, b, sa, sb, mask):
         c_ref[g, m_val:, :] = 0.0
 
     msg = f"num_groups={num_groups}, max_m={max_m}, N={n}, K={k}, out={out_dtype}"
-    passed = verify_output(c_out_f32, c_ref, rtol=1e-2, atol=1e-2, msg=msg)
+    passed = verify_output(c_out_f32, c_ref, rtol=1e-2, atol=1e-2, msg=msg,
+                           logits_diff_threshold=1e-3)
     assert passed, f"Correctness check failed for {msg}"
 
 

From 1ce790b8ca06bef915519fae0af0a009f6887784 Mon Sep 17 00:00:00 2001
From: Aryaman Gupta <aryaman.gupta@amd.com>
Date: Thu, 23 Apr 2026 15:09:30 +0000
Subject: [PATCH 32/39] group gemm kernels: broadcast wave-uniform scale_b via
 readfirstlane

The scale_b address is wave-uniform (no lane dependence), but every lane
was issuing the same buffer_load. Promote the value via rocdl.readfirstlane
so downstream consumers can use it from an SGPR-style broadcast instead of
a per-lane VGPR.

Modest but consistent gain on memory-leaning DS-V3 shapes (N=2048 K=7168
m=256: +15% TFLOPS); ~neutral elsewhere within run-to-run noise. Verified
via ISA: +56 v_readfirstlane instructions, no VGPR change, no occupancy
hit. Correctness 30/30 at 1e-3 logits_diff.

Co-Authored-By: Claude Opus 4 (1M context) <noreply@anthropic.com>
---
 kernels/grouped_gemm_blockscale_contiguous.py | 3 +++
 kernels/grouped_gemm_blockscale_masked.py     | 3 +++
 2 files changed, 6 insertions(+)

diff --git a/kernels/grouped_gemm_blockscale_contiguous.py b/kernels/grouped_gemm_blockscale_contiguous.py
index f79a2c0f8..af69b58be 100644
--- a/kernels/grouped_gemm_blockscale_contiguous.py
+++ b/kernels/grouped_gemm_blockscale_contiguous.py
@@ -427,11 +427,14 @@ def compute_tile(accs_in, k_tile_idx_py, lds_base, b_tile_in, *, a0_prefetch=Non
 
                     # Load scale_b for this K-block
                     # scale_b layout: [num_groups, scale_n, scale_k]
+                    # The address is wave-uniform (no lane dependence) — promote the
+                    # load to a single broadcast via readfirstlane to free VMEM slots.
                     sb_group_offset = group_idx * fx.Index(scale_n * scale_k)
                     s_b_vals = []
                     for ni in range_constexpr(num_acc_n):
                         sb_idx = sb_group_offset + n_block_for_scale[ni] * c_scale_k + kb
                         s_b_val = buffer_ops.buffer_load(sb_rsrc, sb_idx, vec_width=1, dtype=T.f32)
+                        s_b_val = rocdl.readfirstlane(T.f32, s_b_val)
                         s_b_vals.append(s_b_val)
 
                     # MFMA computation for this scale block
diff --git a/kernels/grouped_gemm_blockscale_masked.py b/kernels/grouped_gemm_blockscale_masked.py
index b397a62ce..a45da39f8 100644
--- a/kernels/grouped_gemm_blockscale_masked.py
+++ b/kernels/grouped_gemm_blockscale_masked.py
@@ -435,11 +435,14 @@ def compute_tile(accs_in, k_tile_idx_py, lds_base, b_tile_in, *, a0_prefetch=Non
 
                     # Load scale_b for this K-block
                     # scale_b layout: [G, scale_n, scale_k]
+                    # The address is wave-uniform (no lane dependence) — promote the
+                    # load to a single broadcast via readfirstlane to free VMEM slots.
                     sb_group_offset = group_idx * fx.Index(scale_n * scale_k)
                     s_b_vals = []
                     for ni in range_constexpr(num_acc_n):
                         sb_idx = sb_group_offset + n_block_for_scale[ni] * c_scale_k + kb
                         s_b_val = buffer_ops.buffer_load(sb_rsrc, sb_idx, vec_width=1, dtype=T.f32)
+                        s_b_val = rocdl.readfirstlane(T.f32, s_b_val)
                         s_b_vals.append(s_b_val)
 
                     # MFMA computation for this scale block

From 78fe2000ab6c50bdca787122f8f03c4e74871cc5 Mon Sep 17 00:00:00 2001
From: Aryaman Gupta <aryaman.gupta@amd.com>
Date: Thu, 23 Apr 2026 15:33:10 +0000
Subject: [PATCH 33/39] group gemm: pre-pack E8M0 scales as uint8 on host

Tests extract the E8M0 byte after fp32_to_e8m0 and return uint8 scale
tensors. Kernel buffer resources sized at 1 byte/scale on gfx950; HW
path does buffer_load(T.i8) + extui-to-i32, dropping the in-kernel
bitcast/shrui/andi extraction.

Co-Authored-By: Claude Opus 4 (1M context) <noreply@anthropic.com>
---
 kernels/grouped_gemm_blockscale_contiguous.py | 49 ++++++++++--------
 kernels/grouped_gemm_blockscale_masked.py     | 51 ++++++++++---------
 ...test_grouped_gemm_blockscale_contiguous.py | 23 ++++++++-
 .../test_grouped_gemm_blockscale_masked.py    | 23 ++++++++-
 4 files changed, 97 insertions(+), 49 deletions(-)

diff --git a/kernels/grouped_gemm_blockscale_contiguous.py b/kernels/grouped_gemm_blockscale_contiguous.py
index af69b58be..06639def7 100644
--- a/kernels/grouped_gemm_blockscale_contiguous.py
+++ b/kernels/grouped_gemm_blockscale_contiguous.py
@@ -204,15 +204,18 @@ def grouped_fp8_gemm_kernel(
             arg_d, max_size=False, num_records_bytes=arith.index_cast(T.i64, d_nbytes)
         )
 
-        # Scale buffers
+        # Scale buffers — gfx950 HW E8M0 path consumes int8 (one byte/scale,
+        # pre-packed on host); gfx942 SW path consumes f32.
+        scale_byte_size = 1 if _is_gfx950 else 4
+
         # scale_a: [scale_k, M] - transposed layout
-        sa_nbytes = fx.Index(scale_k) * m_in * fx.Index(4)
+        sa_nbytes = fx.Index(scale_k) * m_in * fx.Index(scale_byte_size)
         sa_rsrc = buffer_ops.create_buffer_resource(
             arg_scale_a, max_size=False, num_records_bytes=arith.index_cast(T.i64, sa_nbytes)
         )
 
         # scale_b: [num_groups, scale_n, scale_k]
-        sb_nbytes = num_groups_in * fx.Index(scale_n * scale_k * 4)
+        sb_nbytes = num_groups_in * fx.Index(scale_n * scale_k * scale_byte_size)
         sb_rsrc = buffer_ops.create_buffer_resource(
             arg_scale_b, max_size=False, num_records_bytes=arith.index_cast(T.i64, sb_nbytes)
         )
@@ -425,21 +428,22 @@ def compute_tile(accs_in, k_tile_idx_py, lds_base, b_tile_in, *, a0_prefetch=Non
                         s_a_vec4 = vector.from_elements(T.f32x4, s_a_row)
                         s_a_vecs.append(s_a_vec4)
 
-                    # Load scale_b for this K-block
-                    # scale_b layout: [num_groups, scale_n, scale_k]
-                    # The address is wave-uniform (no lane dependence) — promote the
-                    # load to a single broadcast via readfirstlane to free VMEM slots.
-                    sb_group_offset = group_idx * fx.Index(scale_n * scale_k)
+                    # Load scale_b for this K-block (only the SW gfx942 path needs
+                    # the f32 list; gfx950 path loads int8 bytes directly below).
                     s_b_vals = []
-                    for ni in range_constexpr(num_acc_n):
-                        sb_idx = sb_group_offset + n_block_for_scale[ni] * c_scale_k + kb
-                        s_b_val = buffer_ops.buffer_load(sb_rsrc, sb_idx, vec_width=1, dtype=T.f32)
-                        s_b_val = rocdl.readfirstlane(T.f32, s_b_val)
-                        s_b_vals.append(s_b_val)
+                    if not _is_gfx950:
+                        sb_group_offset = group_idx * fx.Index(scale_n * scale_k)
+                        for ni in range_constexpr(num_acc_n):
+                            sb_idx = sb_group_offset + n_block_for_scale[ni] * c_scale_k + kb
+                            s_b_val = buffer_ops.buffer_load(sb_rsrc, sb_idx, vec_width=1, dtype=T.f32)
+                            s_b_val = rocdl.readfirstlane(T.f32, s_b_val)
+                            s_b_vals.append(s_b_val)
 
                     # MFMA computation for this scale block
                     if _is_gfx950:
-                        # gfx950: single K=128 MFMA with hardware E8M0 block scaling
+                        # gfx950: single K=128 MFMA with hardware E8M0 block scaling.
+                        # Scales are pre-packed as uint8 on host (1 byte each); load
+                        # and zero-extend to i32 for the MFMA scale operand.
                         ku0 = sb * ku_per_sb
                         ku1 = ku0 + 1
                         b0_packs0, b0_packs1 = b_tile_in[ku0]
@@ -447,22 +451,23 @@ def compute_tile(accs_in, k_tile_idx_py, lds_base, b_tile_in, *, a0_prefetch=Non
                         col_base0 = col_offset_base_bytes + fx.Index(ku0 * 64)
                         col_base1 = col_offset_base_bytes + fx.Index(ku1 * 64)
 
-                        # Load per-lane scaleA E8M0 (one per mi, varies by lane_mod_16)
+                        # Per-lane scaleA E8M0 byte (one per mi, varies by lane_mod_16)
                         sa_e8m0_list = []
                         for mi in range_constexpr(m_repeat):
                             sa_row = bx_m + arith.index(mi * 16) + lane_mod_16
                             sa_idx = sa_base + sa_row
-                            sa_f32 = buffer_ops.buffer_load(sa_rsrc, sa_idx, vec_width=1, dtype=T.f32)
-                            sa_i32 = arith.bitcast(T.i32, sa_f32)
-                            sa_e8m0 = (ArithValue(sa_i32) >> fx.Int32(23)) & fx.Int32(0xFF)
+                            sa_i8 = buffer_ops.buffer_load(sa_rsrc, sa_idx, vec_width=1, dtype=T.i8)
+                            sa_e8m0 = ArithValue(sa_i8).extui(T.i32)
                             sa_e8m0_list.append(sa_e8m0)
 
-                        # Load uniform scaleB E8M0 (one per ni, same for all lanes)
+                        # Wave-uniform scaleB E8M0 byte (one per ni)
+                        sb_group_offset = group_idx * fx.Index(scale_n * scale_k)
                         sb_e8m0_list = []
                         for ni in range_constexpr(num_acc_n):
-                            sb_f32 = s_b_vals[ni]
-                            sb_i32 = arith.bitcast(T.i32, sb_f32)
-                            sb_e8m0 = (ArithValue(sb_i32) >> fx.Int32(23)) & fx.Int32(0xFF)
+                            sb_idx = sb_group_offset + n_block_for_scale[ni] * c_scale_k + kb
+                            sb_i8 = buffer_ops.buffer_load(sb_rsrc, sb_idx, vec_width=1, dtype=T.i8)
+                            sb_i32 = ArithValue(sb_i8).extui(T.i32)
+                            sb_e8m0 = rocdl.readfirstlane(T.i32, sb_i32)
                             sb_e8m0_list.append(sb_e8m0)
 
                         for mi in range_constexpr(m_repeat):
diff --git a/kernels/grouped_gemm_blockscale_masked.py b/kernels/grouped_gemm_blockscale_masked.py
index a45da39f8..7db35b2c9 100644
--- a/kernels/grouped_gemm_blockscale_masked.py
+++ b/kernels/grouped_gemm_blockscale_masked.py
@@ -209,15 +209,18 @@ def masked_grouped_fp8_gemm_kernel(
             arg_d, max_size=False, num_records_bytes=arith.index_cast(T.i64, d_nbytes)
         )
 
-        # Scale buffers
-        # scale_a: [G, scale_k, max_m] 
-        sa_nbytes = num_groups_in * fx.Index(scale_k) * m_in * fx.Index(4)
+        # Scale buffers — gfx950 HW E8M0 path consumes int8 (one byte/scale,
+        # pre-packed on host); gfx942 SW path consumes f32.
+        scale_byte_size = 1 if _is_gfx950 else 4
+
+        # scale_a: [G, scale_k, max_m]
+        sa_nbytes = num_groups_in * fx.Index(scale_k) * m_in * fx.Index(scale_byte_size)
         sa_rsrc = buffer_ops.create_buffer_resource(
             arg_scale_a, max_size=False, num_records_bytes=arith.index_cast(T.i64, sa_nbytes)
         )
 
         # scale_b: [G, scale_n, scale_k]
-        sb_nbytes = num_groups_in * fx.Index(scale_n * scale_k * 4)
+        sb_nbytes = num_groups_in * fx.Index(scale_n * scale_k * scale_byte_size)
         sb_rsrc = buffer_ops.create_buffer_resource(
             arg_scale_b, max_size=False, num_records_bytes=arith.index_cast(T.i64, sb_nbytes)
         )
@@ -433,21 +436,22 @@ def compute_tile(accs_in, k_tile_idx_py, lds_base, b_tile_in, *, a0_prefetch=Non
                         s_a_vec4 = vector.from_elements(T.f32x4, s_a_row)
                         s_a_vecs.append(s_a_vec4)
 
-                    # Load scale_b for this K-block
-                    # scale_b layout: [G, scale_n, scale_k]
-                    # The address is wave-uniform (no lane dependence) — promote the
-                    # load to a single broadcast via readfirstlane to free VMEM slots.
-                    sb_group_offset = group_idx * fx.Index(scale_n * scale_k)
+                    # Load scale_b for this K-block (only the SW gfx942 path needs
+                    # the f32 list; gfx950 path loads int8 bytes directly below).
                     s_b_vals = []
-                    for ni in range_constexpr(num_acc_n):
-                        sb_idx = sb_group_offset + n_block_for_scale[ni] * c_scale_k + kb
-                        s_b_val = buffer_ops.buffer_load(sb_rsrc, sb_idx, vec_width=1, dtype=T.f32)
-                        s_b_val = rocdl.readfirstlane(T.f32, s_b_val)
-                        s_b_vals.append(s_b_val)
+                    if not _is_gfx950:
+                        sb_group_offset = group_idx * fx.Index(scale_n * scale_k)
+                        for ni in range_constexpr(num_acc_n):
+                            sb_idx = sb_group_offset + n_block_for_scale[ni] * c_scale_k + kb
+                            s_b_val = buffer_ops.buffer_load(sb_rsrc, sb_idx, vec_width=1, dtype=T.f32)
+                            s_b_val = rocdl.readfirstlane(T.f32, s_b_val)
+                            s_b_vals.append(s_b_val)
 
                     # MFMA computation for this scale block
                     if _is_gfx950:
-                        # gfx950: single K=128 MFMA with hardware E8M0 block scaling
+                        # gfx950: single K=128 MFMA with hardware E8M0 block scaling.
+                        # Scales are pre-packed as uint8 on host (1 byte each); load
+                        # and zero-extend to i32 for the MFMA scale operand.
                         ku0 = sb * ku_per_sb
                         ku1 = ku0 + 1
                         b0_packs0, b0_packs1 = b_tile_in[ku0]
@@ -455,22 +459,23 @@ def compute_tile(accs_in, k_tile_idx_py, lds_base, b_tile_in, *, a0_prefetch=Non
                         col_base0 = col_offset_base_bytes + fx.Index(ku0 * 64)
                         col_base1 = col_offset_base_bytes + fx.Index(ku1 * 64)
 
-                        # Load per-lane scaleA E8M0 (one per mi, varies by lane_mod_16)
+                        # Per-lane scaleA E8M0 byte (one per mi, varies by lane_mod_16)
                         sa_e8m0_list = []
                         for mi in range_constexpr(m_repeat):
                             sa_row = bx_m + arith.index(mi * 16) + lane_mod_16
                             sa_idx = sa_base + sa_row
-                            sa_f32 = buffer_ops.buffer_load(sa_rsrc, sa_idx, vec_width=1, dtype=T.f32)
-                            sa_i32 = arith.bitcast(T.i32, sa_f32)
-                            sa_e8m0 = (ArithValue(sa_i32) >> fx.Int32(23)) & fx.Int32(0xFF)
+                            sa_i8 = buffer_ops.buffer_load(sa_rsrc, sa_idx, vec_width=1, dtype=T.i8)
+                            sa_e8m0 = ArithValue(sa_i8).extui(T.i32)
                             sa_e8m0_list.append(sa_e8m0)
 
-                        # Load uniform scaleB E8M0 (one per ni, same for all lanes)
+                        # Wave-uniform scaleB E8M0 byte (one per ni)
+                        sb_group_offset = group_idx * fx.Index(scale_n * scale_k)
                         sb_e8m0_list = []
                         for ni in range_constexpr(num_acc_n):
-                            sb_f32 = s_b_vals[ni]
-                            sb_i32 = arith.bitcast(T.i32, sb_f32)
-                            sb_e8m0 = (ArithValue(sb_i32) >> fx.Int32(23)) & fx.Int32(0xFF)
+                            sb_idx = sb_group_offset + n_block_for_scale[ni] * c_scale_k + kb
+                            sb_i8 = buffer_ops.buffer_load(sb_rsrc, sb_idx, vec_width=1, dtype=T.i8)
+                            sb_i32 = ArithValue(sb_i8).extui(T.i32)
+                            sb_e8m0 = rocdl.readfirstlane(T.i32, sb_i32)
                             sb_e8m0_list.append(sb_e8m0)
 
                         for mi in range_constexpr(m_repeat):
diff --git a/tests/kernels/test_grouped_gemm_blockscale_contiguous.py b/tests/kernels/test_grouped_gemm_blockscale_contiguous.py
index 03234ea92..7825bcecb 100644
--- a/tests/kernels/test_grouped_gemm_blockscale_contiguous.py
+++ b/tests/kernels/test_grouped_gemm_blockscale_contiguous.py
@@ -59,6 +59,15 @@ def fp32_to_e8m0(scale: torch.Tensor) -> torch.Tensor:
     return (exp.clamp(1, 254) << 23).view(torch.float32)
 
 
+def fp32_e8m0_to_byte(scale_e8m0_f32: torch.Tensor) -> torch.Tensor:
+    """Extract the E8M0 byte from a float that was previously rounded by
+    fp32_to_e8m0. Returns uint8. Use this when handing scales to the kernel
+    so dequant uses bit-exact the same scale the kernel will apply (HW E8M0
+    path uses byte 0 of the i32 scale operand)."""
+    bits = scale_e8m0_f32.view(torch.int32)
+    return ((bits >> 23) & 0xFF).to(torch.uint8)
+
+
 def quantize_to_fp8(x: torch.Tensor, scale_block_k: int = 128) -> tuple[torch.Tensor, torch.Tensor]:
     """Quantize tensor to FP8 with per-row, per-block scaling.
 
@@ -81,7 +90,8 @@ def quantize_to_fp8(x: torch.Tensor, scale_block_k: int = 128) -> tuple[torch.Te
     fp8_max = torch.finfo(DTYPE_FP8).max
     scale = x_amax / fp8_max
 
-    # Truncate to E8M0 precision when hardware scaling is used (gfx950)
+    # Round to E8M0 when hardware scaling is used (gfx950); keep as FP32 for the
+    # quantization divide, then pre-pack to uint8 below for kernel consumption.
     if USE_UE8M0:
         scale = fp32_to_e8m0(scale)
 
@@ -89,6 +99,11 @@ def quantize_to_fp8(x: torch.Tensor, scale_block_k: int = 128) -> tuple[torch.Te
     x_scaled = x_blocks / scale.unsqueeze(2)
     x_fp8 = x_scaled.to(DTYPE_FP8).view(M, K)
 
+    # Pre-pack scale as uint8 (one E8M0 byte per scale) so the kernel can load
+    # 1 byte/scale and skip the in-kernel bitwise extract.
+    if USE_UE8M0:
+        scale = fp32_e8m0_to_byte(scale)
+
     # Transpose scale to [scale_k, M] to match DeepGEMM layout
     scale = scale.T.contiguous()
 
@@ -121,7 +136,8 @@ def quantize_b_to_fp8(
     fp8_max = torch.finfo(DTYPE_FP8).max
     scale = b_amax / fp8_max
 
-    # Truncate to E8M0 precision when hardware scaling is used (gfx950)
+    # Round to E8M0 when hardware scaling is used (gfx950); keep as FP32 for the
+    # quantization divide, then pre-pack to uint8 below for kernel consumption.
     if USE_UE8M0:
         scale = fp32_to_e8m0(scale)
 
@@ -129,6 +145,9 @@ def quantize_b_to_fp8(
     b_scaled = b_blocks / scale.view(num_groups, nblk_n, 1, nblk_k, 1)
     b_fp8 = b_scaled.to(DTYPE_FP8).view(num_groups, N, K)
 
+    if USE_UE8M0:
+        scale = fp32_e8m0_to_byte(scale)
+
     return b_fp8, scale
 
 
diff --git a/tests/kernels/test_grouped_gemm_blockscale_masked.py b/tests/kernels/test_grouped_gemm_blockscale_masked.py
index b818eee2d..b9bedb17b 100644
--- a/tests/kernels/test_grouped_gemm_blockscale_masked.py
+++ b/tests/kernels/test_grouped_gemm_blockscale_masked.py
@@ -60,6 +60,15 @@ def fp32_to_e8m0(scale: torch.Tensor) -> torch.Tensor:
     return (exp.clamp(1, 254) << 23).view(torch.float32)
 
 
+def fp32_e8m0_to_byte(scale_e8m0_f32: torch.Tensor) -> torch.Tensor:
+    """Extract the E8M0 byte from a float that was previously rounded by
+    fp32_to_e8m0. Returns uint8. Use this when handing scales to the kernel
+    so dequant uses bit-exact the same scale the kernel will apply (HW E8M0
+    path uses byte 0 of the i32 scale operand)."""
+    bits = scale_e8m0_f32.view(torch.int32)
+    return ((bits >> 23) & 0xFF).to(torch.uint8)
+
+
 def quantize_a_masked_to_fp8(x: torch.Tensor, scale_block_k: int = 128) -> tuple[torch.Tensor, torch.Tensor]:
     """Quantize padded 3D A tensor to FP8 with per-row, per-block scaling.
 
@@ -82,7 +91,8 @@ def quantize_a_masked_to_fp8(x: torch.Tensor, scale_block_k: int = 128) -> tuple
     fp8_max = torch.finfo(DTYPE_FP8).max
     scale = x_amax / fp8_max
 
-    # Round to E8M0 precision when hardware scaling is used (gfx950)
+    # Round to E8M0 when hardware scaling is used (gfx950); keep as FP32 for the
+    # quantization divide, then pre-pack to uint8 below for kernel consumption.
     if USE_UE8M0:
         scale = fp32_to_e8m0(scale)
 
@@ -90,6 +100,11 @@ def quantize_a_masked_to_fp8(x: torch.Tensor, scale_block_k: int = 128) -> tuple
     x_scaled = x_blocks / scale.unsqueeze(-1)
     x_fp8 = x_scaled.to(DTYPE_FP8).view(G, max_m, K)
 
+    # Pre-pack scale as uint8 (one E8M0 byte per scale) so the kernel can load
+    # 1 byte/scale and skip the in-kernel bitwise extract.
+    if USE_UE8M0:
+        scale = fp32_e8m0_to_byte(scale)
+
     # Transpose scale to [G, scale_k, max_m] to match kernel layout
     scale = scale.transpose(1, 2).contiguous()
 
@@ -122,7 +137,8 @@ def quantize_b_to_fp8(
     fp8_max = torch.finfo(DTYPE_FP8).max
     scale = b_amax / fp8_max
 
-    # Round to E8M0 precision when hardware scaling is used (gfx950)
+    # Round to E8M0 when hardware scaling is used (gfx950); keep as FP32 for the
+    # quantization divide, then pre-pack to uint8 below for kernel consumption.
     if USE_UE8M0:
         scale = fp32_to_e8m0(scale)
 
@@ -130,6 +146,9 @@ def quantize_b_to_fp8(
     b_scaled = b_blocks / scale.view(num_groups, nblk_n, 1, nblk_k, 1)
     b_fp8 = b_scaled.to(DTYPE_FP8).view(num_groups, N, K)
 
+    if USE_UE8M0:
+        scale = fp32_e8m0_to_byte(scale)
+
     return b_fp8, scale
 
 

From 964e1e360ba93f420639f89cf2d22631d3f620a2 Mon Sep 17 00:00:00 2001
From: Aryaman Gupta <aryaman.gupta@amd.com>
Date: Thu, 23 Apr 2026 15:46:23 +0000
Subject: [PATCH 34/39] group gemm: gate gfx942 SW scale loads behind not
 _is_gfx950

The s_a_vecs f32 loads are unused on the gfx950 HW path and would index
out-of-bounds against the int8-sized scale buffer if MLIR DCE ever
failed to eliminate them. Gating makes the gfx950/942 split explicit.

Co-Authored-By: Claude Opus 4 (1M context) <noreply@anthropic.com>
---
 kernels/grouped_gemm_blockscale_contiguous.py | 26 +++++++++++--------
 kernels/grouped_gemm_blockscale_masked.py     | 26 +++++++++++--------
 2 files changed, 30 insertions(+), 22 deletions(-)

diff --git a/kernels/grouped_gemm_blockscale_contiguous.py b/kernels/grouped_gemm_blockscale_contiguous.py
index 06639def7..81355e74e 100644
--- a/kernels/grouped_gemm_blockscale_contiguous.py
+++ b/kernels/grouped_gemm_blockscale_contiguous.py
@@ -414,19 +414,23 @@ def compute_tile(accs_in, k_tile_idx_py, lds_base, b_tile_in, *, a0_prefetch=Non
 
                     # Load scale_a for this K-block (per-token scale)
                     # scale_a layout: [scale_k, M] transposed
+                    # gfx950 HW path loads scaleA per-lane below as int8; the
+                    # gfx942-layout f32 loads here are unused (and would be OOB
+                    # against the int8-sized buffer resource), so they are gated.
                     sa_base = kb * m_in
                     s_a_vecs = []
-                    row_off_base = lane_div_16 * fx.Index(4)
-                    for mi in range_constexpr(m_repeat):
-                        s_a_row = []
-                        for ii in range_constexpr(4):
-                            row_in_tile = arith.index(mi * 16) + row_off_base + fx.Index(ii)
-                            row_global = bx_m + row_in_tile
-                            sa_idx = sa_base + row_global
-                            s_a_val = buffer_ops.buffer_load(sa_rsrc, sa_idx, vec_width=1, dtype=T.f32)
-                            s_a_row.append(s_a_val)
-                        s_a_vec4 = vector.from_elements(T.f32x4, s_a_row)
-                        s_a_vecs.append(s_a_vec4)
+                    if not _is_gfx950:
+                        row_off_base = lane_div_16 * fx.Index(4)
+                        for mi in range_constexpr(m_repeat):
+                            s_a_row = []
+                            for ii in range_constexpr(4):
+                                row_in_tile = arith.index(mi * 16) + row_off_base + fx.Index(ii)
+                                row_global = bx_m + row_in_tile
+                                sa_idx = sa_base + row_global
+                                s_a_val = buffer_ops.buffer_load(sa_rsrc, sa_idx, vec_width=1, dtype=T.f32)
+                                s_a_row.append(s_a_val)
+                            s_a_vec4 = vector.from_elements(T.f32x4, s_a_row)
+                            s_a_vecs.append(s_a_vec4)
 
                     # Load scale_b for this K-block (only the SW gfx942 path needs
                     # the f32 list; gfx950 path loads int8 bytes directly below).
diff --git a/kernels/grouped_gemm_blockscale_masked.py b/kernels/grouped_gemm_blockscale_masked.py
index 7db35b2c9..7f5ad8543 100644
--- a/kernels/grouped_gemm_blockscale_masked.py
+++ b/kernels/grouped_gemm_blockscale_masked.py
@@ -422,19 +422,23 @@ def compute_tile(accs_in, k_tile_idx_py, lds_base, b_tile_in, *, a0_prefetch=Non
 
                     # Load scale_a for this K-block (per-token scale)
                     # scale_a layout: [G, scale_k, expected_m] transposed
+                    # gfx950 HW path loads scaleA per-lane below as int8; the
+                    # gfx942-layout f32 loads here are unused (and would be OOB
+                    # against the int8-sized buffer resource), so they are gated.
                     sa_base = sa_group_off + kb * m_in
                     s_a_vecs = []
-                    row_off_base = lane_div_16 * fx.Index(4)
-                    for mi in range_constexpr(m_repeat):
-                        s_a_row = []
-                        for ii in range_constexpr(4):
-                            row_in_tile = arith.index(mi * 16) + row_off_base + fx.Index(ii)
-                            row_global = bx_m + row_in_tile
-                            sa_idx = sa_base + row_global
-                            s_a_val = buffer_ops.buffer_load(sa_rsrc, sa_idx, vec_width=1, dtype=T.f32)
-                            s_a_row.append(s_a_val)
-                        s_a_vec4 = vector.from_elements(T.f32x4, s_a_row)
-                        s_a_vecs.append(s_a_vec4)
+                    if not _is_gfx950:
+                        row_off_base = lane_div_16 * fx.Index(4)
+                        for mi in range_constexpr(m_repeat):
+                            s_a_row = []
+                            for ii in range_constexpr(4):
+                                row_in_tile = arith.index(mi * 16) + row_off_base + fx.Index(ii)
+                                row_global = bx_m + row_in_tile
+                                sa_idx = sa_base + row_global
+                                s_a_val = buffer_ops.buffer_load(sa_rsrc, sa_idx, vec_width=1, dtype=T.f32)
+                                s_a_row.append(s_a_val)
+                            s_a_vec4 = vector.from_elements(T.f32x4, s_a_row)
+                            s_a_vecs.append(s_a_vec4)
 
                     # Load scale_b for this K-block (only the SW gfx942 path needs
                     # the f32 list; gfx950 path loads int8 bytes directly below).

From c9ae27bedd41b8f4d07cb69259d645ceee8df4bc Mon Sep 17 00:00:00 2001
From: Aryaman Gupta <aryaman.gupta@amd.com>
Date: Thu, 23 Apr 2026 19:26:21 +0000
Subject: [PATCH 35/39] group gemm: prefetch scales across K-tile boundaries

Add `prefetch_scales(k_tile_idx_py)` helper that loads the E8M0 byte for
each (mi, ni) of the next K-tile into VGPRs ahead of `compute_tile`.
Issued before `load_b_tile` in the ping-pong loop so scale-VMEM latency
overlaps the prior tile's MFMAs and the next B-tile load.

Co-Authored-By: Claude Opus 4 (1M context) <noreply@anthropic.com>
---
 kernels/grouped_gemm_blockscale_contiguous.py | 97 +++++++++++--------
 kernels/grouped_gemm_blockscale_masked.py     | 93 ++++++++++--------
 2 files changed, 112 insertions(+), 78 deletions(-)

diff --git a/kernels/grouped_gemm_blockscale_contiguous.py b/kernels/grouped_gemm_blockscale_contiguous.py
index 81355e74e..940a7e22c 100644
--- a/kernels/grouped_gemm_blockscale_contiguous.py
+++ b/kernels/grouped_gemm_blockscale_contiguous.py
@@ -405,21 +405,56 @@ def hot_loop_scheduler():
                 rocdl.sched_barrier(0)
 
             # ── Helper: compute one K-tile from LDS + B tile ────────────
-            def compute_tile(accs_in, k_tile_idx_py, lds_base, b_tile_in, *, a0_prefetch=None):
-                """Compute MFMA tiles for one K-tile, return updated accumulators."""
+            # ── Helper: prefetch E8M0 scales for one K-tile (gfx950 HW path) ──
+            # Returns (sa_e8m0_pf, sb_e8m0_pf) — outer index = sb (sb_per_tile),
+            # inner = m_repeat / num_acc_n. Issued ahead of compute_tile so
+            # scale-load latency overlaps with prior tile's MFMA work + B-tile load.
+            def prefetch_scales(k_tile_idx_py):
+                if not _is_gfx950:
+                    return None
+                sa_pf = []
+                sb_pf = []
+                sb_group_offset = group_idx * fx.Index(scale_n * scale_k)
+                for sb in range_constexpr(sb_per_tile):
+                    kb = fx.Index(k_tile_idx_py * sb_per_tile + sb)
+                    sa_base_pf = kb * m_in
+
+                    sa_sb = []
+                    for mi in range_constexpr(m_repeat):
+                        sa_row = bx_m + arith.index(mi * 16) + lane_mod_16
+                        sa_idx = sa_base_pf + sa_row
+                        sa_i8 = buffer_ops.buffer_load(sa_rsrc, sa_idx, vec_width=1, dtype=T.i8)
+                        sa_e8m0 = ArithValue(sa_i8).extui(T.i32)
+                        sa_sb.append(sa_e8m0)
+                    sa_pf.append(sa_sb)
+
+                    sb_sb = []
+                    for ni in range_constexpr(num_acc_n):
+                        sb_idx = sb_group_offset + n_block_for_scale[ni] * c_scale_k + kb
+                        sb_i8 = buffer_ops.buffer_load(sb_rsrc, sb_idx, vec_width=1, dtype=T.i8)
+                        sb_i32 = ArithValue(sb_i8).extui(T.i32)
+                        sb_e8m0 = rocdl.readfirstlane(T.i32, sb_i32)
+                        sb_sb.append(sb_e8m0)
+                    sb_pf.append(sb_sb)
+                return (sa_pf, sb_pf)
+
+            def compute_tile(accs_in, k_tile_idx_py, lds_base, b_tile_in, scales_pf, *, a0_prefetch=None):
+                """Compute MFMA tiles for one K-tile, return updated accumulators.
+
+                scales_pf: result of prefetch_scales(k_tile_idx_py) for the gfx950
+                HW path; None for the gfx942 SW path (which loads scales locally).
+                """
                 current_accs = list(accs_in)
 
                 for sb in range_constexpr(sb_per_tile):
                     kb = fx.Index(k_tile_idx_py * sb_per_tile + sb)
 
-                    # Load scale_a for this K-block (per-token scale)
-                    # scale_a layout: [scale_k, M] transposed
-                    # gfx950 HW path loads scaleA per-lane below as int8; the
-                    # gfx942-layout f32 loads here are unused (and would be OOB
-                    # against the int8-sized buffer resource), so they are gated.
-                    sa_base = kb * m_in
+                    # gfx942 SW path needs s_a_vecs (4 loads/mi, lane_div_16 layout)
+                    # and s_b_vals as f32. gfx950 HW path uses prefetched E8M0 bytes.
                     s_a_vecs = []
+                    s_b_vals = []
                     if not _is_gfx950:
+                        sa_base = kb * m_in
                         row_off_base = lane_div_16 * fx.Index(4)
                         for mi in range_constexpr(m_repeat):
                             s_a_row = []
@@ -432,10 +467,6 @@ def compute_tile(accs_in, k_tile_idx_py, lds_base, b_tile_in, *, a0_prefetch=Non
                             s_a_vec4 = vector.from_elements(T.f32x4, s_a_row)
                             s_a_vecs.append(s_a_vec4)
 
-                    # Load scale_b for this K-block (only the SW gfx942 path needs
-                    # the f32 list; gfx950 path loads int8 bytes directly below).
-                    s_b_vals = []
-                    if not _is_gfx950:
                         sb_group_offset = group_idx * fx.Index(scale_n * scale_k)
                         for ni in range_constexpr(num_acc_n):
                             sb_idx = sb_group_offset + n_block_for_scale[ni] * c_scale_k + kb
@@ -445,9 +476,12 @@ def compute_tile(accs_in, k_tile_idx_py, lds_base, b_tile_in, *, a0_prefetch=Non
 
                     # MFMA computation for this scale block
                     if _is_gfx950:
-                        # gfx950: single K=128 MFMA with hardware E8M0 block scaling.
-                        # Scales are pre-packed as uint8 on host (1 byte each); load
-                        # and zero-extend to i32 for the MFMA scale operand.
+                        # gfx950: single K=128 MFMA with HW E8M0 scales prefetched
+                        # ahead of compute_tile (scales_pf passed by caller).
+                        sa_pf, sb_pf = scales_pf
+                        sa_e8m0_list = sa_pf[sb]
+                        sb_e8m0_list = sb_pf[sb]
+
                         ku0 = sb * ku_per_sb
                         ku1 = ku0 + 1
                         b0_packs0, b0_packs1 = b_tile_in[ku0]
@@ -455,25 +489,6 @@ def compute_tile(accs_in, k_tile_idx_py, lds_base, b_tile_in, *, a0_prefetch=Non
                         col_base0 = col_offset_base_bytes + fx.Index(ku0 * 64)
                         col_base1 = col_offset_base_bytes + fx.Index(ku1 * 64)
 
-                        # Per-lane scaleA E8M0 byte (one per mi, varies by lane_mod_16)
-                        sa_e8m0_list = []
-                        for mi in range_constexpr(m_repeat):
-                            sa_row = bx_m + arith.index(mi * 16) + lane_mod_16
-                            sa_idx = sa_base + sa_row
-                            sa_i8 = buffer_ops.buffer_load(sa_rsrc, sa_idx, vec_width=1, dtype=T.i8)
-                            sa_e8m0 = ArithValue(sa_i8).extui(T.i32)
-                            sa_e8m0_list.append(sa_e8m0)
-
-                        # Wave-uniform scaleB E8M0 byte (one per ni)
-                        sb_group_offset = group_idx * fx.Index(scale_n * scale_k)
-                        sb_e8m0_list = []
-                        for ni in range_constexpr(num_acc_n):
-                            sb_idx = sb_group_offset + n_block_for_scale[ni] * c_scale_k + kb
-                            sb_i8 = buffer_ops.buffer_load(sb_rsrc, sb_idx, vec_width=1, dtype=T.i8)
-                            sb_i32 = ArithValue(sb_i8).extui(T.i32)
-                            sb_e8m0 = rocdl.readfirstlane(T.i32, sb_i32)
-                            sb_e8m0_list.append(sb_e8m0)
-
                         for mi in range_constexpr(m_repeat):
                             curr_row_a_lds = lane_mod_16 + arith.index(mi * 16)
                             if a0_prefetch is not None and sb == 0 and mi == 0:
@@ -526,23 +541,26 @@ def compute_tile(accs_in, k_tile_idx_py, lds_base, b_tile_in, *, a0_prefetch=Non
                 return current_accs
 
             # ===== Ping-pong K-loop =====
-            # Prologue: prefetch first A tile into VGPRs, store to LDS, load B
+            # Prologue: prefetch first A tile into VGPRs, store to LDS, load B + scales
             a_regs0 = prefetch_a_tile(0)
             store_a_tile_to_lds(a_regs0, lds_base_pong)
             b_tile_pong = load_b_tile(fx.Index(0))
+            scales_pong_pf = prefetch_scales(0)
             gpu.barrier()
 
             # Prefetch first A pack from pong (hides LDS latency behind upcoming VMEM)
             a0_prefetch_pong = lds_load_packs_k64(row_a_lds_base, col_offset_base_bytes, lds_base_pong)
 
             for k_pair in range_constexpr(0, num_k_tiles, 2):
-                # Prefetch next A+B to VGPRs (VMEM issued before compute)
+                # Prefetch next scales BEFORE B-tile VMEM (per moe-2stage pattern:
+                # scale-load latency hides behind heavy B VMEM); then A+B regs.
                 if k_pair + 1 < num_k_tiles:
+                    scales_ping_pf = prefetch_scales(k_pair + 1)
                     a_regs_ping = prefetch_a_tile(k_pair + 1)
                     b_tile_ping = load_b_tile(fx.Index((k_pair + 1) * tile_k))
 
                 # Compute current tile from pong LDS
-                accs = compute_tile(accs, k_pair, lds_base_pong, b_tile_pong,
+                accs = compute_tile(accs, k_pair, lds_base_pong, b_tile_pong, scales_pong_pf,
                                     a0_prefetch=a0_prefetch_pong)
                 a0_prefetch_pong = None
 
@@ -557,13 +575,14 @@ def compute_tile(accs_in, k_tile_idx_py, lds_base, b_tile_in, *, a0_prefetch=Non
                     a0_prefetch_ping = lds_load_packs_k64(
                         row_a_lds_base, col_offset_base_bytes, lds_base_ping)
 
-                    # Prefetch next A+B to VGPRs
+                    # Prefetch next scales + A+B
                     if k_pair + 2 < num_k_tiles:
+                        scales_pong_pf = prefetch_scales(k_pair + 2)
                         a_regs_pong = prefetch_a_tile(k_pair + 2)
                         b_tile_pong = load_b_tile(fx.Index((k_pair + 2) * tile_k))
 
                     # Compute current tile from ping LDS
-                    accs = compute_tile(accs, k_pair + 1, lds_base_ping, b_tile_ping,
+                    accs = compute_tile(accs, k_pair + 1, lds_base_ping, b_tile_ping, scales_ping_pf,
                                         a0_prefetch=a0_prefetch_ping)
                     a0_prefetch_ping = None
 
diff --git a/kernels/grouped_gemm_blockscale_masked.py b/kernels/grouped_gemm_blockscale_masked.py
index 7f5ad8543..0c77910a9 100644
--- a/kernels/grouped_gemm_blockscale_masked.py
+++ b/kernels/grouped_gemm_blockscale_masked.py
@@ -413,21 +413,53 @@ def hot_loop_scheduler():
             c_scale_k = fx.Index(scale_k)
             sa_group_off = group_idx * c_scale_k * m_in  # 3D scale_a Offset
 
-            def compute_tile(accs_in, k_tile_idx_py, lds_base, b_tile_in, *, a0_prefetch=None):
-                """Compute MFMA tiles for one K-tile, return updated accumulators."""
+            # ── Helper: prefetch E8M0 scales for one K-tile (gfx950 HW path) ──
+            def prefetch_scales(k_tile_idx_py):
+                if not _is_gfx950:
+                    return None
+                sa_pf = []
+                sb_pf = []
+                sb_group_offset = group_idx * fx.Index(scale_n * scale_k)
+                for sb in range_constexpr(sb_per_tile):
+                    kb = fx.Index(k_tile_idx_py * sb_per_tile + sb)
+                    sa_base_pf = sa_group_off + kb * m_in
+
+                    sa_sb = []
+                    for mi in range_constexpr(m_repeat):
+                        sa_row = bx_m + arith.index(mi * 16) + lane_mod_16
+                        sa_idx = sa_base_pf + sa_row
+                        sa_i8 = buffer_ops.buffer_load(sa_rsrc, sa_idx, vec_width=1, dtype=T.i8)
+                        sa_e8m0 = ArithValue(sa_i8).extui(T.i32)
+                        sa_sb.append(sa_e8m0)
+                    sa_pf.append(sa_sb)
+
+                    sb_sb = []
+                    for ni in range_constexpr(num_acc_n):
+                        sb_idx = sb_group_offset + n_block_for_scale[ni] * c_scale_k + kb
+                        sb_i8 = buffer_ops.buffer_load(sb_rsrc, sb_idx, vec_width=1, dtype=T.i8)
+                        sb_i32 = ArithValue(sb_i8).extui(T.i32)
+                        sb_e8m0 = rocdl.readfirstlane(T.i32, sb_i32)
+                        sb_sb.append(sb_e8m0)
+                    sb_pf.append(sb_sb)
+                return (sa_pf, sb_pf)
+
+            def compute_tile(accs_in, k_tile_idx_py, lds_base, b_tile_in, scales_pf, *, a0_prefetch=None):
+                """Compute MFMA tiles for one K-tile, return updated accumulators.
+
+                scales_pf: result of prefetch_scales(k_tile_idx_py) for the gfx950
+                HW path; None for the gfx942 SW path (which loads scales locally).
+                """
                 current_accs = list(accs_in)
 
                 for sb in range_constexpr(sb_per_tile):
                     kb = fx.Index(k_tile_idx_py * sb_per_tile + sb)
 
-                    # Load scale_a for this K-block (per-token scale)
-                    # scale_a layout: [G, scale_k, expected_m] transposed
-                    # gfx950 HW path loads scaleA per-lane below as int8; the
-                    # gfx942-layout f32 loads here are unused (and would be OOB
-                    # against the int8-sized buffer resource), so they are gated.
-                    sa_base = sa_group_off + kb * m_in
+                    # gfx942 SW path needs s_a_vecs (4 loads/mi, lane_div_16 layout)
+                    # and s_b_vals as f32. gfx950 HW path uses prefetched E8M0 bytes.
                     s_a_vecs = []
+                    s_b_vals = []
                     if not _is_gfx950:
+                        sa_base = sa_group_off + kb * m_in
                         row_off_base = lane_div_16 * fx.Index(4)
                         for mi in range_constexpr(m_repeat):
                             s_a_row = []
@@ -440,10 +472,6 @@ def compute_tile(accs_in, k_tile_idx_py, lds_base, b_tile_in, *, a0_prefetch=Non
                             s_a_vec4 = vector.from_elements(T.f32x4, s_a_row)
                             s_a_vecs.append(s_a_vec4)
 
-                    # Load scale_b for this K-block (only the SW gfx942 path needs
-                    # the f32 list; gfx950 path loads int8 bytes directly below).
-                    s_b_vals = []
-                    if not _is_gfx950:
                         sb_group_offset = group_idx * fx.Index(scale_n * scale_k)
                         for ni in range_constexpr(num_acc_n):
                             sb_idx = sb_group_offset + n_block_for_scale[ni] * c_scale_k + kb
@@ -453,9 +481,11 @@ def compute_tile(accs_in, k_tile_idx_py, lds_base, b_tile_in, *, a0_prefetch=Non
 
                     # MFMA computation for this scale block
                     if _is_gfx950:
-                        # gfx950: single K=128 MFMA with hardware E8M0 block scaling.
-                        # Scales are pre-packed as uint8 on host (1 byte each); load
-                        # and zero-extend to i32 for the MFMA scale operand.
+                        # gfx950: single K=128 MFMA with HW E8M0 scales prefetched.
+                        sa_pf, sb_pf = scales_pf
+                        sa_e8m0_list = sa_pf[sb]
+                        sb_e8m0_list = sb_pf[sb]
+
                         ku0 = sb * ku_per_sb
                         ku1 = ku0 + 1
                         b0_packs0, b0_packs1 = b_tile_in[ku0]
@@ -463,25 +493,6 @@ def compute_tile(accs_in, k_tile_idx_py, lds_base, b_tile_in, *, a0_prefetch=Non
                         col_base0 = col_offset_base_bytes + fx.Index(ku0 * 64)
                         col_base1 = col_offset_base_bytes + fx.Index(ku1 * 64)
 
-                        # Per-lane scaleA E8M0 byte (one per mi, varies by lane_mod_16)
-                        sa_e8m0_list = []
-                        for mi in range_constexpr(m_repeat):
-                            sa_row = bx_m + arith.index(mi * 16) + lane_mod_16
-                            sa_idx = sa_base + sa_row
-                            sa_i8 = buffer_ops.buffer_load(sa_rsrc, sa_idx, vec_width=1, dtype=T.i8)
-                            sa_e8m0 = ArithValue(sa_i8).extui(T.i32)
-                            sa_e8m0_list.append(sa_e8m0)
-
-                        # Wave-uniform scaleB E8M0 byte (one per ni)
-                        sb_group_offset = group_idx * fx.Index(scale_n * scale_k)
-                        sb_e8m0_list = []
-                        for ni in range_constexpr(num_acc_n):
-                            sb_idx = sb_group_offset + n_block_for_scale[ni] * c_scale_k + kb
-                            sb_i8 = buffer_ops.buffer_load(sb_rsrc, sb_idx, vec_width=1, dtype=T.i8)
-                            sb_i32 = ArithValue(sb_i8).extui(T.i32)
-                            sb_e8m0 = rocdl.readfirstlane(T.i32, sb_i32)
-                            sb_e8m0_list.append(sb_e8m0)
-
                         for mi in range_constexpr(m_repeat):
                             curr_row_a_lds = lane_mod_16 + arith.index(mi * 16)
                             if a0_prefetch is not None and sb == 0 and mi == 0:
@@ -534,23 +545,26 @@ def compute_tile(accs_in, k_tile_idx_py, lds_base, b_tile_in, *, a0_prefetch=Non
                 return current_accs
 
             # ===== Ping-pong K-loop =====
-            # Prologue: prefetch first A tile into VGPRs, store to LDS, load B
+            # Prologue: prefetch first A tile into VGPRs, store to LDS, load B + scales
             a_regs0 = prefetch_a_tile(0)
             store_a_tile_to_lds(a_regs0, lds_base_pong)
             b_tile_pong = load_b_tile(fx.Index(0))
+            scales_pong_pf = prefetch_scales(0)
             gpu.barrier()
 
             # Prefetch first A pack from pong (hides LDS latency behind upcoming VMEM)
             a0_prefetch_pong = lds_load_packs_k64(row_a_lds_base, col_offset_base_bytes, lds_base_pong)
 
             for k_pair in range_constexpr(0, num_k_tiles, 2):
-                # Prefetch next A+B to VGPRs (VMEM issued before compute)
+                # Prefetch next scales BEFORE B-tile VMEM (per moe-2stage pattern:
+                # scale-load latency hides behind heavy B VMEM); then A+B regs.
                 if k_pair + 1 < num_k_tiles:
+                    scales_ping_pf = prefetch_scales(k_pair + 1)
                     a_regs_ping = prefetch_a_tile(k_pair + 1)
                     b_tile_ping = load_b_tile(fx.Index((k_pair + 1) * tile_k))
 
                 # Compute current tile from pong LDS
-                accs = compute_tile(accs, k_pair, lds_base_pong, b_tile_pong,
+                accs = compute_tile(accs, k_pair, lds_base_pong, b_tile_pong, scales_pong_pf,
                                     a0_prefetch=a0_prefetch_pong)
                 a0_prefetch_pong = None
 
@@ -565,13 +579,14 @@ def compute_tile(accs_in, k_tile_idx_py, lds_base, b_tile_in, *, a0_prefetch=Non
                     a0_prefetch_ping = lds_load_packs_k64(
                         row_a_lds_base, col_offset_base_bytes, lds_base_ping)
 
-                    # Prefetch next A+B to VGPRs
+                    # Prefetch next scales + A+B
                     if k_pair + 2 < num_k_tiles:
+                        scales_pong_pf = prefetch_scales(k_pair + 2)
                         a_regs_pong = prefetch_a_tile(k_pair + 2)
                         b_tile_pong = load_b_tile(fx.Index((k_pair + 2) * tile_k))
 
                     # Compute current tile from ping LDS
-                    accs = compute_tile(accs, k_pair + 1, lds_base_ping, b_tile_ping,
+                    accs = compute_tile(accs, k_pair + 1, lds_base_ping, b_tile_ping, scales_ping_pf,
                                         a0_prefetch=a0_prefetch_ping)
                     a0_prefetch_ping = None
 

From 1e7bc574513fba9cbaeba844c290eb662468aa14 Mon Sep 17 00:00:00 2001
From: Aryaman Gupta <aryaman.gupta@amd.com>
Date: Thu, 23 Apr 2026 21:08:03 +0000
Subject: [PATCH 36/39] group gemm tests: align with repo conventions
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

- Register both tests in tests/arch_compat.py:CDNA_ONLY_TESTS so RDNA CI
  auto-skips them.
- Add `pytestmark = [pytest.mark.l2_device, pytest.mark.rocm_lower]`
  so CI buckets them correctly.
- Add `torch.cuda.is_available()` module-level skip guard.
- Drop dead `--waves_per_eu` argparse arg (was accepted but never
  forwarded).
- Merge per-file `*_correctness` and `*_performance` into a single
  `test_grouped_fp8_gemm` / `test_masked_grouped_fp8_gemm` matching the
  test_blockscale_preshuffle_gemm convention.
- Move the per-group reference matmul from CPU to GPU (hipBLASLt). Test
  suite runtime drops ~70s → ~34s.

Co-Authored-By: Claude Opus 4 (1M context) <noreply@anthropic.com>
---
 tests/arch_compat.py                          |   2 +
 ...test_grouped_gemm_blockscale_contiguous.py |  97 +++++------------
 .../test_grouped_gemm_blockscale_masked.py    | 101 +++++-------------
 3 files changed, 57 insertions(+), 143 deletions(-)

diff --git a/tests/arch_compat.py b/tests/arch_compat.py
index fb6bab523..6d3792a1d 100644
--- a/tests/arch_compat.py
+++ b/tests/arch_compat.py
@@ -11,6 +11,8 @@
 CDNA_ONLY_TESTS = frozenset({
     "test_preshuffle_gemm.py",
     "test_blockscale_preshuffle_gemm.py",
+    "test_grouped_gemm_blockscale_contiguous.py",
+    "test_grouped_gemm_blockscale_masked.py",
     "test_moe_gemm.py",
     "test_moe_blockscale.py",
     "test_moe_reduce.py",
diff --git a/tests/kernels/test_grouped_gemm_blockscale_contiguous.py b/tests/kernels/test_grouped_gemm_blockscale_contiguous.py
index 7825bcecb..fbcccb59e 100644
--- a/tests/kernels/test_grouped_gemm_blockscale_contiguous.py
+++ b/tests/kernels/test_grouped_gemm_blockscale_contiguous.py
@@ -16,6 +16,8 @@
 import torch
 import pytest
 
+pytestmark = [pytest.mark.l2_device, pytest.mark.rocm_lower]
+
 _REPO_ROOT = os.path.abspath(os.path.join(os.path.dirname(__file__), "../.."))
 _PYTHON_CANDIDATES = [
     os.path.join(_REPO_ROOT, "build", "python_packages"),
@@ -32,6 +34,9 @@
 
 logging.basicConfig(level=logging.INFO)
 
+if not torch.cuda.is_available():
+    pytest.skip("CUDA/ROCm not available. Skipping GPU tests.", allow_module_level=True)
+
 ARCH = get_rocm_arch()
 # Use appropriate FP8 dtype for the architecture
 DTYPE_FP8 = torch.float8_e4m3fn if "gfx95" in ARCH else torch.float8_e4m3fnuz
@@ -214,15 +219,13 @@ def generate_grouped_gemm_inputs(
 
     # Reference output from original FP32 data BEFORE quantization
     # (matching DeepGEMM test convention: ref absorbs all quantization + scale errors)
-    a_cpu = a_f32.cpu()
-    b_cpu = b_f32.cpu()
-    gl_cpu = grouped_layout.cpu()
-    ref_d = torch.zeros(M, n, dtype=torch.float32, device="cpu")
+    # Per-group matmul on GPU via hipBLASLt (much faster than CPU for large K).
+    ref_d = torch.zeros(M, n, dtype=torch.float32, device=device)
     for g in range(num_groups):
-        mask = gl_cpu == g
+        mask = grouped_layout == g
         if mask.any():
-            ref_d[mask] = a_cpu[mask] @ b_cpu[g].T
-    ref_d = ref_d.to(torch_out_dtype).to(device)
+            ref_d[mask] = a_f32[mask] @ b_f32[g].T
+    ref_d = ref_d.to(torch_out_dtype)
 
     # Quantize to FP8
     a_fp8, scale_a = quantize_to_fp8(a_f32, scale_block_k)
@@ -263,9 +266,12 @@ def _as_i8(t: torch.Tensor) -> torch.Tensor:
     pytest.param("bf16", id="bf16"),
     pytest.param("f16", id="f16"),
 ])
-def test_grouped_fp8_gemm_correctness(num_groups, m_per_group, n, k, out_dtype,
-                                      tile_m=128, tile_n=128, tile_k=128):
-    """Test grouped FP8 GEMM correctness against PyTorch reference."""
+def test_grouped_fp8_gemm(num_groups, m_per_group, n, k, out_dtype,
+                          *, tile_m=128, tile_n=128, tile_k=128,
+                          bench_iters=20, bench_warmup=3):
+    """Verify grouped FP8 GEMM correctness against a PyTorch reference and
+    report throughput. Single function combining correctness + bench, matching
+    the convention of test_blockscale_preshuffle_gemm.py."""
     scale_block_k = 128
     scale_block_n = 128
 
@@ -293,13 +299,18 @@ def test_grouped_fp8_gemm_correctness(num_groups, m_per_group, n, k, out_dtype,
     def launch_kernel(d, a, b, sa, sb, gl):
         launch_fn(d, a, b, sa, sb, gl, M, n, k, num_groups, stream)
 
-    launch_kernel(
+    bench_iters = max(2, int(bench_iters))
+    bench_warmup = int(bench_warmup)
+    _, us = run_perftest(
+        launch_kernel,
         d.contiguous().view(-1),
         _as_i8(a_fp8.contiguous().view(-1)),
         _as_i8(b_fp8.contiguous().view(-1)),
         scale_a.contiguous().view(-1),
         scale_b.contiguous().view(-1),
         grouped_layout.contiguous(),
+        num_iters=bench_iters,
+        num_warmup=bench_warmup,
     )
     torch.cuda.synchronize()
 
@@ -315,56 +326,6 @@ def launch_kernel(d, a, b, sa, sb, gl):
                            logits_diff_threshold=1e-3)
     assert passed, f"Correctness check failed for {msg}"
 
-
-@pytest.mark.parametrize(
-    "num_groups,m_per_group,n,k",
-    [
-        pytest.param(8, 512, 1024, 1024, id="perf-8g-512m", marks=pytest.mark.large_shape),
-    ],
-)
-def test_grouped_fp8_gemm_performance(num_groups, m_per_group, n, k,
-                                      tile_m=128, tile_n=128, tile_k=128,
-                                      out_dtype="bf16",
-                                      num_iters=20, num_warmup=3):
-    """Benchmark grouped FP8 GEMM performance."""
-    scale_block_k = 128
-    scale_block_n = 128
-
-    # Generate inputs
-    a_fp8, scale_a, b_fp8, scale_b, grouped_layout, d, ref_d, M = generate_grouped_gemm_inputs(
-        num_groups, m_per_group, n, k, scale_block_k, scale_block_n, out_dtype=out_dtype,
-    )
-
-    # Compile kernel
-    launch_fn = compile_grouped_fp8_gemm(
-        n=n,
-        k=k,
-        num_groups=num_groups,
-        tile_m=tile_m,
-        tile_n=tile_n,
-        tile_k=tile_k,
-        scale_block_k=scale_block_k,
-        scale_block_n=scale_block_n,
-        out_dtype=out_dtype,
-    )
-
-    stream = torch.cuda.current_stream()
-
-    def launch_kernel(d, a, b, sa, sb, gl):
-        launch_fn(d, a, b, sa, sb, gl, M, n, k, num_groups, stream)
-
-    _, us = run_perftest(
-        launch_kernel,
-        d.contiguous().view(-1),
-        _as_i8(a_fp8.contiguous().view(-1)),
-        _as_i8(b_fp8.contiguous().view(-1)),
-        scale_a.contiguous().view(-1),
-        scale_b.contiguous().view(-1),
-        grouped_layout.contiguous(),
-        num_iters=num_iters,
-        num_warmup=num_warmup,
-    )
-
     flops = 2 * M * n * k
     tflops = flops / (us / 1e6) / 1e12
     bytes_a = M * k  # FP8
@@ -394,7 +355,6 @@ def launch_kernel(d, a, b, sa, sb, gl):
     parser.add_argument("--tile_n", type=int, default=128)
     parser.add_argument("--tile_k", type=int, default=128)
     parser.add_argument("--out_dtype", type=str, default="bf16", choices=["bf16", "f16"])
-    parser.add_argument("--waves_per_eu", type=int, default=None)
     parser.add_argument("--num_iters", type=int, default=100)
     parser.add_argument("--num_warmup", type=int, default=5)
     args = parser.parse_args()
@@ -404,11 +364,8 @@ def launch_kernel(d, a, b, sa, sb, gl):
     m_list = [args.m_per_group] if args.m_per_group > 0 else [128, 256, 512, 1024]
 
     for m_per_group in m_list:
-        test_grouped_fp8_gemm_correctness(args.num_groups, m_per_group, args.N, args.K,
-                                          out_dtype=args.out_dtype,
-                                          tile_m=args.tile_m, tile_n=args.tile_n,
-                                          tile_k=args.tile_k)
-        test_grouped_fp8_gemm_performance(args.num_groups, m_per_group, args.N, args.K,
-                                          tile_m=args.tile_m, tile_n=args.tile_n,
-                                          tile_k=args.tile_k, out_dtype=args.out_dtype,
-                                          num_iters=args.num_iters, num_warmup=args.num_warmup)
+        test_grouped_fp8_gemm(args.num_groups, m_per_group, args.N, args.K,
+                              out_dtype=args.out_dtype,
+                              tile_m=args.tile_m, tile_n=args.tile_n,
+                              tile_k=args.tile_k,
+                              bench_iters=args.num_iters, bench_warmup=args.num_warmup)
diff --git a/tests/kernels/test_grouped_gemm_blockscale_masked.py b/tests/kernels/test_grouped_gemm_blockscale_masked.py
index b9bedb17b..47d0a8655 100644
--- a/tests/kernels/test_grouped_gemm_blockscale_masked.py
+++ b/tests/kernels/test_grouped_gemm_blockscale_masked.py
@@ -16,6 +16,8 @@
 import torch
 import pytest
 
+pytestmark = [pytest.mark.l2_device, pytest.mark.rocm_lower]
+
 _REPO_ROOT = os.path.abspath(os.path.join(os.path.dirname(__file__), "../.."))
 _PYTHON_CANDIDATES = [
     os.path.join(_REPO_ROOT, "build", "python_packages"),
@@ -25,7 +27,6 @@
     if os.path.isdir(_p) and _p not in sys.path:
         sys.path.insert(0, _p)
 
-# Assuming the previous kernel code was saved here
 from kernels.grouped_gemm_blockscale_masked import compile_masked_grouped_fp8_gemm
 from flydsl.runtime.device import get_rocm_arch
 from tests.test_common import run_perftest, verify_output
@@ -33,6 +34,9 @@
 
 logging.basicConfig(level=logging.INFO)
 
+if not torch.cuda.is_available():
+    pytest.skip("CUDA/ROCm not available. Skipping GPU tests.", allow_module_level=True)
+
 ARCH = get_rocm_arch()
 # Use appropriate FP8 dtype for the architecture
 DTYPE_FP8 = torch.float8_e4m3fn if "gfx95" in ARCH else torch.float8_e4m3fnuz
@@ -191,15 +195,13 @@ def generate_masked_grouped_gemm_inputs(
 
     # Reference output from original FP32 data BEFORE quantization
     # (matching DeepGEMM test convention: ref absorbs all quantization + scale errors)
-    a_cpu = a_f32.cpu()
-    b_cpu = b_f32.cpu()
-    m_cpu = masked_m.cpu()
-    ref_d = torch.zeros(num_groups, max_m, n, dtype=torch.float32, device="cpu")
+    # Per-group matmul on GPU via hipBLASLt (much faster than CPU for large K).
+    ref_d = torch.zeros(num_groups, max_m, n, dtype=torch.float32, device=device)
     for g in range(num_groups):
-        m_actual = m_cpu[g].item()
+        m_actual = masked_m[g].item()
         if m_actual > 0:
-            ref_d[g, :m_actual, :] = a_cpu[g, :m_actual, :] @ b_cpu[g].T
-    ref_d = ref_d.to(torch_out_dtype).to(device)
+            ref_d[g, :m_actual, :] = a_f32[g, :m_actual, :] @ b_f32[g].T
+    ref_d = ref_d.to(torch_out_dtype)
 
     # Quantize to FP8
     a_fp8, scale_a = quantize_a_masked_to_fp8(a_f32, scale_block_k)
@@ -239,9 +241,12 @@ def _as_i8(t: torch.Tensor) -> torch.Tensor:
     pytest.param("bf16", id="bf16"),
     pytest.param("f16", id="f16"),
 ])
-def test_masked_grouped_fp8_gemm_correctness(num_groups, max_m, expected_m, n, k, out_dtype,
-                                             tile_m=128, tile_n=128, tile_k=128):
-    """Test masked grouped FP8 GEMM correctness against PyTorch reference."""
+def test_masked_grouped_fp8_gemm(num_groups, max_m, expected_m, n, k, out_dtype,
+                                 *, tile_m=128, tile_n=128, tile_k=128,
+                                 bench_iters=20, bench_warmup=3):
+    """Verify masked grouped FP8 GEMM correctness against a PyTorch reference and
+    report throughput. Single function combining correctness + bench, matching
+    the convention of test_blockscale_preshuffle_gemm.py."""
     scale_block_k = 128
     scale_block_n = 128
 
@@ -269,13 +274,18 @@ def test_masked_grouped_fp8_gemm_correctness(num_groups, max_m, expected_m, n, k
     def launch_kernel(d, a, b, sa, sb, mask):
         launch_fn(d, a, b, sa, sb, mask, max_m, n, k, num_groups, stream)
 
-    launch_kernel(
+    bench_iters = max(2, int(bench_iters))
+    bench_warmup = int(bench_warmup)
+    _, us = run_perftest(
+        launch_kernel,
         d.contiguous().view(-1),
         _as_i8(a_fp8.contiguous().view(-1)),
         _as_i8(b_fp8.contiguous().view(-1)),
         scale_a.contiguous().view(-1),
         scale_b.contiguous().view(-1),
         masked_m.contiguous(),
+        num_iters=bench_iters,
+        num_warmup=bench_warmup,
     )
     torch.cuda.synchronize()
 
@@ -293,61 +303,10 @@ def launch_kernel(d, a, b, sa, sb, mask):
                            logits_diff_threshold=1e-3)
     assert passed, f"Correctness check failed for {msg}"
 
-
-@pytest.mark.parametrize(
-    "num_groups,max_m,expected_m,n,k",
-    [
-        pytest.param(8, 1024, 800, 1024, 1024, id="perf-8g-800m", marks=pytest.mark.large_shape),
-    ],
-)
-def test_masked_grouped_fp8_gemm_performance(num_groups, max_m, expected_m, n, k,
-                                             tile_m=128, tile_n=128, tile_k=128,
-                                             out_dtype="bf16",
-                                             num_iters=20, num_warmup=3):
-    """Benchmark masked grouped FP8 GEMM performance."""
-    scale_block_k = 128
-    scale_block_n = 128
-
-    # Generate inputs
-    a_fp8, scale_a, b_fp8, scale_b, masked_m, d, ref_d = generate_masked_grouped_gemm_inputs(
-        num_groups, max_m, expected_m, n, k, scale_block_k, scale_block_n, out_dtype=out_dtype,
-    )
-
-    # Compile kernel
-    launch_fn = compile_masked_grouped_fp8_gemm(
-        n=n,
-        k=k,
-        num_groups=num_groups,
-        tile_m=tile_m,
-        tile_n=tile_n,
-        tile_k=tile_k,
-        scale_block_k=scale_block_k,
-        scale_block_n=scale_block_n,
-        out_dtype=out_dtype,
-    )
-
-    stream = torch.cuda.current_stream()
-
-    def launch_kernel(d, a, b, sa, sb, mask):
-        launch_fn(d, a, b, sa, sb, mask, max_m, n, k, num_groups, stream)
-
-    _, us = run_perftest(
-        launch_kernel,
-        d.contiguous().view(-1),
-        _as_i8(a_fp8.contiguous().view(-1)),
-        _as_i8(b_fp8.contiguous().view(-1)),
-        scale_a.contiguous().view(-1),
-        scale_b.contiguous().view(-1),
-        masked_m.contiguous(),
-        num_iters=num_iters,
-        num_warmup=num_warmup,
-    )
-
-    # Compute effective FLOPs/BW based on ACTUAL valid tokens (as padding is mostly skipped)
+    # Effective FLOPs/BW based on ACTUAL valid tokens (padding mostly skipped by kernel).
     valid_m_sum = masked_m.sum().item()
     flops = 2 * valid_m_sum * n * k
     tflops = flops / (us / 1e6) / 1e12
-    
     bytes_a = valid_m_sum * k  # FP8
     bytes_b = num_groups * n * k  # FP8
     bytes_d = valid_m_sum * n * 2  # BF16
@@ -376,7 +335,6 @@ def launch_kernel(d, a, b, sa, sb, mask):
     parser.add_argument("--tile_n", type=int, default=128)
     parser.add_argument("--tile_k", type=int, default=128)
     parser.add_argument("--out_dtype", type=str, default="bf16", choices=["bf16", "f16"])
-    parser.add_argument("--waves_per_eu", type=int, default=None)
     parser.add_argument("--num_iters", type=int, default=100)
     parser.add_argument("--num_warmup", type=int, default=5)
     args = parser.parse_args()
@@ -386,11 +344,8 @@ def launch_kernel(d, a, b, sa, sb, mask):
     m_list = [args.expected_m] if args.expected_m > 0 else [128, 256, 384]
 
     for expected_m in m_list:
-        test_masked_grouped_fp8_gemm_correctness(args.num_groups, args.max_m, expected_m, args.N, args.K,
-                                                 out_dtype=args.out_dtype,
-                                                 tile_m=args.tile_m, tile_n=args.tile_n,
-                                                 tile_k=args.tile_k)
-        test_masked_grouped_fp8_gemm_performance(args.num_groups, args.max_m, expected_m, args.N, args.K,
-                                                 tile_m=args.tile_m, tile_n=args.tile_n,
-                                                 tile_k=args.tile_k, out_dtype=args.out_dtype,
-                                                 num_iters=args.num_iters, num_warmup=args.num_warmup)
\ No newline at end of file
+        test_masked_grouped_fp8_gemm(args.num_groups, args.max_m, expected_m, args.N, args.K,
+                                     out_dtype=args.out_dtype,
+                                     tile_m=args.tile_m, tile_n=args.tile_n,
+                                     tile_k=args.tile_k,
+                                     bench_iters=args.num_iters, bench_warmup=args.num_warmup)
\ No newline at end of file

From 06d7697a5f13cc1d3faf9294f4393126a9a9e999 Mon Sep 17 00:00:00 2001
From: Aryaman Gupta <aryaman.gupta@amd.com>
Date: Thu, 23 Apr 2026 21:26:59 +0000
Subject: [PATCH 37/39] group gemm: clean up dead code and stale comments
 before PR

- Remove unused `import os` from both kernel files.
- Remove orphan `# Helper: compute one K-tile from LDS + B tile` banner
  from both kernels (the function it labeled was renamed/refactored).
- Remove duplicate `c_scale_k = fx.Index(scale_k)` reassignment in the
  masked kernel (already in scope from the earlier definition).
- Drop the drift-prone "Optimizations applied:" lists from kernel
  module docstrings; correct the now-stale `scale_a` / `scale_b` dtype
  to reflect uint8 on gfx950 / FP32 on gfx942.
- Simplify the "Per-group matmul" comment in both test files; drop the
  specific backend (hipBLASLt) claim.
- Add missing `device`, `scale_block_k`, `scale_block_n` entries to the
  masked test's `generate_*_inputs` Args docstring.

Co-Authored-By: Claude Opus 4 (1M context) <noreply@anthropic.com>
---
 kernels/grouped_gemm_blockscale_contiguous.py   | 15 ++++-----------
 kernels/grouped_gemm_blockscale_masked.py       | 17 ++++-------------
 .../test_grouped_gemm_blockscale_contiguous.py  |  2 +-
 .../test_grouped_gemm_blockscale_masked.py      |  5 ++++-
 4 files changed, 13 insertions(+), 26 deletions(-)

diff --git a/kernels/grouped_gemm_blockscale_contiguous.py b/kernels/grouped_gemm_blockscale_contiguous.py
index 940a7e22c..49a109328 100644
--- a/kernels/grouped_gemm_blockscale_contiguous.py
+++ b/kernels/grouped_gemm_blockscale_contiguous.py
@@ -5,26 +5,20 @@
 
 API matching DeepGEMM's m_grouped_fp8_gemm_nt_contiguous:
   - A: [M_total, K] FP8 - concatenated rows from all groups
-  - scale_a: [scale_k, M_total] FP32 - per-token, per-128K scales (transposed)
+  - scale_a: [scale_k, M_total] - per-token, per-128K scales (transposed).
+    uint8 (E8M0) on gfx950 (HW scaling); FP32 on gfx942 (SW scaling).
   - B: [num_groups, N, K] FP8 - one weight matrix per group
-  - scale_b: [num_groups, scale_n, scale_k] FP32 - per-block scales
+  - scale_b: [num_groups, scale_n, scale_k] - per-block scales.
+    uint8 (E8M0) on gfx950; FP32 on gfx942.
   - D: [M_total, N] BF16 - output
   - grouped_layout: [M_total] INT32 - maps each row to group ID (-1 for padding)
 
 Block scaling granularity (matching DeepGEMM):
   - A: (1, 128) - per-token, per-128-K-elements
   - B: (128, 128) - per-128-N, per-128-K block
-
-Optimizations applied:
-  - LDS ping-pong double buffering for A tiles
-  - XOR swizzle for LDS bank conflict avoidance
-  - Preshuffle B layout with load_b_pack_k32
-  - A0 LDS prefetch (cross-tile, hides LDS read latency behind VMEM)
-  - CShuffle epilogue with vectorized stores
 """
 
 import functools
-import os
 
 import flydsl.compiler as flyc
 import flydsl.expr as fx
@@ -404,7 +398,6 @@ def hot_loop_scheduler():
                 rocdl.sched_group_barrier(rocdl.mask_dswr, num_a_loads, 3)
                 rocdl.sched_barrier(0)
 
-            # ── Helper: compute one K-tile from LDS + B tile ────────────
             # ── Helper: prefetch E8M0 scales for one K-tile (gfx950 HW path) ──
             # Returns (sa_e8m0_pf, sb_e8m0_pf) — outer index = sb (sb_per_tile),
             # inner = m_repeat / num_acc_n. Issued ahead of compute_tile so
diff --git a/kernels/grouped_gemm_blockscale_masked.py b/kernels/grouped_gemm_blockscale_masked.py
index 0c77910a9..bf044f436 100644
--- a/kernels/grouped_gemm_blockscale_masked.py
+++ b/kernels/grouped_gemm_blockscale_masked.py
@@ -5,9 +5,11 @@
 
 API matching DeepGEMM's m_grouped_fp8_gemm_nt_masked:
   - A: [G, expected_m, K] FP8 - padded activation tensor per group
-  - scale_a: [G, scale_k, expected_m] FP32 - per-token, per-128K scales (transposed)
+  - scale_a: [G, scale_k, expected_m] - per-token, per-128K scales (transposed).
+    uint8 (E8M0) on gfx950 (HW scaling); FP32 on gfx942 (SW scaling).
   - B: [G, N, K] FP8 - one weight matrix per group
-  - scale_b: [G, scale_n, scale_k] FP32 - per-block scales
+  - scale_b: [G, scale_n, scale_k] - per-block scales.
+    uint8 (E8M0) on gfx950; FP32 on gfx942.
   - D: [G, expected_m, N] BF16 - padded output tensor per group
   - masked_m: [G] INT32 - tracks the actual number of valid tokens per group
   - expected_m: INT32 - the padded capacity (max_m) for the M dimension
@@ -15,18 +17,9 @@
 Block scaling granularity (matching DeepGEMM's 1D2D configuration):
   - A: (1, 128) - per-token, per-128-K-elements
   - B: (128, 128) - per-128-N, per-128-K block
-
-Optimizations applied:
-  - LDS ping-pong double buffering for A tiles
-  - XOR swizzle for LDS bank conflict avoidance
-  - Preshuffle B layout with load_b_pack_k32
-  - A0 LDS prefetch (cross-tile, hides LDS read latency behind VMEM)
-  - CShuffle epilogue with vectorized stores
-  - Dynamic block-level early exit using masked_m to skip computing padded garbage
 """
 
 import functools
-import os
 
 import flydsl.compiler as flyc
 import flydsl.expr as fx
@@ -409,8 +402,6 @@ def hot_loop_scheduler():
                 rocdl.sched_group_barrier(rocdl.mask_dswr, num_a_loads, 3)
                 rocdl.sched_barrier(0)
 
-            # ── Helper: compute one K-tile from LDS + B tile ────────────
-            c_scale_k = fx.Index(scale_k)
             sa_group_off = group_idx * c_scale_k * m_in  # 3D scale_a Offset
 
             # ── Helper: prefetch E8M0 scales for one K-tile (gfx950 HW path) ──
diff --git a/tests/kernels/test_grouped_gemm_blockscale_contiguous.py b/tests/kernels/test_grouped_gemm_blockscale_contiguous.py
index fbcccb59e..0a2791699 100644
--- a/tests/kernels/test_grouped_gemm_blockscale_contiguous.py
+++ b/tests/kernels/test_grouped_gemm_blockscale_contiguous.py
@@ -219,7 +219,7 @@ def generate_grouped_gemm_inputs(
 
     # Reference output from original FP32 data BEFORE quantization
     # (matching DeepGEMM test convention: ref absorbs all quantization + scale errors)
-    # Per-group matmul on GPU via hipBLASLt (much faster than CPU for large K).
+    # Per-group matmul.
     ref_d = torch.zeros(M, n, dtype=torch.float32, device=device)
     for g in range(num_groups):
         mask = grouped_layout == g
diff --git a/tests/kernels/test_grouped_gemm_blockscale_masked.py b/tests/kernels/test_grouped_gemm_blockscale_masked.py
index 47d0a8655..1318be44c 100644
--- a/tests/kernels/test_grouped_gemm_blockscale_masked.py
+++ b/tests/kernels/test_grouped_gemm_blockscale_masked.py
@@ -175,7 +175,10 @@ def generate_masked_grouped_gemm_inputs(
         expected_m_per_group: Average actual M rows per group
         n: N dimension
         k: K dimension
+        scale_block_k: K-dimension scale block size
+        scale_block_n: N-dimension scale block size
         out_dtype: Output data type ("bf16" or "f16")
+        device: Device to create tensors on
 
     Returns:
         Tuple of (a_fp8, scale_a, b_shuffled, scale_b, masked_m, d, ref_d)
@@ -195,7 +198,7 @@ def generate_masked_grouped_gemm_inputs(
 
     # Reference output from original FP32 data BEFORE quantization
     # (matching DeepGEMM test convention: ref absorbs all quantization + scale errors)
-    # Per-group matmul on GPU via hipBLASLt (much faster than CPU for large K).
+    # Per-group matmul.
     ref_d = torch.zeros(num_groups, max_m, n, dtype=torch.float32, device=device)
     for g in range(num_groups):
         m_actual = masked_m[g].item()

From 7cb07951e6b660732ee4e245879a337b17f17d7b Mon Sep 17 00:00:00 2001
From: Aryaman Gupta <aryaman.gupta@amd.com>
Date: Thu, 23 Apr 2026 22:05:06 +0000
Subject: [PATCH 38/39] group gemm: rename compile entry points to match file
 names
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

- compile_grouped_fp8_gemm           -> compile_grouped_gemm_blockscale_contiguous
- compile_masked_grouped_fp8_gemm    -> compile_grouped_gemm_blockscale_masked

The new names mirror the file names exactly (drop "fp8_gemm",
incorporate "blockscale" + the contiguous/masked variant), making
the call site self-documenting. Internal kernel/launcher symbols and
the JIT cache-key strings are renamed in lockstep. Test imports and
call sites updated. DeepGEMM op references in the docstrings
(`m_grouped_fp8_gemm_nt_contiguous` / `..._masked`) are unchanged —
those are DeepGEMM's actual symbol names.

Co-Authored-By: Claude Opus 4 (1M context) <noreply@anthropic.com>
---
 kernels/grouped_gemm_blockscale_contiguous.py        | 12 ++++++------
 kernels/grouped_gemm_blockscale_masked.py            | 12 ++++++------
 .../test_grouped_gemm_blockscale_contiguous.py       |  4 ++--
 tests/kernels/test_grouped_gemm_blockscale_masked.py |  4 ++--
 4 files changed, 16 insertions(+), 16 deletions(-)

diff --git a/kernels/grouped_gemm_blockscale_contiguous.py b/kernels/grouped_gemm_blockscale_contiguous.py
index 49a109328..b91642a97 100644
--- a/kernels/grouped_gemm_blockscale_contiguous.py
+++ b/kernels/grouped_gemm_blockscale_contiguous.py
@@ -46,7 +46,7 @@
 
 
 @functools.lru_cache(maxsize=128)
-def compile_grouped_fp8_gemm(
+def compile_grouped_gemm_blockscale_contiguous(
     *,
     n: int,
     k: int,
@@ -116,7 +116,7 @@ def compile_grouped_fp8_gemm(
 
     # Module name for caching
     module_name = (
-        f"grouped_fp8_gemm_{out_dtype}"
+        f"grouped_gemm_blockscale_contiguous_{out_dtype}"
         f"_n{n}_k{k}_g{num_groups}"
         f"_t{tile_m}x{tile_n}x{tile_k}"
         f"_pingpong"
@@ -132,7 +132,7 @@ def compile_grouped_fp8_gemm(
     num_a_loads = bytes_per_thread_a // a_load_bytes
 
     @flyc.kernel(name=module_name)
-    def grouped_fp8_gemm_kernel(
+    def grouped_gemm_blockscale_contiguous_kernel(
         arg_d: fx.Tensor,
         arg_a: fx.Tensor,
         arg_b: fx.Tensor,
@@ -644,7 +644,7 @@ def store_pair(*, row_local, row, row_ctx, col_pair0, col_g0, frag):
 
     # ===== JIT Launcher =====
     @flyc.jit
-    def launch_grouped_fp8_gemm(
+    def launch_grouped_gemm_blockscale_contiguous(
         arg_d: fx.Tensor,
         arg_a: fx.Tensor,
         arg_b: fx.Tensor,
@@ -668,7 +668,7 @@ def launch_grouped_fp8_gemm(
         gx = n_in // fx.Index(tile_n)  # N-blocks
         gy = (m_in + fx.Index(tile_m - 1)) // fx.Index(tile_m)  # M-blocks (ceil)
 
-        launcher = grouped_fp8_gemm_kernel(
+        launcher = grouped_gemm_blockscale_contiguous_kernel(
             arg_d,
             arg_a,
             arg_b,
@@ -688,4 +688,4 @@ def launch_grouped_fp8_gemm(
                         op.attributes["rocdl.waves_per_eu"] = ir.IntegerAttr.get(T.i32, _wpe)
         launcher.launch(grid=(gx, gy, 1), block=(total_threads, 1, 1), stream=stream)
 
-    return launch_grouped_fp8_gemm
+    return launch_grouped_gemm_blockscale_contiguous
diff --git a/kernels/grouped_gemm_blockscale_masked.py b/kernels/grouped_gemm_blockscale_masked.py
index bf044f436..ec759d040 100644
--- a/kernels/grouped_gemm_blockscale_masked.py
+++ b/kernels/grouped_gemm_blockscale_masked.py
@@ -47,7 +47,7 @@
 
 
 @functools.lru_cache(maxsize=128)
-def compile_masked_grouped_fp8_gemm(
+def compile_grouped_gemm_blockscale_masked(
     *,
     n: int,
     k: int,
@@ -117,7 +117,7 @@ def compile_masked_grouped_fp8_gemm(
 
     # Module name for caching
     module_name = (
-        f"masked_grouped_fp8_gemm_{out_dtype}"
+        f"grouped_gemm_blockscale_masked_{out_dtype}"
         f"_n{n}_k{k}_g{num_groups}"
         f"_t{tile_m}x{tile_n}x{tile_k}"
         f"_pingpong"
@@ -133,7 +133,7 @@ def compile_masked_grouped_fp8_gemm(
     num_a_loads = bytes_per_thread_a // a_load_bytes
 
     @flyc.kernel(name=module_name)
-    def masked_grouped_fp8_gemm_kernel(
+    def grouped_gemm_blockscale_masked_kernel(
         arg_d: fx.Tensor,
         arg_a: fx.Tensor,
         arg_b: fx.Tensor,
@@ -647,7 +647,7 @@ def store_pair(*, row_local, row, row_ctx, col_pair0, col_g0, frag):
 
     # ===== JIT Launcher =====
     @flyc.jit
-    def launch_masked_grouped_fp8_gemm(
+    def launch_grouped_gemm_blockscale_masked(
         arg_d: fx.Tensor,
         arg_a: fx.Tensor,
         arg_b: fx.Tensor,
@@ -674,7 +674,7 @@ def launch_masked_grouped_fp8_gemm(
         gy = (max_m_in + fx.Index(tile_m - 1)) // fx.Index(tile_m)  # M-blocks (ceil)
         gz = num_groups_in
 
-        launcher = masked_grouped_fp8_gemm_kernel(
+        launcher = grouped_gemm_blockscale_masked_kernel(
             arg_d,
             arg_a,
             arg_b,
@@ -694,4 +694,4 @@ def launch_masked_grouped_fp8_gemm(
                         op.attributes["rocdl.waves_per_eu"] = ir.IntegerAttr.get(T.i32, _wpe)
         launcher.launch(grid=(gx, gy, gz), block=(total_threads, 1, 1), stream=stream)
 
-    return launch_masked_grouped_fp8_gemm
\ No newline at end of file
+    return launch_grouped_gemm_blockscale_masked
\ No newline at end of file
diff --git a/tests/kernels/test_grouped_gemm_blockscale_contiguous.py b/tests/kernels/test_grouped_gemm_blockscale_contiguous.py
index 0a2791699..8226f0f31 100644
--- a/tests/kernels/test_grouped_gemm_blockscale_contiguous.py
+++ b/tests/kernels/test_grouped_gemm_blockscale_contiguous.py
@@ -27,7 +27,7 @@
     if os.path.isdir(_p) and _p not in sys.path:
         sys.path.insert(0, _p)
 
-from kernels.grouped_gemm_blockscale_contiguous import compile_grouped_fp8_gemm
+from kernels.grouped_gemm_blockscale_contiguous import compile_grouped_gemm_blockscale_contiguous
 from flydsl.runtime.device import get_rocm_arch
 from tests.test_common import run_perftest, verify_output
 from tests.utils import shuffle_weight
@@ -281,7 +281,7 @@ def test_grouped_fp8_gemm(num_groups, m_per_group, n, k, out_dtype,
     )
 
     # Compile kernel
-    launch_fn = compile_grouped_fp8_gemm(
+    launch_fn = compile_grouped_gemm_blockscale_contiguous(
         n=n,
         k=k,
         num_groups=num_groups,
diff --git a/tests/kernels/test_grouped_gemm_blockscale_masked.py b/tests/kernels/test_grouped_gemm_blockscale_masked.py
index 1318be44c..42174f688 100644
--- a/tests/kernels/test_grouped_gemm_blockscale_masked.py
+++ b/tests/kernels/test_grouped_gemm_blockscale_masked.py
@@ -27,7 +27,7 @@
     if os.path.isdir(_p) and _p not in sys.path:
         sys.path.insert(0, _p)
 
-from kernels.grouped_gemm_blockscale_masked import compile_masked_grouped_fp8_gemm
+from kernels.grouped_gemm_blockscale_masked import compile_grouped_gemm_blockscale_masked
 from flydsl.runtime.device import get_rocm_arch
 from tests.test_common import run_perftest, verify_output
 from tests.utils import shuffle_weight
@@ -259,7 +259,7 @@ def test_masked_grouped_fp8_gemm(num_groups, max_m, expected_m, n, k, out_dtype,
     )
 
     # Compile kernel
-    launch_fn = compile_masked_grouped_fp8_gemm(
+    launch_fn = compile_grouped_gemm_blockscale_masked(
         n=n,
         k=k,
         num_groups=num_groups,

From f58db56f110553294d10ffeed2c58c5b4d1e70bf Mon Sep 17 00:00:00 2001
From: Aryaman Gupta <aryaman.gupta@amd.com>
Date: Fri, 24 Apr 2026 10:32:34 +0000
Subject: [PATCH 39/39] group gemm tests: tidies up comments

---
 ...test_grouped_gemm_blockscale_contiguous.py | 22 +++++++++----------
 .../test_grouped_gemm_blockscale_masked.py    | 13 +++++------
 2 files changed, 16 insertions(+), 19 deletions(-)

diff --git a/tests/kernels/test_grouped_gemm_blockscale_contiguous.py b/tests/kernels/test_grouped_gemm_blockscale_contiguous.py
index 8226f0f31..060698563 100644
--- a/tests/kernels/test_grouped_gemm_blockscale_contiguous.py
+++ b/tests/kernels/test_grouped_gemm_blockscale_contiguous.py
@@ -55,9 +55,9 @@ def align(x: int, y: int) -> int:
 def fp32_to_e8m0(scale: torch.Tensor) -> torch.Tensor:
     """Round FP32 scale UP to E8M0 precision (ceiling on exponent).
 
-    Matches DeepGEMM's ceil_to_ue8m0 (deep_gemm/utils/math.py). Rounding up is
-    required so that x / scale_e8m0 <= fp8_max — truncation would shrink the
-    scale, causing FP8 saturation and a systematic bias on every block.
+    Rounding up is required so that x / scale_e8m0 <= fp8_max — truncation
+    would shrink the scale, causing FP8 saturation and a systematic bias on
+    every block.
     """
     bits = scale.abs().float().view(torch.int32)
     exp = ((bits >> 23) & 0xFF) + (bits & 0x7FFFFF).bool().int()
@@ -109,7 +109,7 @@ def quantize_to_fp8(x: torch.Tensor, scale_block_k: int = 128) -> tuple[torch.Te
     if USE_UE8M0:
         scale = fp32_e8m0_to_byte(scale)
 
-    # Transpose scale to [scale_k, M] to match DeepGEMM layout
+    # Transpose scale to [scale_k, M] to match the kernel's expected layout
     scale = scale.T.contiguous()
 
     return x_fp8, scale
@@ -169,8 +169,7 @@ def generate_grouped_gemm_inputs(
     """Generate test inputs for grouped GEMM.
 
     Generates variable actual group sizes (unaligned), pads each group to
-    128-row alignment, and marks padding rows with -1 in grouped_layout
-    (matching DeepGEMM's contiguous layout convention).
+    128-row alignment, and marks padding rows with -1 in grouped_layout.
 
     Args:
         num_groups: Number of groups
@@ -185,7 +184,7 @@ def generate_grouped_gemm_inputs(
     Returns:
         Tuple of (a_fp8, scale_a, b_shuffled, scale_b, grouped_layout, d, ref_d, M)
     """
-    alignment = 128  # DeepGEMM's get_mk_alignment_for_contiguous_layout() = 128
+    alignment = 128  # M-row alignment for contiguous layout
     torch_out_dtype = torch.bfloat16 if out_dtype == "bf16" else torch.float16
 
     # Generate variable actual group sizes, then align
@@ -211,14 +210,14 @@ def generate_grouped_gemm_inputs(
     a_f32 = torch.randn(M, k, device=device, dtype=torch.float32)
     b_f32 = torch.randn(num_groups, n, k, device=device, dtype=torch.float32)
 
-    # Zero out padding rows in A (matching DeepGEMM convention)
+    # Zero out padding rows in A
     start = 0
     for m_actual, m_aligned in zip(actual_ms, aligned_ms):
         a_f32[start + m_actual : start + m_aligned] = 0
         start += m_aligned
 
     # Reference output from original FP32 data BEFORE quantization
-    # (matching DeepGEMM test convention: ref absorbs all quantization + scale errors)
+    # (ref absorbs all quantization + scale errors).
     # Per-group matmul.
     ref_d = torch.zeros(M, n, dtype=torch.float32, device=device)
     for g in range(num_groups):
@@ -257,9 +256,8 @@ def _as_i8(t: torch.Tensor) -> torch.Tensor:
         pytest.param(4, 200, 256, 256, id="4g-200m-unaligned"),
         # Larger shapes
         pytest.param(8, 256, 512, 512, id="8g-256m-512n-512k", marks=pytest.mark.large_shape),
-        # DeepSeek-V3 shapes
-        pytest.param(8, 256, 2048, 7168, id="DS-8g-2048x7168", marks=pytest.mark.large_shape),
-        pytest.param(8, 256, 7168, 2304, id="DS-8g-7168x2304", marks=pytest.mark.large_shape),
+        pytest.param(8, 256, 2048, 7168, id="8g-2048x7168-large", marks=pytest.mark.large_shape),
+        pytest.param(8, 256, 7168, 2304, id="8g-7168x2304-large", marks=pytest.mark.large_shape),
     ],
 )
 @pytest.mark.parametrize("out_dtype", [
diff --git a/tests/kernels/test_grouped_gemm_blockscale_masked.py b/tests/kernels/test_grouped_gemm_blockscale_masked.py
index 42174f688..a01db194b 100644
--- a/tests/kernels/test_grouped_gemm_blockscale_masked.py
+++ b/tests/kernels/test_grouped_gemm_blockscale_masked.py
@@ -55,9 +55,9 @@ def align(x: int, y: int) -> int:
 def fp32_to_e8m0(scale: torch.Tensor) -> torch.Tensor:
     """Round FP32 scale UP to E8M0 precision (ceiling on exponent).
 
-    Matches DeepGEMM's ceil_to_ue8m0 (deep_gemm/utils/math.py). Rounding up is
-    required so that x / scale_e8m0 <= fp8_max — truncation would shrink the
-    scale, causing FP8 saturation and a systematic bias on every block.
+    Rounding up is required so that x / scale_e8m0 <= fp8_max — truncation
+    would shrink the scale, causing FP8 saturation and a systematic bias on
+    every block.
     """
     bits = scale.abs().float().view(torch.int32)
     exp = ((bits >> 23) & 0xFF) + (bits & 0x7FFFFF).bool().int()
@@ -197,7 +197,7 @@ def generate_masked_grouped_gemm_inputs(
     b_f32 = torch.randn(num_groups, n, k, device=device, dtype=torch.float32)
 
     # Reference output from original FP32 data BEFORE quantization
-    # (matching DeepGEMM test convention: ref absorbs all quantization + scale errors)
+    # (ref absorbs all quantization + scale errors).
     # Per-group matmul.
     ref_d = torch.zeros(num_groups, max_m, n, dtype=torch.float32, device=device)
     for g in range(num_groups):
@@ -235,9 +235,8 @@ def _as_i8(t: torch.Tensor) -> torch.Tensor:
         pytest.param(4, 512, 50, 128, 128, id="4g-512max-50m-sparse"),
         # Larger shapes
         pytest.param(8, 1024, 800, 512, 512, id="8g-1024max-800m", marks=pytest.mark.large_shape),
-        # DeepSeek-V3 shapes
-        pytest.param(8, 512, 300, 2048, 7168, id="DS-8g-2048x7168", marks=pytest.mark.large_shape),
-        pytest.param(8, 512, 300, 7168, 2304, id="DS-8g-7168x2304", marks=pytest.mark.large_shape),
+        pytest.param(8, 512, 300, 2048, 7168, id="8g-2048x7168-large", marks=pytest.mark.large_shape),
+        pytest.param(8, 512, 300, 7168, 2304, id="8g-7168x2304-large", marks=pytest.mark.large_shape),
     ],
 )
 @pytest.mark.parametrize("out_dtype", [