From 8052e680f74900337aa912518f14fb9f8b7a00a8 Mon Sep 17 00:00:00 2001
From: seungrokj <seungrok.jung@amd.com>
Date: Fri, 19 Jun 2026 17:02:53 +0900
Subject: [PATCH 01/33] [AMD] server_atom: improve config print and cleanup

- Replace individual echo lines with cat <<INFO heredoc showing
  EP/DP flags, KV cache settings alongside TP/port info
- Minor cleanup in parallel args setup

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 .github/configs/amd-master.yaml               | 90 +++++++++++++++++++
 .../multi_node/amd_utils/server_atom.sh       | 79 +++++++++-------
 .../multi_node/dsv4_fp4_mi355x_atom-disagg.sh |  1 +
 3 files changed, 138 insertions(+), 32 deletions(-)
diff --git a/.github/configs/amd-master.yaml b/.github/configs/amd-master.yaml
index 04df9e3a5..3d1289718 100644
--- a/.github/configs/amd-master.yaml
+++ b/.github/configs/amd-master.yaml
@@ -2521,6 +2521,96 @@ dsv4-fp4-mi355x-atom-disagg:
           additional-settings:
           - "DECODE_NODES=1"
 
+dsv4-fp4-mi355x-atom-disagg-mtp:
+  image: rocm/atom-dev:nightly_202606181332
+  model: deepseek-ai/DeepSeek-V4-Pro
+  model-prefix: dsv4
+  runner: mi355x
+  precision: fp4
+  framework: atom-disagg
+  multinode: true
+  disagg: true
+  scenarios:
+    fixed-seq-len:
+    - isl: 8192
+      osl: 1024
+      search-space:
+      # 2P1D TP8+DPA+TBO+MTP1
+      - spec-decoding: "mtp"
+        conc-list: [ 256, 512, 768, 1024, 2048 ]
+        prefill:
+          num-worker: 2
+          tp: 8
+          ep: 1
+          dp-attn: true
+          additional-settings:
+          - "PREFILL_NODES=2"
+        decode:
+          num-worker: 1
+          tp: 8
+          ep: 1
+          dp-attn: true
+          additional-settings:
+          - "DECODE_NODES=1"
+          - "DECODE_MTP_SIZE=1"
+      # 1P1D TP8+MTP3 
+      - spec-decoding: "mtp"
+        conc-list: [ 4, 8, 16, 32, 64, 128 ]
+        prefill:
+          num-worker: 1
+          tp: 8
+          ep: 1
+          dp-attn: false
+          additional-settings:
+          - "PREFILL_NODES=1"
+        decode:
+          num-worker: 1
+          tp: 8
+          ep: 1
+          dp-attn: false
+          additional-settings:
+          - "DECODE_NODES=1"
+          - "DECODE_MTP_SIZE=3"
+      # 1P1D TP8+DPA+MTP1 
+    - isl: 1024
+      osl: 1024
+      search-space:
+      - spec-decoding: "mtp"
+        conc-list: [ 64, 128, 256, 512, 1024 ]
+        prefill:
+          num-worker: 1
+          tp: 8
+          ep: 1
+          dp-attn: true
+          additional-settings:
+          - "PREFILL_NODES=1"
+        decode:
+          num-worker: 1
+          tp: 8
+          ep: 1
+          dp-attn: true
+          additional-settings:
+          - "DECODE_NODES=1"
+          - "DECODE_MTP_SIZE=1"
+      # 1P1D TP8+MTP3 
+      - spec-decoding: "mtp"
+        conc-list: [ 1, 2, 4, 8, 16, 32, 64, 128, 256 ]
+        prefill:
+          num-worker: 1
+          tp: 8
+          ep: 1
+          dp-attn: false
+          additional-settings:
+          - "PREFILL_NODES=1"
+        decode:
+          num-worker: 1
+          tp: 8
+          ep: 1
+          dp-attn: false
+          additional-settings:
+          - "DECODE_NODES=1"
+          - "DECODE_MTP_SIZE=3"
+
 # MiniMax-M3 MXFP8 MI355X recipe:
 # https://github.com/vllm-project/recipes/commit/2a3728ed9892debfd767a72a58ebc90b33f186e5
 # MXFP8 runs from TP=4 on gfx950; block size 128 is mandatory for MSA.
diff --git a/benchmarks/multi_node/amd_utils/server_atom.sh b/benchmarks/multi_node/amd_utils/server_atom.sh
index 957c84d60..823eb99c1 100644
--- a/benchmarks/multi_node/amd_utils/server_atom.sh
+++ b/benchmarks/multi_node/amd_utils/server_atom.sh
@@ -35,6 +35,10 @@ DECODE_TP_SIZE="${DECODE_TP_SIZE:-8}"
 DECODE_ENABLE_EP="${DECODE_ENABLE_EP}"
 DECODE_ENABLE_DP="${DECODE_ENABLE_DP}"
 
+# MTP
+SPEC_DECODING="${SPEC_DECODING:-}"
+DECODE_MTP_SIZE="${DECODE_MTP_SIZE:-1}"
+
 # ATOM server ports (different from SGLang which uses 8000 for all)
 PREFILL_PORT="${PREFILL_PORT:-8010}"
 DECODE_PORT="${DECODE_PORT:-8020}"
@@ -42,7 +46,7 @@ ROUTER_PORT="${ROUTER_PORT:-8000}"
 HANDSHAKE_PORT="${HANDSHAKE_PORT:-6301}"
 
 # ATOM server tuning (from reference script defaults)
-MEM_FRACTION="${MEM_FRACTION:-0.85}"
+MEM_FRAC_STATIC="${MEM_FRAC_STATIC:-0.85}"
 KV_CACHE_DTYPE="${KV_CACHE_DTYPE:-fp8}"
 BLOCK_SIZE="${BLOCK_SIZE:-16}"
 MAX_NUM_SEQS="${MAX_NUM_SEQS:-256}"
@@ -100,20 +104,20 @@ for i in $(seq 0 $((yD - 1))); do
     DECODE_ARGS="$DECODE_ARGS --decode http://${IP_ARRAY[$idx]}:${DECODE_PORT}"
 done
 
-echo "Prefill IPs : ${PREFILL_IPS[*]}"
-echo "Decode  IPs : ${DECODE_IPS[*]}"
-
 PREFILL_ENABLE_EP="${PREFILL_ENABLE_EP}"
 PREFILL_ENABLE_DP="${PREFILL_ENABLE_DP}"
 DECODE_ENABLE_EP="${DECODE_ENABLE_EP}"
 DECODE_ENABLE_DP="${DECODE_ENABLE_DP}"
 
+# Parallel args
 PREFILL_PARALLEL_ARGS=(-tp "$PREFILL_TP_SIZE") #TP
 if [ "$PREFILL_ENABLE_DP" = "true" ]; then
     if [ "$PREFILL_ENABLE_EP" -gt 1 ]; then #DPA+EP
         PREFILL_PARALLEL_ARGS=(-tp "$PREFILL_TP_SIZE" --enable-expert-parallel --enable-dp-attention )
-    else #DPA+TP
-        PREFILL_PARALLEL_ARGS=(-tp "$PREFILL_TP_SIZE" --enable-dp-attention )
+    else #TP+DPA+TBO
+        PREFILL_PARALLEL_ARGS=(-tp "$PREFILL_TP_SIZE" --enable-dp-attention --enable-tbo)
+        export GPU_MAX_HW_QUEUES=5
+        export ATOM_CPU_AFFINITY=1
     fi
 fi 
 
@@ -121,13 +125,38 @@ DECODE_PARALLEL_ARGS=(-tp "$PREFILL_TP_SIZE") #TP
 if [ "$DECODE_ENABLE_DP" = "true" ]; then
     if [ "$DECODE_ENABLE_EP" -gt 1 ]; then #DPA+EP
         DECODE_PARALLEL_ARGS=(-tp "$DECODE_TP_SIZE" --enable-expert-parallel --enable-dp-attention )
-    else #DPA+TP
-        DECODE_PARALLEL_ARGS=(-tp "$DECODE_TP_SIZE" --enable-dp-attention )
+    else #TP+DPA+TBO
+        DECODE_PARALLEL_ARGS=(-tp "$DECODE_TP_SIZE" --enable-dp-attention --enable-tbo)
+        export GPU_MAX_HW_QUEUES=5
+        export ATOM_CPU_AFFINITY=1
     fi
 fi 
 
-echo "Prefill Parallel args : ${PREFILL_PARALLEL_ARGS[*]}"
-echo "Decode  Parallel args : ${DECODE_PARALLEL_ARGS[*]}"
+# MTP args
+SPEC_ARGS=() #TP
+if [ "$SPEC_DECODING" = "mtp" ]; then
+    SPEC_ARGS=(--method mtp --num-speculative-tokens "$DECODE_MTP_SIZE")
+fi
+
+# OPT args
+OPT_ARGS=(--hf-overrides '{"use_index_cache": true, "index_topk_freq": 4}')
+
+cat <<INFO
+=== Configuration ===
+PREFILL  : ${PREFILL_IPS[*]} (TP=${PREFILL_TP_SIZE}, EP=${PREFILL_ENABLE_EP:-false}, DP=${PREFILL_ENABLE_DP:-false}, port=${PREFILL_PORT})
+DECODE   : ${DECODE_IPS[*]}  (TP=${DECODE_TP_SIZE},  EP=${DECODE_ENABLE_EP:-false},  DP=${DECODE_ENABLE_DP:-false},  port=${DECODE_PORT})
+ROUTER   : port=${ROUTER_PORT}
+MODEL    : ${MODEL_NAME}
+BACKEND  : atom (PD mooncake KV transfer)
+MTP      : method=mtp num_speculative_tokens=${DECODE_MTP_SIZE}
+xP/yD    : ${xP} / ${yD}
+KV cache : dtype=${KV_CACHE_DTYPE} block_size=${BLOCK_SIZE} mem_frac=${MEM_FRAC_STATIC}
+Prefill args : ${PREFILL_PARALLEL_ARGS[*]}
+Decode  args : ${DECODE_PARALLEL_ARGS[*]}
+Spec    args : ${SPEC_ARGS[*]}
+Opt     args : ${OPT_ARGS[*]}
+=====================
+INFO
 
 # =============================================================================
 # Node Role Assignment
@@ -156,9 +185,10 @@ if [ "$NODE_RANK" -eq 0 ]; then
         "${PREFILL_PARALLEL_ARGS[@]}" \
         --kv_cache_dtype ${KV_CACHE_DTYPE} \
         --block-size ${BLOCK_SIZE} \
-        --gpu-memory-utilization ${MEM_FRACTION} \
+        --gpu-memory-utilization ${MEM_FRAC_STATIC} \
         --max-num-seqs ${MAX_NUM_SEQS} \
         --no-enable_prefix_caching \
+        "${OPT_ARGS[@]}" \
         --kv-transfer-config '{\"kv_role\":\"kv_producer\",\"kv_connector\":\"mooncake\",\"proxy_ip\":\"${host_ip}\",\"handshake_port\":${HANDSHAKE_PORT}}' \
         ${EXTRA_SERVER_ARGS}"
 
@@ -368,11 +398,13 @@ elif [ "$NODE_RANK" -gt 0 ] && [ "$NODE_RANK" -lt "$NODE_OFFSET" ]; then
         --host 0.0.0.0 --server-port ${PREFILL_PORT} \
         --trust-remote-code \
         "${PREFILL_PARALLEL_ARGS[@]}" \
+        "${SPEC_ARGS[@]}" \
         --kv_cache_dtype ${KV_CACHE_DTYPE} \
         --block-size ${BLOCK_SIZE} \
-        --gpu-memory-utilization ${MEM_FRACTION} \
+        --gpu-memory-utilization ${MEM_FRAC_STATIC} \
         --max-num-seqs ${MAX_NUM_SEQS} \
         --no-enable_prefix_caching \
+        "${OPT_ARGS[@]}" \
         --kv-transfer-config '{\"kv_role\":\"kv_producer\",\"kv_connector\":\"mooncake\",\"proxy_ip\":\"${host_ip}\",\"handshake_port\":${HANDSHAKE_PORT}}' \
         ${EXTRA_SERVER_ARGS}"
 
@@ -428,35 +460,18 @@ else
     RANK=$((NODE_RANK - NODE_OFFSET))
     echo "${host_name}:${host_ip} is Decode Node (rank ${RANK})"
 
-    _MAX_CONC=$(echo "$BENCH_MAX_CONCURRENCY" | tr 'x' '\n' | sort -n | tail -1)
-    if [[ "$_MAX_CONC" -gt 2048 ]]; then
-        CUDAGRAPH_SIZES='[1,2,4,8,12,16,20,24,28,32,36,40,44,48,52,56,60,64,68,72,76,80,84,88,92,96,100,104,108,112,116,120,124,128,132,136,140,144,148,152,156,160,164,168,172,176,180,184,188,192,196,200,204,208,212,216,220,224,228,232,236,240,244,248,252,256,512,1024,2048,4096]'
-    elif [[ "$_MAX_CONC" -gt 1024 ]]; then
-        CUDAGRAPH_SIZES='[1,2,4,8,12,16,20,24,28,32,36,40,44,48,52,56,60,64,68,72,76,80,84,88,92,96,100,104,108,112,116,120,124,128,132,136,140,144,148,152,156,160,164,168,172,176,180,184,188,192,196,200,204,208,212,216,220,224,228,232,236,240,244,248,252,256,512,1024,2048]'
-    elif [[ "$_MAX_CONC" -gt 512 ]]; then
-        CUDAGRAPH_SIZES='[1,2,4,8,12,16,20,24,28,32,36,40,44,48,52,56,60,64,68,72,76,80,84,88,92,96,100,104,108,112,116,120,124,128,132,136,140,144,148,152,156,160,164,168,172,176,180,184,188,192,196,200,204,208,212,216,220,224,228,232,236,240,244,248,252,256,512,768,1024]'
-    else
-        CUDAGRAPH_SIZES='[1,2,4,8,12,16,20,24,28,32,36,40,44,48,52,56,60,64,68,72,76,80,84,88,92,96,100,104,108,112,116,120,124,128,132,136,140,144,148,152,156,160,164,168,172,176,180,184,188,192,196,200,204,208,212,216,220,224,228,232,236,240,244,248,252,256,512]'
-    fi
-
-    if [[ "$BENCH_INPUT_LEN" == "1024" && "$BENCH_OUTPUT_LEN" == "1024" ]]; then
-        DECODE_MAX_NUM_SEQS="${_MAX_CONC}"
-    else
-        DECODE_MAX_NUM_SEQS="${MAX_NUM_SEQS}"
-    fi
-
     DECODE_CMD="python3 -m atom.entrypoints.openai_server \
         --model ${MODEL_DIR}/${MODEL_NAME} \
         --host 0.0.0.0 --server-port ${DECODE_PORT} \
         --trust-remote-code \
         "${DECODE_PARALLEL_ARGS[@]}" \
+        "${SPEC_ARGS[@]}" \
         --kv_cache_dtype ${KV_CACHE_DTYPE} \
         --block-size ${BLOCK_SIZE} \
-        --gpu-memory-utilization ${MEM_FRACTION} \
-        --max-num-seqs ${DECODE_MAX_NUM_SEQS} \
+        --gpu-memory-utilization ${MEM_FRAC_STATIC} \
         --no-enable_prefix_caching \
+        "${OPT_ARGS[@]}" \
         --kv-transfer-config '{\"kv_role\":\"kv_consumer\",\"kv_connector\":\"mooncake\",\"proxy_ip\":\"${host_ip}\",\"handshake_port\":${HANDSHAKE_PORT}}' \
-        --cudagraph-capture-sizes "${CUDAGRAPH_SIZES}" \
         ${EXTRA_SERVER_ARGS}"
 
     if [[ "$DRY_RUN" -eq 1 ]]; then
diff --git a/benchmarks/multi_node/dsv4_fp4_mi355x_atom-disagg.sh b/benchmarks/multi_node/dsv4_fp4_mi355x_atom-disagg.sh
index d17d1a323..4d527dae9 100644
--- a/benchmarks/multi_node/dsv4_fp4_mi355x_atom-disagg.sh
+++ b/benchmarks/multi_node/dsv4_fp4_mi355x_atom-disagg.sh
@@ -66,6 +66,7 @@ fi
 # by a list of numbers delimited by 'x'. This is because of how the underlying launch script
 # expects the concurrencies.
 JOB_ID=$(bash ./submit.sh $PREFILL_NODES \
+    $SPEC_DECODING \
     $PREFILL_NUM_WORKERS \
     $DECODE_NODES \
     $DECODE_NUM_WORKERS \

From 84b978f67e1574a9952c3fa8095abadd0b13b918 Mon Sep 17 00:00:00 2001
From: seungrokj <seungrok.jung@amd.com>
Date: Fri, 19 Jun 2026 17:04:42 +0900
Subject: [PATCH 02/33] update perf-changelog for
 dsv4-fp4-mi355x-atom-disagg-mtp

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 perf-changelog.yaml | 10 ++++++++++
 1 file changed, 10 insertions(+)

diff --git a/perf-changelog.yaml b/perf-changelog.yaml
index 12cb29600..a4463829a 100644
--- a/perf-changelog.yaml
+++ b/perf-changelog.yaml
@@ -1,3 +1,13 @@
+- config-keys:
+    - dsv4-fp4-mi355x-atom-disagg-mtp
+  description:
+    - "Add dsv4-fp4-mi355x-atom-disagg-mtp recipe: multi-node disaggregated PD on MI355X via ATOM with MTP speculative decoding"
+    - "2P1D DPA+TBO+MTP1 sweep at ISL8192 (conc 256-2048)"
+    - "1P1D TP8+MTP3 sweep at ISL8192 (conc 4-128)"
+    - "1P1D TP8+DPA+MTP1 sweep at ISL1024 (conc 64-1024)"
+    - "Image: rocm/atom-dev:nightly_202606181332"
+  pr-link: https://github.com/SemiAnalysisAI/InferenceX/pull/1855
+
 - config-keys:
     - 70b-fp8-*-vllm
   description:

From 5ce4151cd76ec6e4f374fdba52f781bc629c75c3 Mon Sep 17 00:00:00 2001
From: seungrokj <seungrok.jung@amd.com>
Date: Fri, 19 Jun 2026 17:22:32 +0900
Subject: [PATCH 03/33] [AMD] fix DECODE_MTP_SIZE and BENCH_REQUEST_RATE
 propagation in atom-disagg
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

- Export DECODE_MTP_SIZE and SPEC_DECODING in dsv4_fp4_mi355x_atom-disagg.sh
  so they reach server_atom.sh via submit.sh → job.slurm
- Add DECODE_MTP_SIZE to check_env_vars in dsv4_fp4_mi355x_atom-disagg.sh
- Pass BENCH_REQUEST_RATE into Docker container in job.slurm DOCKER_ENV_COMMON

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 benchmarks/multi_node/amd_utils/job.slurm            | 3 ++-
 benchmarks/multi_node/dsv4_fp4_mi355x_atom-disagg.sh | 5 ++++-
 2 files changed, 6 insertions(+), 2 deletions(-)

diff --git a/benchmarks/multi_node/amd_utils/job.slurm b/benchmarks/multi_node/amd_utils/job.slurm
index 01a5bd386..004768a89 100755
--- a/benchmarks/multi_node/amd_utils/job.slurm
+++ b/benchmarks/multi_node/amd_utils/job.slurm
@@ -363,6 +363,7 @@ DOCKER_ENV_COMMON=(
     -e BENCH_RANDOM_RANGE_RATIO=\$BENCH_RANDOM_RANGE_RATIO
     -e BENCH_NUM_PROMPTS_MULTIPLIER=\$BENCH_NUM_PROMPTS_MULTIPLIER
     -e BENCH_MAX_CONCURRENCY=\$BENCH_MAX_CONCURRENCY
+    -e BENCH_REQUEST_RATE=\$BENCH_REQUEST_RATE
     -e TQDM_MININTERVAL=\$TQDM_MININTERVAL
     -e DRY_RUN=\$DRY_RUN
     -e BENCHMARK_LOGS_DIR=/benchmark_logs
@@ -411,7 +412,7 @@ elif [[ "$ENGINE" == "atom-disagg" ]]; then
         -e DECODE_PORT=${DECODE_PORT:-8020}
         -e ROUTER_PORT=${ROUTER_PORT:-30000}
         -e HANDSHAKE_PORT=${HANDSHAKE_PORT:-6301}
-        -e MEM_FRACTION=${MEM_FRACTION:-0.85}
+        -e MEM_FRAC_STATIC=${MEM_FRAC_STATIC:-0.85}
         -e KV_CACHE_DTYPE=${KV_CACHE_DTYPE:-fp8}
         -e BLOCK_SIZE=${BLOCK_SIZE:-16}
         -e MAX_NUM_SEQS=${MAX_NUM_SEQS:-256}
diff --git a/benchmarks/multi_node/dsv4_fp4_mi355x_atom-disagg.sh b/benchmarks/multi_node/dsv4_fp4_mi355x_atom-disagg.sh
index 4d527dae9..4745eaa92 100644
--- a/benchmarks/multi_node/dsv4_fp4_mi355x_atom-disagg.sh
+++ b/benchmarks/multi_node/dsv4_fp4_mi355x_atom-disagg.sh
@@ -8,6 +8,7 @@ check_env_vars \
     OSL \
     IMAGE \
     SPEC_DECODING \
+    DECODE_MTP_SIZE \
     MODEL_PATH \
     PREFILL_NUM_WORKERS \
     PREFILL_TP \
@@ -61,12 +62,14 @@ else
 export DECODE_ENABLE_DP=false
 fi
 
+export SPEC_DECODING="${SPEC_DECODING}"
+export DECODE_MTP_SIZE="${DECODE_MTP_SIZE:-0}"
+
 # Launch jobs based on ISL/OSL
 # Replace ' ' in CONC_LIST with 'x' such that the concurrency list is represented
 # by a list of numbers delimited by 'x'. This is because of how the underlying launch script
 # expects the concurrencies.
 JOB_ID=$(bash ./submit.sh $PREFILL_NODES \
-    $SPEC_DECODING \
     $PREFILL_NUM_WORKERS \
     $DECODE_NODES \
     $DECODE_NUM_WORKERS \

From 1b64366235ddb319d961986dfc5d3ba282d41451 Mon Sep 17 00:00:00 2001
From: seungrokj <seungrok.jung@amd.com>
Date: Fri, 19 Jun 2026 17:23:37 +0900
Subject: [PATCH 04/33] [AMD] server_atom: pass SPEC_ARGS to prefill server

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 benchmarks/multi_node/amd_utils/server_atom.sh | 1 +
 1 file changed, 1 insertion(+)

diff --git a/benchmarks/multi_node/amd_utils/server_atom.sh b/benchmarks/multi_node/amd_utils/server_atom.sh
index 823eb99c1..d458a19f7 100644
--- a/benchmarks/multi_node/amd_utils/server_atom.sh
+++ b/benchmarks/multi_node/amd_utils/server_atom.sh
@@ -183,6 +183,7 @@ if [ "$NODE_RANK" -eq 0 ]; then
         --host 0.0.0.0 --server-port ${PREFILL_PORT} \
         --trust-remote-code \
         "${PREFILL_PARALLEL_ARGS[@]}" \
+        "${SPEC_ARGS[@]}" \
         --kv_cache_dtype ${KV_CACHE_DTYPE} \
         --block-size ${BLOCK_SIZE} \
         --gpu-memory-utilization ${MEM_FRAC_STATIC} \

From 598884091d8677f5cb6b4f08b1bd3f9aa2d3cde2 Mon Sep 17 00:00:00 2001
From: seungrokj <seungrok.jung@amd.com>
Date: Fri, 19 Jun 2026 17:27:31 +0900
Subject: [PATCH 05/33] [AMD] amd-master: fix comment for 1P1D TP8+DPA+TBO+MTP1
 config

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 .github/configs/amd-master.yaml | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/.github/configs/amd-master.yaml b/.github/configs/amd-master.yaml
index 3d1289718..ffa37ee06 100644
--- a/.github/configs/amd-master.yaml
+++ b/.github/configs/amd-master.yaml
@@ -2571,7 +2571,7 @@ dsv4-fp4-mi355x-atom-disagg-mtp:
           additional-settings:
           - "DECODE_NODES=1"
           - "DECODE_MTP_SIZE=3"
-      # 1P1D TP8+DPA+MTP1 
+      # 1P1D TP8+DPA+TBO+MTP1
     - isl: 1024
       osl: 1024
       search-space:

From 2cf2a054e690805e6ef09273c2672844ca823cb6 Mon Sep 17 00:00:00 2001
From: seungrokj <seungrok.jung@amd.com>
Date: Fri, 19 Jun 2026 17:29:40 +0900
Subject: [PATCH 06/33] [AMD] dsv4_atom-disagg: remove DECODE_MTP_SIZE from
 check_env_vars

DECODE_MTP_SIZE comes from additional-settings and has a default of 0,
so it should not be required.

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 benchmarks/multi_node/dsv4_fp4_mi355x_atom-disagg.sh | 1 -
 1 file changed, 1 deletion(-)

diff --git a/benchmarks/multi_node/dsv4_fp4_mi355x_atom-disagg.sh b/benchmarks/multi_node/dsv4_fp4_mi355x_atom-disagg.sh
index 4745eaa92..60f85d553 100644
--- a/benchmarks/multi_node/dsv4_fp4_mi355x_atom-disagg.sh
+++ b/benchmarks/multi_node/dsv4_fp4_mi355x_atom-disagg.sh
@@ -8,7 +8,6 @@ check_env_vars \
     OSL \
     IMAGE \
     SPEC_DECODING \
-    DECODE_MTP_SIZE \
     MODEL_PATH \
     PREFILL_NUM_WORKERS \
     PREFILL_TP \

From 60d4d0f4f813285dc7ea1b70f4ec976668a0f1c5 Mon Sep 17 00:00:00 2001
From: seungrokj <seungrok.jung@amd.com>
Date: Fri, 19 Jun 2026 17:37:26 +0900
Subject: [PATCH 07/33] [AMD] bench: use --dsv4 flag for DeepSeek-V4-Pro MTP
 benchmarks

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 benchmarks/multi_node/amd_utils/bench.sh | 6 +++++-
 1 file changed, 5 insertions(+), 1 deletion(-)

diff --git a/benchmarks/multi_node/amd_utils/bench.sh b/benchmarks/multi_node/amd_utils/bench.sh
index 05384f435..c0dbb60ad 100755
--- a/benchmarks/multi_node/amd_utils/bench.sh
+++ b/benchmarks/multi_node/amd_utils/bench.sh
@@ -80,7 +80,11 @@ for max_concurrency in "${chosen_concurrencies[@]}"; do
         extra_flags="--trust-remote-code --tokenizer $MODEL_PATH"
     else
         if [ "$IS_MTP" = "true" ]; then
-            extra_flags="--use-chat-template"
+            if [[ "$MODEL_NAME" == "DeepSeek-V4-Pro" ]]; then
+                extra_flags="--dsv4"
+            else
+                extra_flags="--use-chat-template"
+            fi
         fi
     fi
 

From 58b0908e177d2d01d74e0b0cb4287eb45d94eef8 Mon Sep 17 00:00:00 2001
From: seungrokj <seungrok.jung@amd.com>
Date: Fri, 19 Jun 2026 17:42:15 +0900
Subject: [PATCH 08/33] [AMD] server_atom: export IS_MTP=true when
 SPEC_DECODING=mtp for bench.sh

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 benchmarks/multi_node/amd_utils/server_atom.sh | 5 +++++
 1 file changed, 5 insertions(+)

diff --git a/benchmarks/multi_node/amd_utils/server_atom.sh b/benchmarks/multi_node/amd_utils/server_atom.sh
index d458a19f7..c461ed34b 100644
--- a/benchmarks/multi_node/amd_utils/server_atom.sh
+++ b/benchmarks/multi_node/amd_utils/server_atom.sh
@@ -279,6 +279,11 @@ if [ "$NODE_RANK" -eq 0 ]; then
 
     cd $ATOM_WS_PATH
 
+    export IS_MTP="false"
+    if [ "$SPEC_DECODING" = "mtp" ]; then
+        export IS_MTP="true"
+    fi
+
     BENCH_CMD="bash $ATOM_WS_PATH/bench.sh ${xP} ${yD} $((PREFILL_TP_SIZE*xP)) $((DECODE_TP_SIZE*yD)) \
         $MODEL_DIR $MODEL_NAME /run_logs/slurm_job-${SLURM_JOB_ID} ${BENCH_INPUT_LEN} \
         ${BENCH_OUTPUT_LEN} \"${BENCH_MAX_CONCURRENCY}\" ${BENCH_REQUEST_RATE} \

From 38cd2a857c8abe19e347a56df10dc91b3cfc35bb Mon Sep 17 00:00:00 2001
From: seungrokj <seungrok.jung@amd.com>
Date: Fri, 19 Jun 2026 18:44:10 +0900
Subject: [PATCH 09/33] [AMD] server_atom: fix hf-overrides JSON quoting

Remove spaces from JSON value so it doesn't get word-split when
expanded inside the eval'd command string.

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 benchmarks/multi_node/amd_utils/server_atom.sh | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/benchmarks/multi_node/amd_utils/server_atom.sh b/benchmarks/multi_node/amd_utils/server_atom.sh
index c461ed34b..6c7484e2c 100644
--- a/benchmarks/multi_node/amd_utils/server_atom.sh
+++ b/benchmarks/multi_node/amd_utils/server_atom.sh
@@ -139,7 +139,7 @@ if [ "$SPEC_DECODING" = "mtp" ]; then
 fi
 
 # OPT args
-OPT_ARGS=(--hf-overrides '{"use_index_cache": true, "index_topk_freq": 4}')
+OPT_ARGS=(--hf-overrides '{"use_index_cache":true,"index_topk_freq":4}')
 
 cat <<INFO
 === Configuration ===

From 67d19a796ab7e5c23c8d83443be3b32f5a769870 Mon Sep 17 00:00:00 2001
From: seungrokj <seungrok.jung@amd.com>
Date: Fri, 19 Jun 2026 19:02:52 +0900
Subject: [PATCH 10/33] fix: inline --hf-overrides to avoid eval
 word-splitting, remove OPT_ARGS

OPT_ARGS array expansion inside eval'd string caused bash word-splitting,
breaking the --hf-overrides JSON argument. Inline the flag directly in all
three server commands and remove the now-unused OPT_ARGS definition.

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 benchmarks/multi_node/amd_utils/server_atom.sh | 11 ++++-------
 1 file changed, 4 insertions(+), 7 deletions(-)

diff --git a/benchmarks/multi_node/amd_utils/server_atom.sh b/benchmarks/multi_node/amd_utils/server_atom.sh
index 6c7484e2c..c79d35ead 100644
--- a/benchmarks/multi_node/amd_utils/server_atom.sh
+++ b/benchmarks/multi_node/amd_utils/server_atom.sh
@@ -138,9 +138,6 @@ if [ "$SPEC_DECODING" = "mtp" ]; then
     SPEC_ARGS=(--method mtp --num-speculative-tokens "$DECODE_MTP_SIZE")
 fi
 
-# OPT args
-OPT_ARGS=(--hf-overrides '{"use_index_cache":true,"index_topk_freq":4}')
-
 cat <<INFO
 === Configuration ===
 PREFILL  : ${PREFILL_IPS[*]} (TP=${PREFILL_TP_SIZE}, EP=${PREFILL_ENABLE_EP:-false}, DP=${PREFILL_ENABLE_DP:-false}, port=${PREFILL_PORT})
@@ -154,7 +151,6 @@ KV cache : dtype=${KV_CACHE_DTYPE} block_size=${BLOCK_SIZE} mem_frac=${MEM_FRAC_
 Prefill args : ${PREFILL_PARALLEL_ARGS[*]}
 Decode  args : ${DECODE_PARALLEL_ARGS[*]}
 Spec    args : ${SPEC_ARGS[*]}
-Opt     args : ${OPT_ARGS[*]}
 =====================
 INFO
 
@@ -189,7 +185,7 @@ if [ "$NODE_RANK" -eq 0 ]; then
         --gpu-memory-utilization ${MEM_FRAC_STATIC} \
         --max-num-seqs ${MAX_NUM_SEQS} \
         --no-enable_prefix_caching \
-        "${OPT_ARGS[@]}" \
+        --hf-overrides '{"use_index_cache":true,"index_topk_freq":4}' \
         --kv-transfer-config '{\"kv_role\":\"kv_producer\",\"kv_connector\":\"mooncake\",\"proxy_ip\":\"${host_ip}\",\"handshake_port\":${HANDSHAKE_PORT}}' \
         ${EXTRA_SERVER_ARGS}"
 
@@ -410,7 +406,7 @@ elif [ "$NODE_RANK" -gt 0 ] && [ "$NODE_RANK" -lt "$NODE_OFFSET" ]; then
         --gpu-memory-utilization ${MEM_FRAC_STATIC} \
         --max-num-seqs ${MAX_NUM_SEQS} \
         --no-enable_prefix_caching \
-        "${OPT_ARGS[@]}" \
+        --hf-overrides '{"use_index_cache":true,"index_topk_freq":4}' \
         --kv-transfer-config '{\"kv_role\":\"kv_producer\",\"kv_connector\":\"mooncake\",\"proxy_ip\":\"${host_ip}\",\"handshake_port\":${HANDSHAKE_PORT}}' \
         ${EXTRA_SERVER_ARGS}"
 
@@ -475,8 +471,9 @@ else
         --kv_cache_dtype ${KV_CACHE_DTYPE} \
         --block-size ${BLOCK_SIZE} \
         --gpu-memory-utilization ${MEM_FRAC_STATIC} \
+        --max-num-seqs ${MAX_NUM_SEQS} \
         --no-enable_prefix_caching \
-        "${OPT_ARGS[@]}" \
+        --hf-overrides '{"use_index_cache":true,"index_topk_freq":4}' \
         --kv-transfer-config '{\"kv_role\":\"kv_consumer\",\"kv_connector\":\"mooncake\",\"proxy_ip\":\"${host_ip}\",\"handshake_port\":${HANDSHAKE_PORT}}' \
         ${EXTRA_SERVER_ARGS}"
 

From e81a996a32b19a2f7acee3e38b21d2d9c9c4a3e5 Mon Sep 17 00:00:00 2001
From: seungrokj <seungrok.jung@amd.com>
Date: Fri, 19 Jun 2026 19:05:31 +0900
Subject: [PATCH 11/33] refactor: extract --hf-overrides into HF_OVERRIDES_ARG
 variable

Define once near SPEC_ARGS and reference in all three server commands
(prefill node 0, additional prefill nodes, decode nodes).

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 benchmarks/multi_node/amd_utils/server_atom.sh | 9 ++++++---
 1 file changed, 6 insertions(+), 3 deletions(-)

diff --git a/benchmarks/multi_node/amd_utils/server_atom.sh b/benchmarks/multi_node/amd_utils/server_atom.sh
index c79d35ead..44550eef6 100644
--- a/benchmarks/multi_node/amd_utils/server_atom.sh
+++ b/benchmarks/multi_node/amd_utils/server_atom.sh
@@ -138,6 +138,9 @@ if [ "$SPEC_DECODING" = "mtp" ]; then
     SPEC_ARGS=(--method mtp --num-speculative-tokens "$DECODE_MTP_SIZE")
 fi
 
+# HF overrides (single-quoted JSON preserved through eval)
+HF_OVERRIDES_ARG="--hf-overrides '{\"use_index_cache\":true,\"index_topk_freq\":4}'"
+
 cat <<INFO
 === Configuration ===
 PREFILL  : ${PREFILL_IPS[*]} (TP=${PREFILL_TP_SIZE}, EP=${PREFILL_ENABLE_EP:-false}, DP=${PREFILL_ENABLE_DP:-false}, port=${PREFILL_PORT})
@@ -185,7 +188,7 @@ if [ "$NODE_RANK" -eq 0 ]; then
         --gpu-memory-utilization ${MEM_FRAC_STATIC} \
         --max-num-seqs ${MAX_NUM_SEQS} \
         --no-enable_prefix_caching \
-        --hf-overrides '{"use_index_cache":true,"index_topk_freq":4}' \
+        ${HF_OVERRIDES_ARG} \
         --kv-transfer-config '{\"kv_role\":\"kv_producer\",\"kv_connector\":\"mooncake\",\"proxy_ip\":\"${host_ip}\",\"handshake_port\":${HANDSHAKE_PORT}}' \
         ${EXTRA_SERVER_ARGS}"
 
@@ -406,7 +409,7 @@ elif [ "$NODE_RANK" -gt 0 ] && [ "$NODE_RANK" -lt "$NODE_OFFSET" ]; then
         --gpu-memory-utilization ${MEM_FRAC_STATIC} \
         --max-num-seqs ${MAX_NUM_SEQS} \
         --no-enable_prefix_caching \
-        --hf-overrides '{"use_index_cache":true,"index_topk_freq":4}' \
+        ${HF_OVERRIDES_ARG} \
         --kv-transfer-config '{\"kv_role\":\"kv_producer\",\"kv_connector\":\"mooncake\",\"proxy_ip\":\"${host_ip}\",\"handshake_port\":${HANDSHAKE_PORT}}' \
         ${EXTRA_SERVER_ARGS}"
 
@@ -473,7 +476,7 @@ else
         --gpu-memory-utilization ${MEM_FRAC_STATIC} \
         --max-num-seqs ${MAX_NUM_SEQS} \
         --no-enable_prefix_caching \
-        --hf-overrides '{"use_index_cache":true,"index_topk_freq":4}' \
+        ${HF_OVERRIDES_ARG} \
         --kv-transfer-config '{\"kv_role\":\"kv_consumer\",\"kv_connector\":\"mooncake\",\"proxy_ip\":\"${host_ip}\",\"handshake_port\":${HANDSHAKE_PORT}}' \
         ${EXTRA_SERVER_ARGS}"
 

From 929f89f338a216dc347f293579bfcf750d7da746 Mon Sep 17 00:00:00 2001
From: seungrokj <seungrok.jung@amd.com>
Date: Fri, 19 Jun 2026 19:06:31 +0900
Subject: [PATCH 12/33] fix: enable --hf-overrides only for DeepSeek-V4-Pro

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 benchmarks/multi_node/amd_utils/server_atom.sh | 5 ++++-
 1 file changed, 4 insertions(+), 1 deletion(-)

diff --git a/benchmarks/multi_node/amd_utils/server_atom.sh b/benchmarks/multi_node/amd_utils/server_atom.sh
index 44550eef6..4798961da 100644
--- a/benchmarks/multi_node/amd_utils/server_atom.sh
+++ b/benchmarks/multi_node/amd_utils/server_atom.sh
@@ -139,7 +139,10 @@ if [ "$SPEC_DECODING" = "mtp" ]; then
 fi
 
 # HF overrides (single-quoted JSON preserved through eval)
-HF_OVERRIDES_ARG="--hf-overrides '{\"use_index_cache\":true,\"index_topk_freq\":4}'"
+HF_OVERRIDES_ARG=""
+if [[ "$MODEL_NAME" == "DeepSeek-V4-Pro" ]]; then
+    HF_OVERRIDES_ARG="--hf-overrides '{\"use_index_cache\":true,\"index_topk_freq\":4}'"
+fi
 
 cat <<INFO
 === Configuration ===

From 7c779fdce49948135f520e57443d335ac87584fc Mon Sep 17 00:00:00 2001
From: seungrokj <seungrok.jung@amd.com>
Date: Fri, 19 Jun 2026 19:07:20 +0900
Subject: [PATCH 13/33] fix: add HF_OVERRIDES_ARG to INFO config print block

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 benchmarks/multi_node/amd_utils/server_atom.sh | 1 +
 1 file changed, 1 insertion(+)

diff --git a/benchmarks/multi_node/amd_utils/server_atom.sh b/benchmarks/multi_node/amd_utils/server_atom.sh
index 4798961da..e75cbfe5e 100644
--- a/benchmarks/multi_node/amd_utils/server_atom.sh
+++ b/benchmarks/multi_node/amd_utils/server_atom.sh
@@ -157,6 +157,7 @@ KV cache : dtype=${KV_CACHE_DTYPE} block_size=${BLOCK_SIZE} mem_frac=${MEM_FRAC_
 Prefill args : ${PREFILL_PARALLEL_ARGS[*]}
 Decode  args : ${DECODE_PARALLEL_ARGS[*]}
 Spec    args : ${SPEC_ARGS[*]}
+Opt     args : ${HF_OVERRIDES_ARG}
 =====================
 INFO
 

From 279171bc9ce69b3356b0324a0d9729aec5724f81 Mon Sep 17 00:00:00 2001
From: seungrokj <seungrok.jung@amd.com>
Date: Fri, 19 Jun 2026 20:16:01 +0900
Subject: [PATCH 14/33] fix: replace broken-quote array splice with ${ARRAY[*]}
 in CMD strings
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

"${ARRAY[@]}" inside a double-quoted assignment breaks bash -n's quote
parser. Since all three CMD strings are passed to eval, ${ARRAY[*]}
is equivalent — eval handles word splitting.

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 .github/configs/amd-master.yaml               |  2 +-
 .../multi_node/amd_utils/server_atom.sh       | 23 +++++++++++++------
 2 files changed, 17 insertions(+), 8 deletions(-)

diff --git a/.github/configs/amd-master.yaml b/.github/configs/amd-master.yaml
index ffa37ee06..5b69f313d 100644
--- a/.github/configs/amd-master.yaml
+++ b/.github/configs/amd-master.yaml
@@ -2555,7 +2555,7 @@ dsv4-fp4-mi355x-atom-disagg-mtp:
           - "DECODE_MTP_SIZE=1"
       # 1P1D TP8+MTP3 
       - spec-decoding: "mtp"
-        conc-list: [ 4, 8, 16, 32, 64, 128 ]
+        conc-list: [ 1, 2, 4, 8, 16, 32, 64, 128, 256 ]
         prefill:
           num-worker: 1
           tp: 8
diff --git a/benchmarks/multi_node/amd_utils/server_atom.sh b/benchmarks/multi_node/amd_utils/server_atom.sh
index e75cbfe5e..4ffaabd95 100644
--- a/benchmarks/multi_node/amd_utils/server_atom.sh
+++ b/benchmarks/multi_node/amd_utils/server_atom.sh
@@ -185,8 +185,8 @@ if [ "$NODE_RANK" -eq 0 ]; then
         --model ${MODEL_DIR}/${MODEL_NAME} \
         --host 0.0.0.0 --server-port ${PREFILL_PORT} \
         --trust-remote-code \
-        "${PREFILL_PARALLEL_ARGS[@]}" \
-        "${SPEC_ARGS[@]}" \
+        ${PREFILL_PARALLEL_ARGS[*]} \
+        ${SPEC_ARGS[*]} \
         --kv_cache_dtype ${KV_CACHE_DTYPE} \
         --block-size ${BLOCK_SIZE} \
         --gpu-memory-utilization ${MEM_FRAC_STATIC} \
@@ -406,8 +406,8 @@ elif [ "$NODE_RANK" -gt 0 ] && [ "$NODE_RANK" -lt "$NODE_OFFSET" ]; then
         --model ${MODEL_DIR}/${MODEL_NAME} \
         --host 0.0.0.0 --server-port ${PREFILL_PORT} \
         --trust-remote-code \
-        "${PREFILL_PARALLEL_ARGS[@]}" \
-        "${SPEC_ARGS[@]}" \
+        ${PREFILL_PARALLEL_ARGS[*]} \
+        ${SPEC_ARGS[*]} \
         --kv_cache_dtype ${KV_CACHE_DTYPE} \
         --block-size ${BLOCK_SIZE} \
         --gpu-memory-utilization ${MEM_FRAC_STATIC} \
@@ -469,16 +469,25 @@ else
     RANK=$((NODE_RANK - NODE_OFFSET))
     echo "${host_name}:${host_ip} is Decode Node (rank ${RANK})"
 
+    _MAX_CONC=$(echo "$BENCH_MAX_CONCURRENCY" | tr 'x' '\n' | sort -n | tail -1)
+
+    if [[ "$BENCH_INPUT_LEN" == "1024" && "$BENCH_OUTPUT_LEN" == "1024" ]]; then
+        DECODE_MAX_NUM_SEQS="${_MAX_CONC}"
+    else
+        DECODE_MAX_NUM_SEQS="${MAX_NUM_SEQS}"
+    fi
+
     DECODE_CMD="python3 -m atom.entrypoints.openai_server \
         --model ${MODEL_DIR}/${MODEL_NAME} \
         --host 0.0.0.0 --server-port ${DECODE_PORT} \
         --trust-remote-code \
-        "${DECODE_PARALLEL_ARGS[@]}" \
-        "${SPEC_ARGS[@]}" \
+        ${DECODE_PARALLEL_ARGS[*]} \
+        ${SPEC_ARGS[*]} \
         --kv_cache_dtype ${KV_CACHE_DTYPE} \
         --block-size ${BLOCK_SIZE} \
         --gpu-memory-utilization ${MEM_FRAC_STATIC} \
-        --max-num-seqs ${MAX_NUM_SEQS} \
+        --max-num-seqs ${DECODE_MAX_NUM_SEQS} \
+        ${CUDAGRAPH_OPT} \
         --no-enable_prefix_caching \
         ${HF_OVERRIDES_ARG} \
         --kv-transfer-config '{\"kv_role\":\"kv_consumer\",\"kv_connector\":\"mooncake\",\"proxy_ip\":\"${host_ip}\",\"handshake_port\":${HANDSHAKE_PORT}}' \

From dce66c83d16e6963381fe8202c25423372498d6d Mon Sep 17 00:00:00 2001
From: seungrokj <seungrok.jung@amd.com>
Date: Fri, 19 Jun 2026 20:18:47 +0900
Subject: [PATCH 15/33] fix: remove ${CUDAGRAPH_OPT} from decode CMD

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 benchmarks/multi_node/amd_utils/server_atom.sh | 1 -
 1 file changed, 1 deletion(-)

diff --git a/benchmarks/multi_node/amd_utils/server_atom.sh b/benchmarks/multi_node/amd_utils/server_atom.sh
index 4ffaabd95..69c049ecb 100644
--- a/benchmarks/multi_node/amd_utils/server_atom.sh
+++ b/benchmarks/multi_node/amd_utils/server_atom.sh
@@ -487,7 +487,6 @@ else
         --block-size ${BLOCK_SIZE} \
         --gpu-memory-utilization ${MEM_FRAC_STATIC} \
         --max-num-seqs ${DECODE_MAX_NUM_SEQS} \
-        ${CUDAGRAPH_OPT} \
         --no-enable_prefix_caching \
         ${HF_OVERRIDES_ARG} \
         --kv-transfer-config '{\"kv_role\":\"kv_consumer\",\"kv_connector\":\"mooncake\",\"proxy_ip\":\"${host_ip}\",\"handshake_port\":${HANDSHAKE_PORT}}' \

From 94c2302fb77777148cdeda2c17c57f1a265ec802 Mon Sep 17 00:00:00 2001
From: seungrokj <seungrok.jung@amd.com>
Date: Fri, 19 Jun 2026 21:03:21 +0900
Subject: [PATCH 16/33] feat: add MiniMax-M3 ATOM disagg CI script and
 server_atom.sh support

- benchmarks/multi_node/minimaxm3_fp4_mi355x_atom-disagg.sh: new CI entry
  point for MiniMax-M3-MXFP4, mirroring dsv4_fp4_mi355x_atom-disagg.sh.
  No MTP (SPEC_DECODING=none), KV_CACHE_DTYPE=auto (no fp8),
  MAX_MODEL_LEN/MAX_NUM_BATCHED_TOKENS=32768.

- server_atom.sh: make --kv_cache_dtype conditional (skipped when
  KV_CACHE_DTYPE is empty or "auto"); add MAX_MODEL_LEN,
  MAX_NUM_BATCHED_TOKENS, CUDAGRAPH_OPT support (prefill+decode for
  model-len args; decode-only for cudagraph).

- job.slurm: pass MAX_MODEL_LEN, MAX_NUM_BATCHED_TOKENS, CUDAGRAPH_OPT
  through Docker env for atom-disagg engine.

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 benchmarks/multi_node/amd_utils/job.slurm     |  3 +
 .../multi_node/amd_utils/server_atom.sh       | 31 ++++++-
 .../minimaxm3_fp4_mi355x_atom-disagg.sh       | 91 +++++++++++++++++++
 3 files changed, 121 insertions(+), 4 deletions(-)
 create mode 100644 benchmarks/multi_node/minimaxm3_fp4_mi355x_atom-disagg.sh

diff --git a/benchmarks/multi_node/amd_utils/job.slurm b/benchmarks/multi_node/amd_utils/job.slurm
index 004768a89..1910edbe4 100755
--- a/benchmarks/multi_node/amd_utils/job.slurm
+++ b/benchmarks/multi_node/amd_utils/job.slurm
@@ -416,6 +416,9 @@ elif [[ "$ENGINE" == "atom-disagg" ]]; then
         -e KV_CACHE_DTYPE=${KV_CACHE_DTYPE:-fp8}
         -e BLOCK_SIZE=${BLOCK_SIZE:-16}
         -e MAX_NUM_SEQS=${MAX_NUM_SEQS:-256}
+        -e MAX_MODEL_LEN=${MAX_MODEL_LEN:-}
+        -e MAX_NUM_BATCHED_TOKENS=${MAX_NUM_BATCHED_TOKENS:-}
+        -e CUDAGRAPH_OPT=${CUDAGRAPH_OPT:-}
         -e EXTRA_SERVER_ARGS=\${EXTRA_SERVER_ARGS:-}
         -e IBDEVICES=${IBDEVICES:-}
     )
diff --git a/benchmarks/multi_node/amd_utils/server_atom.sh b/benchmarks/multi_node/amd_utils/server_atom.sh
index 69c049ecb..767d29c5a 100644
--- a/benchmarks/multi_node/amd_utils/server_atom.sh
+++ b/benchmarks/multi_node/amd_utils/server_atom.sh
@@ -50,6 +50,9 @@ MEM_FRAC_STATIC="${MEM_FRAC_STATIC:-0.85}"
 KV_CACHE_DTYPE="${KV_CACHE_DTYPE:-fp8}"
 BLOCK_SIZE="${BLOCK_SIZE:-16}"
 MAX_NUM_SEQS="${MAX_NUM_SEQS:-256}"
+MAX_MODEL_LEN="${MAX_MODEL_LEN:-}"
+MAX_NUM_BATCHED_TOKENS="${MAX_NUM_BATCHED_TOKENS:-}"
+CUDAGRAPH_OPT="${CUDAGRAPH_OPT:-}"
 EXTRA_SERVER_ARGS="${EXTRA_SERVER_ARGS:-}"
 
 # Benchmark Configuration
@@ -144,6 +147,21 @@ if [[ "$MODEL_NAME" == "DeepSeek-V4-Pro" ]]; then
     HF_OVERRIDES_ARG="--hf-overrides '{\"use_index_cache\":true,\"index_topk_freq\":4}'"
 fi
 
+# KV cache dtype (skip if unset or 'auto')
+KV_CACHE_ARG=""
+if [[ -n "$KV_CACHE_DTYPE" && "$KV_CACHE_DTYPE" != "auto" ]]; then
+    KV_CACHE_ARG="--kv_cache_dtype ${KV_CACHE_DTYPE}"
+fi
+
+# Optional model length / batched-token cap
+MODEL_LEN_ARGS=""
+if [[ -n "$MAX_MODEL_LEN" ]]; then
+    MODEL_LEN_ARGS="${MODEL_LEN_ARGS} --max-model-len ${MAX_MODEL_LEN}"
+fi
+if [[ -n "$MAX_NUM_BATCHED_TOKENS" ]]; then
+    MODEL_LEN_ARGS="${MODEL_LEN_ARGS} --max-num-batched-tokens ${MAX_NUM_BATCHED_TOKENS}"
+fi
+
 cat <<INFO
 === Configuration ===
 PREFILL  : ${PREFILL_IPS[*]} (TP=${PREFILL_TP_SIZE}, EP=${PREFILL_ENABLE_EP:-false}, DP=${PREFILL_ENABLE_DP:-false}, port=${PREFILL_PORT})
@@ -153,7 +171,8 @@ MODEL    : ${MODEL_NAME}
 BACKEND  : atom (PD mooncake KV transfer)
 MTP      : method=mtp num_speculative_tokens=${DECODE_MTP_SIZE}
 xP/yD    : ${xP} / ${yD}
-KV cache : dtype=${KV_CACHE_DTYPE} block_size=${BLOCK_SIZE} mem_frac=${MEM_FRAC_STATIC}
+KV cache : dtype=${KV_CACHE_DTYPE:-auto} block_size=${BLOCK_SIZE} mem_frac=${MEM_FRAC_STATIC}
+Model len: max_model_len=${MAX_MODEL_LEN:-unset} max_num_batched_tokens=${MAX_NUM_BATCHED_TOKENS:-unset}
 Prefill args : ${PREFILL_PARALLEL_ARGS[*]}
 Decode  args : ${DECODE_PARALLEL_ARGS[*]}
 Spec    args : ${SPEC_ARGS[*]}
@@ -187,10 +206,11 @@ if [ "$NODE_RANK" -eq 0 ]; then
         --trust-remote-code \
         ${PREFILL_PARALLEL_ARGS[*]} \
         ${SPEC_ARGS[*]} \
-        --kv_cache_dtype ${KV_CACHE_DTYPE} \
+        ${KV_CACHE_ARG} \
         --block-size ${BLOCK_SIZE} \
         --gpu-memory-utilization ${MEM_FRAC_STATIC} \
         --max-num-seqs ${MAX_NUM_SEQS} \
+        ${MODEL_LEN_ARGS} \
         --no-enable_prefix_caching \
         ${HF_OVERRIDES_ARG} \
         --kv-transfer-config '{\"kv_role\":\"kv_producer\",\"kv_connector\":\"mooncake\",\"proxy_ip\":\"${host_ip}\",\"handshake_port\":${HANDSHAKE_PORT}}' \
@@ -408,10 +428,11 @@ elif [ "$NODE_RANK" -gt 0 ] && [ "$NODE_RANK" -lt "$NODE_OFFSET" ]; then
         --trust-remote-code \
         ${PREFILL_PARALLEL_ARGS[*]} \
         ${SPEC_ARGS[*]} \
-        --kv_cache_dtype ${KV_CACHE_DTYPE} \
+        ${KV_CACHE_ARG} \
         --block-size ${BLOCK_SIZE} \
         --gpu-memory-utilization ${MEM_FRAC_STATIC} \
         --max-num-seqs ${MAX_NUM_SEQS} \
+        ${MODEL_LEN_ARGS} \
         --no-enable_prefix_caching \
         ${HF_OVERRIDES_ARG} \
         --kv-transfer-config '{\"kv_role\":\"kv_producer\",\"kv_connector\":\"mooncake\",\"proxy_ip\":\"${host_ip}\",\"handshake_port\":${HANDSHAKE_PORT}}' \
@@ -483,10 +504,12 @@ else
         --trust-remote-code \
         ${DECODE_PARALLEL_ARGS[*]} \
         ${SPEC_ARGS[*]} \
-        --kv_cache_dtype ${KV_CACHE_DTYPE} \
+        ${KV_CACHE_ARG} \
         --block-size ${BLOCK_SIZE} \
         --gpu-memory-utilization ${MEM_FRAC_STATIC} \
         --max-num-seqs ${DECODE_MAX_NUM_SEQS} \
+        ${MODEL_LEN_ARGS} \
+        ${CUDAGRAPH_OPT} \
         --no-enable_prefix_caching \
         ${HF_OVERRIDES_ARG} \
         --kv-transfer-config '{\"kv_role\":\"kv_consumer\",\"kv_connector\":\"mooncake\",\"proxy_ip\":\"${host_ip}\",\"handshake_port\":${HANDSHAKE_PORT}}' \
diff --git a/benchmarks/multi_node/minimaxm3_fp4_mi355x_atom-disagg.sh b/benchmarks/multi_node/minimaxm3_fp4_mi355x_atom-disagg.sh
new file mode 100644
index 000000000..5711d1070
--- /dev/null
+++ b/benchmarks/multi_node/minimaxm3_fp4_mi355x_atom-disagg.sh
@@ -0,0 +1,91 @@
+#!/usr/bin/env bash
+
+source "$(dirname "$0")/../benchmark_lib.sh"
+
+check_env_vars \
+    CONC_LIST \
+    ISL \
+    OSL \
+    IMAGE \
+    MODEL_PATH \
+    PREFILL_NUM_WORKERS \
+    PREFILL_TP \
+    PREFILL_EP \
+    PREFILL_DP_ATTN \
+    DECODE_NUM_WORKERS \
+    DECODE_TP \
+    DECODE_EP \
+    DECODE_DP_ATTN \
+    PREFILL_NODES \
+    DECODE_NODES \
+    RANDOM_RANGE_RATIO \
+    FRAMEWORK
+
+if [[ -n "$SLURM_JOB_ID" ]]; then
+  echo "JOB $SLURM_JOB_ID running on $SLURMD_NODENAME"
+fi
+
+set -x
+
+# Use upstreamed multi_node scripts (no external clone needed)
+cd "$GITHUB_WORKSPACE/benchmarks/multi_node/amd_utils" || exit 1
+
+# Set up SGL launch script-specific environment variables
+export TIME_LIMIT="08:00:00"
+export MODEL_PATH=$MODEL_PATH
+export MODEL_NAME=$MODEL_NAME
+export CONTAINER_IMAGE=$IMAGE
+
+if [[ "${PREFILL_EP:-1}" -eq 1 ]]; then
+export PREFILL_ENABLE_EP=false
+else
+export PREFILL_ENABLE_EP=true
+fi
+
+if [[ "$PREFILL_DP_ATTN" == "true" ]]; then
+export PREFILL_ENABLE_DP=true
+else
+export PREFILL_ENABLE_DP=false
+fi
+
+if [[ "${DECODE_EP:-1}" -eq 1 ]]; then
+export DECODE_ENABLE_EP=false
+else
+export DECODE_ENABLE_EP=true
+fi
+
+if [[ "$DECODE_DP_ATTN" == "true" ]]; then
+export DECODE_ENABLE_DP=true
+else
+export DECODE_ENABLE_DP=false
+fi
+
+# No MTP for MiniMax-M3
+export SPEC_DECODING="none"
+export DECODE_MTP_SIZE=0
+
+# MiniMax-M3-MXFP4: no fp8 KV cache, larger context
+export KV_CACHE_DTYPE="${KV_CACHE_DTYPE:-auto}"
+export MAX_MODEL_LEN="${MAX_MODEL_LEN:-32768}"
+export MAX_NUM_BATCHED_TOKENS="${MAX_NUM_BATCHED_TOKENS:-32768}"
+
+# Launch jobs based on ISL/OSL
+# Replace ' ' in CONC_LIST with 'x' such that the concurrency list is represented
+# by a list of numbers delimited by 'x'. This is because of how the underlying launch script
+# expects the concurrencies.
+JOB_ID=$(bash ./submit.sh $PREFILL_NODES \
+    $PREFILL_NUM_WORKERS \
+    $DECODE_NODES \
+    $DECODE_NUM_WORKERS \
+    $ISL $OSL "${CONC_LIST// /x}" inf \
+    ${PREFILL_ENABLE_EP} ${PREFILL_ENABLE_DP} \
+    ${DECODE_ENABLE_EP} ${DECODE_ENABLE_DP} \
+    ${PREFILL_TP} ${DECODE_TP} \
+    ${RANDOM_RANGE_RATIO})
+
+if [[ $? -ne 0 ]]; then
+    echo "Failed to submit job" >&2
+    exit 1
+fi
+
+echo "$JOB_ID"

From 26655d0c32dc760dee1dbc01cf77e6669ed2d8ad Mon Sep 17 00:00:00 2001
From: seungrokj <seungrok.jung@amd.com>
Date: Fri, 19 Jun 2026 21:26:20 +0900
Subject: [PATCH 17/33] feat: add minimaxm3-fp4-mi355x-atom-disagg recipe and
 AITER_QUICK_REDUCE_QUANTIZATION=INT4

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 .github/configs/amd-master.yaml               | 143 +++++++-----------
 .../minimaxm3_fp4_mi355x_atom-disagg.sh       |   3 +
 2 files changed, 56 insertions(+), 90 deletions(-)

diff --git a/.github/configs/amd-master.yaml b/.github/configs/amd-master.yaml
index 5b69f313d..f86d77ef9 100644
--- a/.github/configs/amd-master.yaml
+++ b/.github/configs/amd-master.yaml
@@ -2521,96 +2521,6 @@ dsv4-fp4-mi355x-atom-disagg:
           additional-settings:
           - "DECODE_NODES=1"
 
-dsv4-fp4-mi355x-atom-disagg-mtp:
-  image: rocm/atom-dev:nightly_202606181332
-  model: deepseek-ai/DeepSeek-V4-Pro
-  model-prefix: dsv4
-  runner: mi355x
-  precision: fp4
-  framework: atom-disagg
-  multinode: true
-  disagg: true
-  scenarios:
-    fixed-seq-len:
-    - isl: 8192
-      osl: 1024
-      search-space:
-      # 2P1D TP8+DPA+TBO+MTP1
-      - spec-decoding: "mtp"
-        conc-list: [ 256, 512, 768, 1024, 2048 ]
-        prefill:
-          num-worker: 2
-          tp: 8
-          ep: 1
-          dp-attn: true
-          additional-settings:
-          - "PREFILL_NODES=2"
-        decode:
-          num-worker: 1
-          tp: 8
-          ep: 1
-          dp-attn: true
-          additional-settings:
-          - "DECODE_NODES=1"
-          - "DECODE_MTP_SIZE=1"
-      # 1P1D TP8+MTP3 
-      - spec-decoding: "mtp"
-        conc-list: [ 1, 2, 4, 8, 16, 32, 64, 128, 256 ]
-        prefill:
-          num-worker: 1
-          tp: 8
-          ep: 1
-          dp-attn: false
-          additional-settings:
-          - "PREFILL_NODES=1"
-        decode:
-          num-worker: 1
-          tp: 8
-          ep: 1
-          dp-attn: false
-          additional-settings:
-          - "DECODE_NODES=1"
-          - "DECODE_MTP_SIZE=3"
-      # 1P1D TP8+DPA+TBO+MTP1
-    - isl: 1024
-      osl: 1024
-      search-space:
-      - spec-decoding: "mtp"
-        conc-list: [ 64, 128, 256, 512, 1024 ]
-        prefill:
-          num-worker: 1
-          tp: 8
-          ep: 1
-          dp-attn: true
-          additional-settings:
-          - "PREFILL_NODES=1"
-        decode:
-          num-worker: 1
-          tp: 8
-          ep: 1
-          dp-attn: true
-          additional-settings:
-          - "DECODE_NODES=1"
-          - "DECODE_MTP_SIZE=1"
-      # 1P1D TP8+MTP3 
-      - spec-decoding: "mtp"
-        conc-list: [ 1, 2, 4, 8, 16, 32, 64, 128, 256 ]
-        prefill:
-          num-worker: 1
-          tp: 8
-          ep: 1
-          dp-attn: false
-          additional-settings:
-          - "PREFILL_NODES=1"
-        decode:
-          num-worker: 1
-          tp: 8
-          ep: 1
-          dp-attn: false
-          additional-settings:
-          - "DECODE_NODES=1"
-          - "DECODE_MTP_SIZE=3"
-
 # MiniMax-M3 MXFP8 MI355X recipe:
 # https://github.com/vllm-project/recipes/commit/2a3728ed9892debfd767a72a58ebc90b33f186e5
 # MXFP8 runs from TP=4 on gfx950; block size 128 is mandatory for MSA.
@@ -2702,6 +2612,59 @@ minimaxm3-fp4-mi355x-atom:
       - { tp: 4, conc-start: 1, conc-end: 256 }
       - { tp: 8, conc-start: 1, conc-end: 2 }
 
+minimaxm3-fp8-mi355x-atom-disagg:
+  image: rocm/atom-dev:MiniMax-M3-20260619
+  model: amd/MiniMax-M3-MXFP8
+  model-prefix: minimaxm3
+  runner: mi355x-disagg
+  precision: fp8
+  framework: atom-disagg
+  multinode: true
+  disagg: true
+  scenarios:
+    fixed-seq-len:
+    - isl: 8192
+      osl: 1024
+      search-space:
+      # 1P1D TP4
+      - conc-list: [ 1, 2, 4, 8, 16, 32, 64, 128, 256, 512 ]
+        prefill:
+          num-worker: 1
+          tp: 4
+          ep: 1
+          dp-attn: false
+          additional-settings:
+          - "PREFILL_NODES=1"
+        decode:
+          num-worker: 1
+          tp: 4
+          ep: 1
+          dp-attn: false
+          additional-settings:
+          - "DECODE_NODES=1"
+      # 1P1D TP4
+    - isl: 1024
+      osl: 1024
+      search-space:
+      # 1P1D TP4 
+      - conc-list: [ 1, 2, 4, 8, 16, 32, 64, 128, 256, 512 ]
+        prefill:
+          num-worker: 1
+          tp: 4
+          ep: 1
+          dp-attn: false
+          additional-settings:
+          - "PREFILL_NODES=1"
+        decode:
+          num-worker: 1
+          tp: 4
+          ep: 1
+          dp-attn: false
+          additional-settings:
+          - "DECODE_NODES=1"
+
+# MiniMax-M3 MXFP8 MI300X recipe. Use the TP8-only H100 search space: TP8 for
+# latency and TP8+EP8 (TEP) at high concurrency.
 # MiniMax-M3 MXFP8 MI300X day-zero recipe. Reuse the dedicated ROCm image and
 # MI355X serving shape, but retain the default BF16 KV cache because this
 # checkpoint lacks calibrated ROCm FP8 attention scales. Use the TP8-only H100
diff --git a/benchmarks/multi_node/minimaxm3_fp4_mi355x_atom-disagg.sh b/benchmarks/multi_node/minimaxm3_fp4_mi355x_atom-disagg.sh
index 5711d1070..b372e5549 100644
--- a/benchmarks/multi_node/minimaxm3_fp4_mi355x_atom-disagg.sh
+++ b/benchmarks/multi_node/minimaxm3_fp4_mi355x_atom-disagg.sh
@@ -69,6 +69,9 @@ export KV_CACHE_DTYPE="${KV_CACHE_DTYPE:-auto}"
 export MAX_MODEL_LEN="${MAX_MODEL_LEN:-32768}"
 export MAX_NUM_BATCHED_TOKENS="${MAX_NUM_BATCHED_TOKENS:-32768}"
 
+# only for MiniMax-M3-MXFP4
+export AITER_QUICK_REDUCE_QUANTIZATION=INT4
+
 # Launch jobs based on ISL/OSL
 # Replace ' ' in CONC_LIST with 'x' such that the concurrency list is represented
 # by a list of numbers delimited by 'x'. This is because of how the underlying launch script

From e534d9d02a70f8afdde4e24325bf66b626a6d187 Mon Sep 17 00:00:00 2001
From: seungrokj <seungrok.jung@amd.com>
Date: Fri, 19 Jun 2026 21:33:04 +0900
Subject: [PATCH 18/33] feat: export AITER_QUICK_REDUCE_QUANTIZATION=INT4 for
 non-DSv4 models

Also remove CUDAGRAPH_OPT from job.slurm (linter cleanup).

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 benchmarks/multi_node/amd_utils/job.slurm      | 1 -
 benchmarks/multi_node/amd_utils/server_atom.sh | 7 +++++--
 2 files changed, 5 insertions(+), 3 deletions(-)

diff --git a/benchmarks/multi_node/amd_utils/job.slurm b/benchmarks/multi_node/amd_utils/job.slurm
index 1910edbe4..92d790f76 100755
--- a/benchmarks/multi_node/amd_utils/job.slurm
+++ b/benchmarks/multi_node/amd_utils/job.slurm
@@ -418,7 +418,6 @@ elif [[ "$ENGINE" == "atom-disagg" ]]; then
         -e MAX_NUM_SEQS=${MAX_NUM_SEQS:-256}
         -e MAX_MODEL_LEN=${MAX_MODEL_LEN:-}
         -e MAX_NUM_BATCHED_TOKENS=${MAX_NUM_BATCHED_TOKENS:-}
-        -e CUDAGRAPH_OPT=${CUDAGRAPH_OPT:-}
         -e EXTRA_SERVER_ARGS=\${EXTRA_SERVER_ARGS:-}
         -e IBDEVICES=${IBDEVICES:-}
     )
diff --git a/benchmarks/multi_node/amd_utils/server_atom.sh b/benchmarks/multi_node/amd_utils/server_atom.sh
index 767d29c5a..a8e7ca05a 100644
--- a/benchmarks/multi_node/amd_utils/server_atom.sh
+++ b/benchmarks/multi_node/amd_utils/server_atom.sh
@@ -52,7 +52,6 @@ BLOCK_SIZE="${BLOCK_SIZE:-16}"
 MAX_NUM_SEQS="${MAX_NUM_SEQS:-256}"
 MAX_MODEL_LEN="${MAX_MODEL_LEN:-}"
 MAX_NUM_BATCHED_TOKENS="${MAX_NUM_BATCHED_TOKENS:-}"
-CUDAGRAPH_OPT="${CUDAGRAPH_OPT:-}"
 EXTRA_SERVER_ARGS="${EXTRA_SERVER_ARGS:-}"
 
 # Benchmark Configuration
@@ -124,6 +123,7 @@ if [ "$PREFILL_ENABLE_DP" = "true" ]; then
     fi
 fi 
 
+# (srok), split DPA & TBO cases
 DECODE_PARALLEL_ARGS=(-tp "$PREFILL_TP_SIZE") #TP
 if [ "$DECODE_ENABLE_DP" = "true" ]; then
     if [ "$DECODE_ENABLE_EP" -gt 1 ]; then #DPA+EP
@@ -162,6 +162,10 @@ if [[ -n "$MAX_NUM_BATCHED_TOKENS" ]]; then
     MODEL_LEN_ARGS="${MODEL_LEN_ARGS} --max-num-batched-tokens ${MAX_NUM_BATCHED_TOKENS}"
 fi
 
+if [[ "$MODEL_NAME" != "DeepSeek-V4-Pro" ]]; then
+    export AITER_QUICK_REDUCE_QUANTIZATION=INT4
+fi
+
 cat <<INFO
 === Configuration ===
 PREFILL  : ${PREFILL_IPS[*]} (TP=${PREFILL_TP_SIZE}, EP=${PREFILL_ENABLE_EP:-false}, DP=${PREFILL_ENABLE_DP:-false}, port=${PREFILL_PORT})
@@ -509,7 +513,6 @@ else
         --gpu-memory-utilization ${MEM_FRAC_STATIC} \
         --max-num-seqs ${DECODE_MAX_NUM_SEQS} \
         ${MODEL_LEN_ARGS} \
-        ${CUDAGRAPH_OPT} \
         --no-enable_prefix_caching \
         ${HF_OVERRIDES_ARG} \
         --kv-transfer-config '{\"kv_role\":\"kv_consumer\",\"kv_connector\":\"mooncake\",\"proxy_ip\":\"${host_ip}\",\"handshake_port\":${HANDSHAKE_PORT}}' \

From 78833bcda884764ccb48e3c638f5118e701ca227 Mon Sep 17 00:00:00 2001
From: seungrokj <seungrok.jung@amd.com>
Date: Fri, 19 Jun 2026 21:35:08 +0900
Subject: [PATCH 19/33] fix: server_atom.sh and minimaxm3 disagg cleanup

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 benchmarks/multi_node/amd_utils/server_atom.sh            | 6 +++---
 benchmarks/multi_node/minimaxm3_fp4_mi355x_atom-disagg.sh | 3 ---
 2 files changed, 3 insertions(+), 6 deletions(-)
 mode change 100644 => 100755 benchmarks/multi_node/amd_utils/server_atom.sh

diff --git a/benchmarks/multi_node/amd_utils/server_atom.sh b/benchmarks/multi_node/amd_utils/server_atom.sh
old mode 100644
new mode 100755
index a8e7ca05a..cb89fc188
--- a/benchmarks/multi_node/amd_utils/server_atom.sh
+++ b/benchmarks/multi_node/amd_utils/server_atom.sh
@@ -162,9 +162,9 @@ if [[ -n "$MAX_NUM_BATCHED_TOKENS" ]]; then
     MODEL_LEN_ARGS="${MODEL_LEN_ARGS} --max-num-batched-tokens ${MAX_NUM_BATCHED_TOKENS}"
 fi
 
-if [[ "$MODEL_NAME" != "DeepSeek-V4-Pro" ]]; then
-    export AITER_QUICK_REDUCE_QUANTIZATION=INT4
-fi
+if [[ "$MODEL_NAME" != "DeepSeek-V4-Pro" ]]; then                                                                                                                                          
+      export AITER_QUICK_REDUCE_QUANTIZATION=INT4                                                                                                                                            
+fi   
 
 cat <<INFO
 === Configuration ===
diff --git a/benchmarks/multi_node/minimaxm3_fp4_mi355x_atom-disagg.sh b/benchmarks/multi_node/minimaxm3_fp4_mi355x_atom-disagg.sh
index b372e5549..5711d1070 100644
--- a/benchmarks/multi_node/minimaxm3_fp4_mi355x_atom-disagg.sh
+++ b/benchmarks/multi_node/minimaxm3_fp4_mi355x_atom-disagg.sh
@@ -69,9 +69,6 @@ export KV_CACHE_DTYPE="${KV_CACHE_DTYPE:-auto}"
 export MAX_MODEL_LEN="${MAX_MODEL_LEN:-32768}"
 export MAX_NUM_BATCHED_TOKENS="${MAX_NUM_BATCHED_TOKENS:-32768}"
 
-# only for MiniMax-M3-MXFP4
-export AITER_QUICK_REDUCE_QUANTIZATION=INT4
-
 # Launch jobs based on ISL/OSL
 # Replace ' ' in CONC_LIST with 'x' such that the concurrency list is represented
 # by a list of numbers delimited by 'x'. This is because of how the underlying launch script

From 95f6ca468432667ae4543eeae5ee6199f3a6a717 Mon Sep 17 00:00:00 2001
From: seungrokj <seungrok.jung@amd.com>
Date: Fri, 19 Jun 2026 21:37:47 +0900
Subject: [PATCH 20/33] fix: dsv4_fp4_mi355x_atom-disagg cleanup

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 .../multi_node/dsv4_fp4_mi355x_atom-disagg.sh | 86 -------------------
 1 file changed, 86 deletions(-)
 delete mode 100644 benchmarks/multi_node/dsv4_fp4_mi355x_atom-disagg.sh

diff --git a/benchmarks/multi_node/dsv4_fp4_mi355x_atom-disagg.sh b/benchmarks/multi_node/dsv4_fp4_mi355x_atom-disagg.sh
deleted file mode 100644
index 60f85d553..000000000
--- a/benchmarks/multi_node/dsv4_fp4_mi355x_atom-disagg.sh
+++ /dev/null
@@ -1,86 +0,0 @@
-#!/usr/bin/env bash
-
-source "$(dirname "$0")/../benchmark_lib.sh"
-
-check_env_vars \
-    CONC_LIST \
-    ISL \
-    OSL \
-    IMAGE \
-    SPEC_DECODING \
-    MODEL_PATH \
-    PREFILL_NUM_WORKERS \
-    PREFILL_TP \
-    PREFILL_EP \
-    PREFILL_DP_ATTN \
-    DECODE_NUM_WORKERS \
-    DECODE_TP \
-    DECODE_EP \
-    DECODE_DP_ATTN \
-    PREFILL_NODES \
-    DECODE_NODES \
-    RANDOM_RANGE_RATIO \
-    FRAMEWORK
-
-if [[ -n "$SLURM_JOB_ID" ]]; then
-  echo "JOB $SLURM_JOB_ID running on $SLURMD_NODENAME"
-fi
-
-set -x
-
-# Use upstreamed multi_node scripts (no external clone needed)
-cd "$GITHUB_WORKSPACE/benchmarks/multi_node/amd_utils" || exit 1
-
-# Set up SGL launch script-specific environment variables
-export TIME_LIMIT="08:00:00"
-export MODEL_PATH=$MODEL_PATH
-export MODEL_NAME=$MODEL_NAME
-export CONTAINER_IMAGE=$IMAGE
-
-if [[ "${PREFILL_EP:-1}" -eq 1 ]]; then
-export PREFILL_ENABLE_EP=false
-else
-export PREFILL_ENABLE_EP=true
-fi
-
-if [[ "$PREFILL_DP_ATTN" == "true" ]]; then
-export PREFILL_ENABLE_DP=true
-else
-export PREFILL_ENABLE_DP=false
-fi
-
-if [[ "${DECODE_EP:-1}" -eq 1 ]]; then
-export DECODE_ENABLE_EP=false
-else
-export DECODE_ENABLE_EP=true
-fi
-
-if [[ "$DECODE_DP_ATTN" == "true" ]]; then
-export DECODE_ENABLE_DP=true
-else
-export DECODE_ENABLE_DP=false
-fi
-
-export SPEC_DECODING="${SPEC_DECODING}"
-export DECODE_MTP_SIZE="${DECODE_MTP_SIZE:-0}"
-
-# Launch jobs based on ISL/OSL
-# Replace ' ' in CONC_LIST with 'x' such that the concurrency list is represented
-# by a list of numbers delimited by 'x'. This is because of how the underlying launch script
-# expects the concurrencies.
-JOB_ID=$(bash ./submit.sh $PREFILL_NODES \
-    $PREFILL_NUM_WORKERS \
-    $DECODE_NODES \
-    $DECODE_NUM_WORKERS \
-    $ISL $OSL "${CONC_LIST// /x}" inf \
-    ${PREFILL_ENABLE_EP} ${PREFILL_ENABLE_DP} \
-    ${DECODE_ENABLE_EP} ${DECODE_ENABLE_DP} \
-    ${PREFILL_TP} ${DECODE_TP} \
-    ${RANDOM_RANGE_RATIO})
-
-if [[ $? -ne 0 ]]; then
-    echo "Failed to submit job" >&2
-    exit 1
-fi
-
-echo "$JOB_ID"

From b0d8f56ff98361365bb5e7df5fde595d1f7f5e5d Mon Sep 17 00:00:00 2001
From: seungrokj <seungrok.jung@amd.com>
Date: Fri, 19 Jun 2026 21:43:07 +0900
Subject: [PATCH 21/33] fix: set BLOCK_SIZE=128 for MiniMax-M3 in
 minimaxm3_fp4_mi355x_atom-disagg.sh

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 benchmarks/multi_node/minimaxm3_fp4_mi355x_atom-disagg.sh | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/benchmarks/multi_node/minimaxm3_fp4_mi355x_atom-disagg.sh b/benchmarks/multi_node/minimaxm3_fp4_mi355x_atom-disagg.sh
index 5711d1070..dfd0c596a 100644
--- a/benchmarks/multi_node/minimaxm3_fp4_mi355x_atom-disagg.sh
+++ b/benchmarks/multi_node/minimaxm3_fp4_mi355x_atom-disagg.sh
@@ -64,8 +64,9 @@ fi
 export SPEC_DECODING="none"
 export DECODE_MTP_SIZE=0
 
-# MiniMax-M3-MXFP4: no fp8 KV cache, larger context
+# MiniMax-M3-MXFP4: no fp8 KV cache, larger context, block size 128
 export KV_CACHE_DTYPE="${KV_CACHE_DTYPE:-auto}"
+export BLOCK_SIZE="${BLOCK_SIZE:-128}"
 export MAX_MODEL_LEN="${MAX_MODEL_LEN:-32768}"
 export MAX_NUM_BATCHED_TOKENS="${MAX_NUM_BATCHED_TOKENS:-32768}"
 

From 757ee4bda7579a815221d4a666d3c8b3fcc14bf2 Mon Sep 17 00:00:00 2001
From: seungrokj <seungrok.jung@amd.com>
Date: Fri, 19 Jun 2026 21:46:36 +0900
Subject: [PATCH 22/33] fix: use KV_CACHE_DTYPE=fp8 for MiniMax-M3 disagg
 (matches atom server default)

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 benchmarks/multi_node/minimaxm3_fp4_mi355x_atom-disagg.sh | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/benchmarks/multi_node/minimaxm3_fp4_mi355x_atom-disagg.sh b/benchmarks/multi_node/minimaxm3_fp4_mi355x_atom-disagg.sh
index dfd0c596a..14f406437 100644
--- a/benchmarks/multi_node/minimaxm3_fp4_mi355x_atom-disagg.sh
+++ b/benchmarks/multi_node/minimaxm3_fp4_mi355x_atom-disagg.sh
@@ -64,8 +64,8 @@ fi
 export SPEC_DECODING="none"
 export DECODE_MTP_SIZE=0
 
-# MiniMax-M3-MXFP4: no fp8 KV cache, larger context, block size 128
-export KV_CACHE_DTYPE="${KV_CACHE_DTYPE:-auto}"
+# Block size 128
+export KV_CACHE_DTYPE="${KV_CACHE_DTYPE:-fp8}"
 export BLOCK_SIZE="${BLOCK_SIZE:-128}"
 export MAX_MODEL_LEN="${MAX_MODEL_LEN:-32768}"
 export MAX_NUM_BATCHED_TOKENS="${MAX_NUM_BATCHED_TOKENS:-32768}"

From 4a03b6fa938950eccde5162e152eaaf2299bb87a Mon Sep 17 00:00:00 2001
From: seungrokj <seungrok.jung@amd.com>
Date: Sat, 20 Jun 2026 00:23:47 +0900
Subject: [PATCH 23/33] feat: update minimaxm3-fp4-mi355x-atom-disagg search
 space and disable --enable-tbo for non-DSv4 models

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 .../multi_node/amd_utils/server_atom.sh       | 20 +++++++++++++------
 1 file changed, 14 insertions(+), 6 deletions(-)

diff --git a/benchmarks/multi_node/amd_utils/server_atom.sh b/benchmarks/multi_node/amd_utils/server_atom.sh
index cb89fc188..c2f86869c 100755
--- a/benchmarks/multi_node/amd_utils/server_atom.sh
+++ b/benchmarks/multi_node/amd_utils/server_atom.sh
@@ -117,9 +117,13 @@ if [ "$PREFILL_ENABLE_DP" = "true" ]; then
     if [ "$PREFILL_ENABLE_EP" -gt 1 ]; then #DPA+EP
         PREFILL_PARALLEL_ARGS=(-tp "$PREFILL_TP_SIZE" --enable-expert-parallel --enable-dp-attention )
     else #TP+DPA+TBO
-        PREFILL_PARALLEL_ARGS=(-tp "$PREFILL_TP_SIZE" --enable-dp-attention --enable-tbo)
-        export GPU_MAX_HW_QUEUES=5
-        export ATOM_CPU_AFFINITY=1
+        if [[ "$MODEL_NAME" == "DeepSeek-V4-Pro" ]]; then
+            PREFILL_PARALLEL_ARGS=(-tp "$PREFILL_TP_SIZE" --enable-dp-attention --enable-tbo )
+            export GPU_MAX_HW_QUEUES=5
+            export ATOM_CPU_AFFINITY=1
+        else
+            PREFILL_PARALLEL_ARGS=(-tp "$PREFILL_TP_SIZE" --enable-dp-attention )
+        fi
     fi
 fi 
 
@@ -129,9 +133,13 @@ if [ "$DECODE_ENABLE_DP" = "true" ]; then
     if [ "$DECODE_ENABLE_EP" -gt 1 ]; then #DPA+EP
         DECODE_PARALLEL_ARGS=(-tp "$DECODE_TP_SIZE" --enable-expert-parallel --enable-dp-attention )
     else #TP+DPA+TBO
-        DECODE_PARALLEL_ARGS=(-tp "$DECODE_TP_SIZE" --enable-dp-attention --enable-tbo)
-        export GPU_MAX_HW_QUEUES=5
-        export ATOM_CPU_AFFINITY=1
+        if [[ "$MODEL_NAME" == "DeepSeek-V4-Pro" ]]; then
+            DECODE_PARALLEL_ARGS=(-tp "$DECODE_TP_SIZE" --enable-dp-attention --enable-tbo )
+            export GPU_MAX_HW_QUEUES=5
+            export ATOM_CPU_AFFINITY=1
+        else
+            DECODE_PARALLEL_ARGS=(-tp "$DECODE_TP_SIZE" --enable-dp-attention )
+        fi
     fi
 fi 
 

From 086373f2c73cea405504e7554e3cc36a45703a3d Mon Sep 17 00:00:00 2001
From: seungrokj <seungrok.jung@amd.com>
Date: Sat, 20 Jun 2026 00:26:53 +0900
Subject: [PATCH 24/33] feat: add MiniMax-M3-MXFP4/MXFP8 to models_atom.yaml;
 set KV_CACHE_DTYPE default to empty for minimaxm3 disagg

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 benchmarks/multi_node/amd_utils/models_atom.yaml       | 10 ++++++++++
 .../multi_node/minimaxm3_fp4_mi355x_atom-disagg.sh     |  2 +-
 2 files changed, 11 insertions(+), 1 deletion(-)

diff --git a/benchmarks/multi_node/amd_utils/models_atom.yaml b/benchmarks/multi_node/amd_utils/models_atom.yaml
index 0a3321fc2..85771eeaa 100644
--- a/benchmarks/multi_node/amd_utils/models_atom.yaml
+++ b/benchmarks/multi_node/amd_utils/models_atom.yaml
@@ -44,3 +44,13 @@ DeepSeek-V4-Pro:
   base_flags: ""
   mtp_flags: ""
   dp_flags: ""
+
+MiniMax-M3-MXFP4:
+  base_flags: ""
+  mtp_flags: ""
+  dp_flags: ""
+
+MiniMax-M3-MXFP8:
+  base_flags: ""
+  mtp_flags: ""
+  dp_flags: ""
\ No newline at end of file
diff --git a/benchmarks/multi_node/minimaxm3_fp4_mi355x_atom-disagg.sh b/benchmarks/multi_node/minimaxm3_fp4_mi355x_atom-disagg.sh
index 14f406437..16e23e132 100644
--- a/benchmarks/multi_node/minimaxm3_fp4_mi355x_atom-disagg.sh
+++ b/benchmarks/multi_node/minimaxm3_fp4_mi355x_atom-disagg.sh
@@ -65,7 +65,7 @@ export SPEC_DECODING="none"
 export DECODE_MTP_SIZE=0
 
 # Block size 128
-export KV_CACHE_DTYPE="${KV_CACHE_DTYPE:-fp8}"
+export KV_CACHE_DTYPE="${KV_CACHE_DTYPE:-}"
 export BLOCK_SIZE="${BLOCK_SIZE:-128}"
 export MAX_MODEL_LEN="${MAX_MODEL_LEN:-32768}"
 export MAX_NUM_BATCHED_TOKENS="${MAX_NUM_BATCHED_TOKENS:-32768}"

From 92252fc880ed8ff5c6679f28473e37e5077260a3 Mon Sep 17 00:00:00 2001
From: seungrokj <seungrok.jung@amd.com>
Date: Sat, 20 Jun 2026 08:27:07 +0900
Subject: [PATCH 25/33] fix: set mi355x-disagg runner and add dynamic cudagraph
 sizes for decode node

- Change runner from mi355x to mi355x-disagg in amd-master.yaml for minimaxm3-fp4 disagg
- Add dynamic CUDAGRAPH_SIZES selection in server_atom.sh based on max concurrency thresholds (512/1024/2048)
- Pass --cudagraph-capture-sizes to decode node server args

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 benchmarks/multi_node/amd_utils/server_atom.sh | 11 ++++++++++-
 1 file changed, 10 insertions(+), 1 deletion(-)

diff --git a/benchmarks/multi_node/amd_utils/server_atom.sh b/benchmarks/multi_node/amd_utils/server_atom.sh
index c2f86869c..8e65efda9 100755
--- a/benchmarks/multi_node/amd_utils/server_atom.sh
+++ b/benchmarks/multi_node/amd_utils/server_atom.sh
@@ -502,7 +502,15 @@ else
     RANK=$((NODE_RANK - NODE_OFFSET))
     echo "${host_name}:${host_ip} is Decode Node (rank ${RANK})"
 
-    _MAX_CONC=$(echo "$BENCH_MAX_CONCURRENCY" | tr 'x' '\n' | sort -n | tail -1)
+    if [[ "$_MAX_CONC" -gt 2048 ]]; then
+        CUDAGRAPH_SIZES='[1,2,4,8,12,16,20,24,28,32,36,40,44,48,52,56,60,64,68,72,76,80,84,88,92,96,100,104,108,112,116,120,124,128,132,136,140,144,148,152,156,160,164,168,172,176,180,184,188,192,196,200,204,208,212,216,220,224,228,232,236,240,244,248,252,256,512,1024,2048,4096]'
+    elif [[ "$_MAX_CONC" -gt 1024 ]]; then
+        CUDAGRAPH_SIZES='[1,2,4,8,12,16,20,24,28,32,36,40,44,48,52,56,60,64,68,72,76,80,84,88,92,96,100,104,108,112,116,120,124,128,132,136,140,144,148,152,156,160,164,168,172,176,180,184,188,192,196,200,204,208,212,216,220,224,228,232,236,240,244,248,252,256,512,1024,2048]'
+    elif [[ "$_MAX_CONC" -gt 512 ]]; then
+        CUDAGRAPH_SIZES='[1,2,4,8,12,16,20,24,28,32,36,40,44,48,52,56,60,64,68,72,76,80,84,88,92,96,100,104,108,112,116,120,124,128,132,136,140,144,148,152,156,160,164,168,172,176,180,184,188,192,196,200,204,208,212,216,220,224,228,232,236,240,244,248,252,256,512,768,1024]'
+    else
+        CUDAGRAPH_SIZES='[1,2,4,8,12,16,20,24,28,32,36,40,44,48,52,56,60,64,68,72,76,80,84,88,92,96,100,104,108,112,116,120,124,128,132,136,140,144,148,152,156,160,164,168,172,176,180,184,188,192,196,200,204,208,212,216,220,224,228,232,236,240,244,248,252,256,512]'
+    fi
 
     if [[ "$BENCH_INPUT_LEN" == "1024" && "$BENCH_OUTPUT_LEN" == "1024" ]]; then
         DECODE_MAX_NUM_SEQS="${_MAX_CONC}"
@@ -524,6 +532,7 @@ else
         --no-enable_prefix_caching \
         ${HF_OVERRIDES_ARG} \
         --kv-transfer-config '{\"kv_role\":\"kv_consumer\",\"kv_connector\":\"mooncake\",\"proxy_ip\":\"${host_ip}\",\"handshake_port\":${HANDSHAKE_PORT}}' \
+        --cudagraph-capture-sizes "${CUDAGRAPH_SIZES}" \
         ${EXTRA_SERVER_ARGS}"
 
     if [[ "$DRY_RUN" -eq 1 ]]; then

From e7bba6f3532a4e8ae7f03e6f862ae6bb5e0ee36e Mon Sep 17 00:00:00 2001
From: seungrokj <seungrok.jung@amd.com>
Date: Sat, 20 Jun 2026 08:52:23 +0900
Subject: [PATCH 26/33] fix: gate ATOM_MOE_GU_ITLV and AITER_BF16_FP8_MOE_BOUND
 on DeepSeek-V4-Pro only

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 benchmarks/multi_node/amd_utils/env_atom.sh | 10 ++++++----
 1 file changed, 6 insertions(+), 4 deletions(-)

diff --git a/benchmarks/multi_node/amd_utils/env_atom.sh b/benchmarks/multi_node/amd_utils/env_atom.sh
index 52f81b7d6..f2b906312 100644
--- a/benchmarks/multi_node/amd_utils/env_atom.sh
+++ b/benchmarks/multi_node/amd_utils/env_atom.sh
@@ -46,16 +46,18 @@ export LOGLEVEL=WARNING
 # mooncake RDMA KV transfer library path
 export LD_LIBRARY_PATH=/opt/venv/lib/python3.10/site-packages/mooncake:/opt/rocm/lib:${LD_LIBRARY_PATH:-}
 
-# ATOM MoE gather/scatter interleave optimization
-export ATOM_MOE_GU_ITLV=1
 
 # ATOM_HOST_IP is set per-node in server_atom.sh (= host_ip, used as handshake IP)
 
 # aiter logging (WARNING to reduce noise; use DEBUG for troubleshooting)
 export AITER_LOG_LEVEL=WARNING
 
-# Disable bf16->fp8 MoE bound (matches reference script)
-export AITER_BF16_FP8_MOE_BOUND=0
+if [[ "$MODEL_NAME" == "DeepSeek-V4-Pro" ]]; then
+    # ATOM MoE gather/scatter interleave optimization
+    export ATOM_MOE_GU_ITLV=1
+    # Disable bf16->fp8 MoE bound (only for DeepSeek-V4-Pro)
+    export AITER_BF16_FP8_MOE_BOUND=0
+fi
 
 # Clear stale ATOM cache on startup (server_atom.sh handles this via rm -rf)
 # No env var needed; documented here for reference.

From 04327df68a8fe9a66b5cb15a2ae2c6280d8a36c6 Mon Sep 17 00:00:00 2001
From: seungrokj <seungrok.jung@amd.com>
Date: Sat, 20 Jun 2026 09:12:16 +0900
Subject: [PATCH 27/33] fix: preserve empty KV_CACHE_DTYPE to skip
 --kv-cache-dtype flag

Use ${KV_CACHE_DTYPE-fp8} so empty string (set by minimaxm3 script) is
left as-is, avoiding unintended --kv-cache-dtype pass-through.

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 benchmarks/multi_node/amd_utils/server_atom.sh | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/benchmarks/multi_node/amd_utils/server_atom.sh b/benchmarks/multi_node/amd_utils/server_atom.sh
index 8e65efda9..b82baefa7 100755
--- a/benchmarks/multi_node/amd_utils/server_atom.sh
+++ b/benchmarks/multi_node/amd_utils/server_atom.sh
@@ -47,7 +47,8 @@ HANDSHAKE_PORT="${HANDSHAKE_PORT:-6301}"
 
 # ATOM server tuning (from reference script defaults)
 MEM_FRAC_STATIC="${MEM_FRAC_STATIC:-0.85}"
-KV_CACHE_DTYPE="${KV_CACHE_DTYPE:-fp8}"
+#  KV_CACHE_DTYPE- - treats only unset as "use default" — empty string is left as-is
+KV_CACHE_DTYPE="${KV_CACHE_DTYPE-fp8}"
 BLOCK_SIZE="${BLOCK_SIZE:-16}"
 MAX_NUM_SEQS="${MAX_NUM_SEQS:-256}"
 MAX_MODEL_LEN="${MAX_MODEL_LEN:-}"

From c79cf92e0c75af9131f1510280b49410d6b40978 Mon Sep 17 00:00:00 2001
From: seungrokj <seungrok.jung@amd.com>
Date: Sat, 20 Jun 2026 09:27:08 +0900
Subject: [PATCH 28/33] fix: use KV_CACHE_DTYPE=auto for minimaxm3 disagg to
 skip --kv-cache-dtype flag

Set KV_CACHE_DTYPE to auto in minimaxm3_fp4_mi355x_atom-disagg.sh and
revert server_atom.sh to use :- expansion (auto is explicitly excluded
from KV_CACHE_ARG in server_atom.sh, so the flag is not passed).

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 benchmarks/multi_node/amd_utils/server_atom.sh            | 3 +--
 benchmarks/multi_node/minimaxm3_fp4_mi355x_atom-disagg.sh | 2 +-
 2 files changed, 2 insertions(+), 3 deletions(-)

diff --git a/benchmarks/multi_node/amd_utils/server_atom.sh b/benchmarks/multi_node/amd_utils/server_atom.sh
index b82baefa7..8e65efda9 100755
--- a/benchmarks/multi_node/amd_utils/server_atom.sh
+++ b/benchmarks/multi_node/amd_utils/server_atom.sh
@@ -47,8 +47,7 @@ HANDSHAKE_PORT="${HANDSHAKE_PORT:-6301}"
 
 # ATOM server tuning (from reference script defaults)
 MEM_FRAC_STATIC="${MEM_FRAC_STATIC:-0.85}"
-#  KV_CACHE_DTYPE- - treats only unset as "use default" — empty string is left as-is
-KV_CACHE_DTYPE="${KV_CACHE_DTYPE-fp8}"
+KV_CACHE_DTYPE="${KV_CACHE_DTYPE:-fp8}"
 BLOCK_SIZE="${BLOCK_SIZE:-16}"
 MAX_NUM_SEQS="${MAX_NUM_SEQS:-256}"
 MAX_MODEL_LEN="${MAX_MODEL_LEN:-}"
diff --git a/benchmarks/multi_node/minimaxm3_fp4_mi355x_atom-disagg.sh b/benchmarks/multi_node/minimaxm3_fp4_mi355x_atom-disagg.sh
index 16e23e132..f593cf05e 100644
--- a/benchmarks/multi_node/minimaxm3_fp4_mi355x_atom-disagg.sh
+++ b/benchmarks/multi_node/minimaxm3_fp4_mi355x_atom-disagg.sh
@@ -65,7 +65,7 @@ export SPEC_DECODING="none"
 export DECODE_MTP_SIZE=0
 
 # Block size 128
-export KV_CACHE_DTYPE="${KV_CACHE_DTYPE:-}"
+export KV_CACHE_DTYPE="${KV_CACHE_DTYPE:-auto}"
 export BLOCK_SIZE="${BLOCK_SIZE:-128}"
 export MAX_MODEL_LEN="${MAX_MODEL_LEN:-32768}"
 export MAX_NUM_BATCHED_TOKENS="${MAX_NUM_BATCHED_TOKENS:-32768}"

From 7c5eee18c69b6b29c507a6851e92bf157aed7f18 Mon Sep 17 00:00:00 2001
From: seungrokj <seungrok.jung@amd.com>
Date: Sat, 20 Jun 2026 11:24:10 +0900
Subject: [PATCH 29/33] fix: align minimaxm3 disagg settings with slurm
 reference script

- disagg.sh: export MEM_FRAC_STATIC=0.8 and MAX_NUM_SEQS=128
- server_atom.sh: fix missing _MAX_CONC assignment before cudagraph size check
- amd-master.yaml: trim ISL=8192 to 1P1D only, cap conc at 512 for both ISLs

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 benchmarks/multi_node/amd_utils/server_atom.sh            | 1 +
 benchmarks/multi_node/minimaxm3_fp4_mi355x_atom-disagg.sh | 2 ++
 2 files changed, 3 insertions(+)

diff --git a/benchmarks/multi_node/amd_utils/server_atom.sh b/benchmarks/multi_node/amd_utils/server_atom.sh
index 8e65efda9..106ee5769 100755
--- a/benchmarks/multi_node/amd_utils/server_atom.sh
+++ b/benchmarks/multi_node/amd_utils/server_atom.sh
@@ -502,6 +502,7 @@ else
     RANK=$((NODE_RANK - NODE_OFFSET))
     echo "${host_name}:${host_ip} is Decode Node (rank ${RANK})"
 
+    _MAX_CONC=$(echo "$BENCH_MAX_CONCURRENCY" | tr 'x' '\n' | sort -n | tail -1)
     if [[ "$_MAX_CONC" -gt 2048 ]]; then
         CUDAGRAPH_SIZES='[1,2,4,8,12,16,20,24,28,32,36,40,44,48,52,56,60,64,68,72,76,80,84,88,92,96,100,104,108,112,116,120,124,128,132,136,140,144,148,152,156,160,164,168,172,176,180,184,188,192,196,200,204,208,212,216,220,224,228,232,236,240,244,248,252,256,512,1024,2048,4096]'
     elif [[ "$_MAX_CONC" -gt 1024 ]]; then
diff --git a/benchmarks/multi_node/minimaxm3_fp4_mi355x_atom-disagg.sh b/benchmarks/multi_node/minimaxm3_fp4_mi355x_atom-disagg.sh
index f593cf05e..8c9e38309 100644
--- a/benchmarks/multi_node/minimaxm3_fp4_mi355x_atom-disagg.sh
+++ b/benchmarks/multi_node/minimaxm3_fp4_mi355x_atom-disagg.sh
@@ -67,7 +67,9 @@ export DECODE_MTP_SIZE=0
 # Block size 128
 export KV_CACHE_DTYPE="${KV_CACHE_DTYPE:-auto}"
 export BLOCK_SIZE="${BLOCK_SIZE:-128}"
+export MEM_FRAC_STATIC="${MEM_FRAC_STATIC:-0.8}"
 export MAX_MODEL_LEN="${MAX_MODEL_LEN:-32768}"
+export MAX_NUM_SEQS="${MAX_NUM_SEQS:-128}"
 export MAX_NUM_BATCHED_TOKENS="${MAX_NUM_BATCHED_TOKENS:-32768}"
 
 # Launch jobs based on ISL/OSL

From daf2666346d8ca85baff36296a0c119864e5ff49 Mon Sep 17 00:00:00 2001
From: seungrokj <seungrok.jung@amd.com>
Date: Sat, 20 Jun 2026 13:12:38 +0900
Subject: [PATCH 30/33] fix: rename minimaxm3-fp4-mi355x-atom-disagg to
 minimaxm3-fp8 and remove stale perf-changelog entry

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 perf-changelog.yaml | 19 +++++++++----------
 1 file changed, 9 insertions(+), 10 deletions(-)

diff --git a/perf-changelog.yaml b/perf-changelog.yaml
index a4463829a..9ff5b804d 100644
--- a/perf-changelog.yaml
+++ b/perf-changelog.yaml
@@ -1,13 +1,3 @@
-- config-keys:
-    - dsv4-fp4-mi355x-atom-disagg-mtp
-  description:
-    - "Add dsv4-fp4-mi355x-atom-disagg-mtp recipe: multi-node disaggregated PD on MI355X via ATOM with MTP speculative decoding"
-    - "2P1D DPA+TBO+MTP1 sweep at ISL8192 (conc 256-2048)"
-    - "1P1D TP8+MTP3 sweep at ISL8192 (conc 4-128)"
-    - "1P1D TP8+DPA+MTP1 sweep at ISL1024 (conc 64-1024)"
-    - "Image: rocm/atom-dev:nightly_202606181332"
-  pr-link: https://github.com/SemiAnalysisAI/InferenceX/pull/1855
-
 - config-keys:
     - 70b-fp8-*-vllm
   description:
@@ -4046,3 +4036,12 @@
     - "Image: lmsysorg/sglang:nightly-dev-cu13-20260608-303757cc"
     - "6 topologies across 1k/1k and 8k/1k: 1P1D TP4 STP + wide-EP (DEP4 prefill / DEP16 decode) from 1P1D up to 8P1D, recipes under benchmarks/multi_node/srt-slurm-recipes/sglang/qwen3.5/gb200-fp8/"
   pr-link: https://github.com/SemiAnalysisAI/InferenceX/pull/1810
+
+- config-keys:
+    - minimaxm3-fp8-mi355x-atom-disagg
+  description:
+    - "Add minimaxm3-fp8-mi355x-atom-disagg CI recipe: multi-node disaggregated PD on MI355X via ATOM for MiniMax-M3-MXFP8"
+    - "Settings aligned with slurm reference: MEM_FRAC_STATIC=0.8, MAX_NUM_SEQS=128, BLOCK_SIZE=128, MAX_MODEL_LEN=32768, KV_CACHE_DTYPE=auto"
+    - "server_atom.sh: fix _MAX_CONC assignment before cudagraph size check; gate ATOM_MOE_GU_ITLV/AITER_BF16_FP8_MOE_BOUND on DeepSeek-V4-Pro only"
+    - "Search space: ISL=8192 and ISL=1024, 1P1D TP4, conc 1-512"
+  pr-link: https://github.com/SemiAnalysisAI/InferenceX/pull/1865

From 634edc8b9a0f3d515d05a37a566b2257bae756b4 Mon Sep 17 00:00:00 2001
From: seungrokj <seungrok.jung@amd.com>
Date: Sat, 20 Jun 2026 23:39:10 +0900
Subject: [PATCH 31/33] feat: add minimaxm3_fp8_mi355x_atom-disagg multi-node
 benchmark script

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 .../minimaxm3_fp8_mi355x_atom-disagg.sh       | 94 +++++++++++++++++++
 1 file changed, 94 insertions(+)
 create mode 100644 benchmarks/multi_node/minimaxm3_fp8_mi355x_atom-disagg.sh

diff --git a/benchmarks/multi_node/minimaxm3_fp8_mi355x_atom-disagg.sh b/benchmarks/multi_node/minimaxm3_fp8_mi355x_atom-disagg.sh
new file mode 100644
index 000000000..8c9e38309
--- /dev/null
+++ b/benchmarks/multi_node/minimaxm3_fp8_mi355x_atom-disagg.sh
@@ -0,0 +1,94 @@
+#!/usr/bin/env bash
+
+source "$(dirname "$0")/../benchmark_lib.sh"
+
+check_env_vars \
+    CONC_LIST \
+    ISL \
+    OSL \
+    IMAGE \
+    MODEL_PATH \
+    PREFILL_NUM_WORKERS \
+    PREFILL_TP \
+    PREFILL_EP \
+    PREFILL_DP_ATTN \
+    DECODE_NUM_WORKERS \
+    DECODE_TP \
+    DECODE_EP \
+    DECODE_DP_ATTN \
+    PREFILL_NODES \
+    DECODE_NODES \
+    RANDOM_RANGE_RATIO \
+    FRAMEWORK
+
+if [[ -n "$SLURM_JOB_ID" ]]; then
+  echo "JOB $SLURM_JOB_ID running on $SLURMD_NODENAME"
+fi
+
+set -x
+
+# Use upstreamed multi_node scripts (no external clone needed)
+cd "$GITHUB_WORKSPACE/benchmarks/multi_node/amd_utils" || exit 1
+
+# Set up SGL launch script-specific environment variables
+export TIME_LIMIT="08:00:00"
+export MODEL_PATH=$MODEL_PATH
+export MODEL_NAME=$MODEL_NAME
+export CONTAINER_IMAGE=$IMAGE
+
+if [[ "${PREFILL_EP:-1}" -eq 1 ]]; then
+export PREFILL_ENABLE_EP=false
+else
+export PREFILL_ENABLE_EP=true
+fi
+
+if [[ "$PREFILL_DP_ATTN" == "true" ]]; then
+export PREFILL_ENABLE_DP=true
+else
+export PREFILL_ENABLE_DP=false
+fi
+
+if [[ "${DECODE_EP:-1}" -eq 1 ]]; then
+export DECODE_ENABLE_EP=false
+else
+export DECODE_ENABLE_EP=true
+fi
+
+if [[ "$DECODE_DP_ATTN" == "true" ]]; then
+export DECODE_ENABLE_DP=true
+else
+export DECODE_ENABLE_DP=false
+fi
+
+# No MTP for MiniMax-M3
+export SPEC_DECODING="none"
+export DECODE_MTP_SIZE=0
+
+# Block size 128
+export KV_CACHE_DTYPE="${KV_CACHE_DTYPE:-auto}"
+export BLOCK_SIZE="${BLOCK_SIZE:-128}"
+export MEM_FRAC_STATIC="${MEM_FRAC_STATIC:-0.8}"
+export MAX_MODEL_LEN="${MAX_MODEL_LEN:-32768}"
+export MAX_NUM_SEQS="${MAX_NUM_SEQS:-128}"
+export MAX_NUM_BATCHED_TOKENS="${MAX_NUM_BATCHED_TOKENS:-32768}"
+
+# Launch jobs based on ISL/OSL
+# Replace ' ' in CONC_LIST with 'x' such that the concurrency list is represented
+# by a list of numbers delimited by 'x'. This is because of how the underlying launch script
+# expects the concurrencies.
+JOB_ID=$(bash ./submit.sh $PREFILL_NODES \
+    $PREFILL_NUM_WORKERS \
+    $DECODE_NODES \
+    $DECODE_NUM_WORKERS \
+    $ISL $OSL "${CONC_LIST// /x}" inf \
+    ${PREFILL_ENABLE_EP} ${PREFILL_ENABLE_DP} \
+    ${DECODE_ENABLE_EP} ${DECODE_ENABLE_DP} \
+    ${PREFILL_TP} ${DECODE_TP} \
+    ${RANDOM_RANGE_RATIO})
+
+if [[ $? -ne 0 ]]; then
+    echo "Failed to submit job" >&2
+    exit 1
+fi
+
+echo "$JOB_ID"

From c7824d949dcc232fe5c252ed4ed7b6115116bb3c Mon Sep 17 00:00:00 2001
From: seungrokj <seungrok.jung@amd.com>
Date: Sun, 21 Jun 2026 22:40:27 +0900
Subject: [PATCH 32/33] benchmarks: rename minimaxm3 to dsv4 atom-disagg script
 and generalize config

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 .github/configs/amd-master.yaml                     |  2 +-
 benchmarks/multi_node/amd_utils/server_atom.sh      |  6 +++---
 ...tom-disagg.sh => dsv4_fp4_mi355x_atom-disagg.sh} | 13 +------------
 3 files changed, 5 insertions(+), 16 deletions(-)
 rename benchmarks/multi_node/{minimaxm3_fp4_mi355x_atom-disagg.sh => dsv4_fp4_mi355x_atom-disagg.sh} (82%)

diff --git a/.github/configs/amd-master.yaml b/.github/configs/amd-master.yaml
index f86d77ef9..baa75db56 100644
--- a/.github/configs/amd-master.yaml
+++ b/.github/configs/amd-master.yaml
@@ -2646,7 +2646,7 @@ minimaxm3-fp8-mi355x-atom-disagg:
     - isl: 1024
       osl: 1024
       search-space:
-      # 1P1D TP4 
+      # 1P1D TP4
       - conc-list: [ 1, 2, 4, 8, 16, 32, 64, 128, 256, 512 ]
         prefill:
           num-worker: 1
diff --git a/benchmarks/multi_node/amd_utils/server_atom.sh b/benchmarks/multi_node/amd_utils/server_atom.sh
index 106ee5769..a28642471 100755
--- a/benchmarks/multi_node/amd_utils/server_atom.sh
+++ b/benchmarks/multi_node/amd_utils/server_atom.sh
@@ -170,9 +170,9 @@ if [[ -n "$MAX_NUM_BATCHED_TOKENS" ]]; then
     MODEL_LEN_ARGS="${MODEL_LEN_ARGS} --max-num-batched-tokens ${MAX_NUM_BATCHED_TOKENS}"
 fi
 
-if [[ "$MODEL_NAME" != "DeepSeek-V4-Pro" ]]; then                                                                                                                                          
-      export AITER_QUICK_REDUCE_QUANTIZATION=INT4                                                                                                                                            
-fi   
+if [[ "$MODEL_NAME" != "DeepSeek-V4-Pro" ]]; then
+      export AITER_QUICK_REDUCE_QUANTIZATION=INT4
+fi
 
 cat <<INFO
 === Configuration ===
diff --git a/benchmarks/multi_node/minimaxm3_fp4_mi355x_atom-disagg.sh b/benchmarks/multi_node/dsv4_fp4_mi355x_atom-disagg.sh
similarity index 82%
rename from benchmarks/multi_node/minimaxm3_fp4_mi355x_atom-disagg.sh
rename to benchmarks/multi_node/dsv4_fp4_mi355x_atom-disagg.sh
index 8c9e38309..d17d1a323 100644
--- a/benchmarks/multi_node/minimaxm3_fp4_mi355x_atom-disagg.sh
+++ b/benchmarks/multi_node/dsv4_fp4_mi355x_atom-disagg.sh
@@ -7,6 +7,7 @@ check_env_vars \
     ISL \
     OSL \
     IMAGE \
+    SPEC_DECODING \
     MODEL_PATH \
     PREFILL_NUM_WORKERS \
     PREFILL_TP \
@@ -60,18 +61,6 @@ else
 export DECODE_ENABLE_DP=false
 fi
 
-# No MTP for MiniMax-M3
-export SPEC_DECODING="none"
-export DECODE_MTP_SIZE=0
-
-# Block size 128
-export KV_CACHE_DTYPE="${KV_CACHE_DTYPE:-auto}"
-export BLOCK_SIZE="${BLOCK_SIZE:-128}"
-export MEM_FRAC_STATIC="${MEM_FRAC_STATIC:-0.8}"
-export MAX_MODEL_LEN="${MAX_MODEL_LEN:-32768}"
-export MAX_NUM_SEQS="${MAX_NUM_SEQS:-128}"
-export MAX_NUM_BATCHED_TOKENS="${MAX_NUM_BATCHED_TOKENS:-32768}"
-
 # Launch jobs based on ISL/OSL
 # Replace ' ' in CONC_LIST with 'x' such that the concurrency list is represented
 # by a list of numbers delimited by 'x'. This is because of how the underlying launch script

From fa89765aa9c838c6143e1b2d16dd71bccac40cbc Mon Sep 17 00:00:00 2001
From: seungrokj <seungrok.jung@amd.com>
Date: Tue, 23 Jun 2026 10:35:45 +0900
Subject: [PATCH 33/33] fix: bump minimaxm3-fp8-mi355x-atom-disagg image and
 pin MAX_MODEL_LEN

- amd-master.yaml: bump image to rocm/atom-dev:MiniMax-M3-20260622
- minimaxm3_fp8_mi355x_atom-disagg.sh: unconditionally set MAX_MODEL_LEN=32768
- server_atom.sh: minor comment cleanup

Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
---
 .github/configs/amd-master.yaml                           | 2 +-
 benchmarks/multi_node/amd_utils/server_atom.sh            | 4 ++--
 benchmarks/multi_node/minimaxm3_fp8_mi355x_atom-disagg.sh | 2 +-
 3 files changed, 4 insertions(+), 4 deletions(-)

diff --git a/.github/configs/amd-master.yaml b/.github/configs/amd-master.yaml
index baa75db56..7771926b6 100644
--- a/.github/configs/amd-master.yaml
+++ b/.github/configs/amd-master.yaml
@@ -2613,7 +2613,7 @@ minimaxm3-fp4-mi355x-atom:
       - { tp: 8, conc-start: 1, conc-end: 2 }
 
 minimaxm3-fp8-mi355x-atom-disagg:
-  image: rocm/atom-dev:MiniMax-M3-20260619
+  image: rocm/atom-dev:MiniMax-M3-20260622
   model: amd/MiniMax-M3-MXFP8
   model-prefix: minimaxm3
   runner: mi355x-disagg
diff --git a/benchmarks/multi_node/amd_utils/server_atom.sh b/benchmarks/multi_node/amd_utils/server_atom.sh
index a28642471..5ecb85ec2 100755
--- a/benchmarks/multi_node/amd_utils/server_atom.sh
+++ b/benchmarks/multi_node/amd_utils/server_atom.sh
@@ -121,7 +121,7 @@ if [ "$PREFILL_ENABLE_DP" = "true" ]; then
             PREFILL_PARALLEL_ARGS=(-tp "$PREFILL_TP_SIZE" --enable-dp-attention --enable-tbo )
             export GPU_MAX_HW_QUEUES=5
             export ATOM_CPU_AFFINITY=1
-        else
+        else #TP+DPA 
             PREFILL_PARALLEL_ARGS=(-tp "$PREFILL_TP_SIZE" --enable-dp-attention )
         fi
     fi
@@ -137,7 +137,7 @@ if [ "$DECODE_ENABLE_DP" = "true" ]; then
             DECODE_PARALLEL_ARGS=(-tp "$DECODE_TP_SIZE" --enable-dp-attention --enable-tbo )
             export GPU_MAX_HW_QUEUES=5
             export ATOM_CPU_AFFINITY=1
-        else
+        else #TP+DPA 
             DECODE_PARALLEL_ARGS=(-tp "$DECODE_TP_SIZE" --enable-dp-attention )
         fi
     fi
diff --git a/benchmarks/multi_node/minimaxm3_fp8_mi355x_atom-disagg.sh b/benchmarks/multi_node/minimaxm3_fp8_mi355x_atom-disagg.sh
index 8c9e38309..505f74319 100644
--- a/benchmarks/multi_node/minimaxm3_fp8_mi355x_atom-disagg.sh
+++ b/benchmarks/multi_node/minimaxm3_fp8_mi355x_atom-disagg.sh
@@ -68,7 +68,7 @@ export DECODE_MTP_SIZE=0
 export KV_CACHE_DTYPE="${KV_CACHE_DTYPE:-auto}"
 export BLOCK_SIZE="${BLOCK_SIZE:-128}"
 export MEM_FRAC_STATIC="${MEM_FRAC_STATIC:-0.8}"
-export MAX_MODEL_LEN="${MAX_MODEL_LEN:-32768}"
+export MAX_MODEL_LEN=32768
 export MAX_NUM_SEQS="${MAX_NUM_SEQS:-128}"
 export MAX_NUM_BATCHED_TOKENS="${MAX_NUM_BATCHED_TOKENS:-32768}"