Tested on RTX5090

Alwaysproblem · Alwaysproblem · commit 1d98f48c1cb6 · 2026-03-08T01:13:31.000Z
diff --git a/mlir/cuda-tile/README.md b/mlir/cuda-tile/README.md
@@ -152,7 +152,7 @@ compdb -p build list > compile_commands.json
 #   func.func private @cuda_shim_stream_destroy(i64)
 #   func.func private @cuda_shim_free(i64, i64)
 #   func.func private @cuda_shim_stream_synchronize(i64)
-#   func.func private @cuda_shim_launch_block_packed(i64, i64, i32, i32, i32, i64, i64, i64, i32)
+#   func.func private @cuda_shim_launch_grid_packed(i64, i64, i32, i32, i32, i64, i64, i64, i32)
 #   func.func private @cuda_shim_memcpy_d2h(i64, i64, i64)
 #   func.func private @cuda_shim_memcpy_h2d(i64, i64, i64)
 #   func.func private @cuda_shim_malloc(i64, i64, i1) -> i64
@@ -255,7 +255,7 @@ compdb -p build list > compile_commands.json
 #     %14 = arith.index_cast %intptr_27 : index to i64
 #     %intptr_28 = memref.extract_aligned_pointer_as_index %alloc_22 : memref<4xi64> -> index
 #     %15 = arith.index_cast %intptr_28 : index to i64
-#     call @cuda_shim_launch_block_packed(%4, %3, %c8_i32, %c1_i32, %c1_i32, %5, %14, %15, %c4_i32) : (i64, i64, i32, i32, i32, i64, i64, i64, i32) -> ()
+#     call @cuda_shim_launch_grid_packed(%4, %3, %c8_i32, %c1_i32, %c1_i32, %5, %14, %15, %c4_i32) : (i64, i64, i32, i32, i32, i64, i64, i64, i32) -> ()
 #     call @cuda_shim_stream_synchronize(%5) : (i64) -> ()
 #     call @cuda_shim_memcpy_d2h(%13, %12, %c32_i64) : (i64, i64, i64) -> ()
 #     memref.dealloc %alloc_21 : memref<4xi64>
@@ -292,7 +292,7 @@ compdb -p build list > compile_commands.json
 #   llvm.func @cuda_shim_stream_destroy(i64) attributes {sym_visibility = "private"}
 #   llvm.func @cuda_shim_free(i64, i64) attributes {sym_visibility = "private"}
 #   llvm.func @cuda_shim_stream_synchronize(i64) attributes {sym_visibility = "private"}
-#   llvm.func @cuda_shim_launch_block_packed(i64, i64, i32, i32, i32, i64, i64, i64, i32) attributes {sym_visibility = "private"}
+#   llvm.func @cuda_shim_launch_grid_packed(i64, i64, i32, i32, i32, i64, i64, i64, i32) attributes {sym_visibility = "private"}
 #   llvm.func @cuda_shim_memcpy_d2h(i64, i64, i64) attributes {sym_visibility = "private"}
 #   llvm.func @cuda_shim_memcpy_h2d(i64, i64, i64) attributes {sym_visibility = "private"}
 #   llvm.func @cuda_shim_malloc(i64, i64, i1) -> i64 attributes {sym_visibility = "private"}
@@ -350,7 +350,7 @@ compdb -p build list > compile_commands.json
 # !10 = !DISubprogram(name: "cuda_shim_stream_destroy", linkageName: "cuda_shim_stream_destroy", scope: !9, file: !9, line: 1, type: !4, scopeLine: 1, spFlags: DISPFlagOptimized)
 # !11 = !DISubprogram(name: "cuda_shim_free", linkageName: "cuda_shim_free", scope: !9, file: !9, line: 1, type: !4, scopeLine: 1, spFlags: DISPFlagOptimized)
 # !12 = !DISubprogram(name: "cuda_shim_stream_synchronize", linkageName: "cuda_shim_stream_synchronize", scope: !9, file: !9, line: 1, type: !4, scopeLine: 1, spFlags: DISPFlagOptimized)
-# !13 = !DISubprogram(name: "cuda_shim_launch_block_packed", linkageName: "cuda_shim_launch_block_packed", scope: !9, file: !9, line: 1, type: !4, scopeLine: 1, spFlags: DISPFlagOptimized)
+# !13 = !DISubprogram(name: "cuda_shim_launch_grid_packed", linkageName: "cuda_shim_launch_grid_packed", scope: !9, file: !9, line: 1, type: !4, scopeLine: 1, spFlags: DISPFlagOptimized)
 # !14 = !DISubprogram(name: "cuda_shim_memcpy_d2h", linkageName: "cuda_shim_memcpy_d2h", scope: !9, file: !9, line: 1, type: !4, scopeLine: 1, spFlags: DISPFlagOptimized)
 # !15 = !DISubprogram(name: "cuda_shim_memcpy_h2d", linkageName: "cuda_shim_memcpy_h2d", scope: !9, file: !9, line: 1, type: !4, scopeLine: 1, spFlags: DISPFlagOptimized)
 # !16 = !DISubprogram(name: "cuda_shim_malloc", linkageName: "cuda_shim_malloc", scope: !9, file: !9, line: 1, type: !4, scopeLine: 1, spFlags: DISPFlagOptimized)
diff --git a/mlir/cuda-tile/Toy/cuda_wrapper/cuda_shim.cpp b/mlir/cuda-tile/Toy/cuda_wrapper/cuda_shim.cpp
@@ -505,13 +505,16 @@ extern "C" void cuda_shim_launch_packed(
 
 // Convenience: 1D launch, shared=0, stream optional
 extern "C" void
-cuda_shim_launch_block_packed(uint64_t module_handle, uint64_t kernel_name_ptr,
-                              uint32_t blockX, uint32_t blockY, uint32_t blockZ,
-                              uint64_t stream, uint64_t arg_data_ptr,
-                              uint64_t arg_sizes_ptr, uint32_t num_args) {
-  cuda_shim_launch_packed(module_handle, kernel_name_ptr, 1, 1, 1, blockX,
-                          blockY, blockZ, 0, stream, arg_data_ptr,
-                          arg_sizes_ptr, num_args);
+cuda_shim_launch_grid_packed(uint64_t module_handle, uint64_t kernel_name_ptr,
+                             uint32_t gridX, uint32_t gridY, uint32_t gridZ,
+                             uint64_t stream, uint64_t arg_data_ptr,
+                             uint64_t arg_sizes_ptr, uint32_t num_args) {
+  cuda_shim_launch_packed(module_handle, kernel_name_ptr, gridX, gridY, gridZ,
+                          1, 1, 1, 0, stream, arg_data_ptr, arg_sizes_ptr,
+                          num_args);
+  // cuda_shim_launch_packed(module_handle, kernel_name_ptr, 1, 1, 1, blockX,
+  //                         blockY, blockZ, 0, stream, arg_data_ptr,
+  //                         arg_sizes_ptr, num_args);
 }
 
 // Optional: global sync (avoid in async pipeline; prefer event/stream sync)
diff --git a/mlir/cuda-tile/Toy/include/cuda_shim/CudaShimBuilder.hpp b/mlir/cuda-tile/Toy/include/cuda_shim/CudaShimBuilder.hpp
@@ -135,7 +135,7 @@ static llvm::DenseMap<CudaShimFn, llvm::StringRef> CudaShimFnNames = {
     {CudaShimFn::StreamDestroy, "cuda_shim_stream_destroy"},
     {CudaShimFn::StreamSynchronize, "cuda_shim_stream_synchronize"},
     {CudaShimFn::LaunchPacked, "cuda_shim_launch_packed"},
-    {CudaShimFn::LaunchBlockPacked, "cuda_shim_launch_block_packed"},
+    {CudaShimFn::LaunchBlockPacked, "cuda_shim_launch_grid_packed"},
     {CudaShimFn::CtxSynchronize, "cuda_shim_ctx_synchronize"},
 };
 
@@ -333,7 +333,7 @@ class CudaShimRegistry {
     //                 {})};
 
     //   case CudaShimFn::LaunchBlockPacked:
-    //     return {"cuda_shim_launch_block_packed",
+    //     return {"cuda_shim_launch_grid_packed",
     //             rewriter.getFunctionType(
     //                 {
     //                     i64,           // module_handle
@@ -498,11 +498,11 @@ void cuda_shim_launch_packed(uint64_t module_handle, uint64_t kernel_name_ptr,
                              uint32_t num_args);
 
 // Convenience: 1D launch, shared=0, stream optional
-void cuda_shim_launch_block_packed(uint64_t module_handle,
-                                   uint64_t kernel_name_ptr, uint32_t blockX,
-                                   uint32_t blockY, uint32_t blockZ,
-                                   uint64_t stream, uint64_t arg_data_ptr,
-                                   uint64_t arg_sizes_ptr, uint32_t num_args);
+void cuda_shim_launch_grid_packed(uint64_t module_handle,
+                                  uint64_t kernel_name_ptr, uint32_t blockX,
+                                  uint32_t blockY, uint32_t blockZ,
+                                  uint64_t stream, uint64_t arg_data_ptr,
+                                  uint64_t arg_sizes_ptr, uint32_t num_args);
 
 // Optional: global sync (avoid in async pipeline; prefer event/stream sync)
 void cuda_shim_ctx_synchronize(void);
@@ -560,7 +560,7 @@ buildCudaShimSymbolMap(llvm::orc::MangleAndInterner interner) {
 
   // ---- launch ----
   add("cuda_shim_launch_packed", (void *)&cuda_shim_launch_packed);
-  add("cuda_shim_launch_block_packed", (void *)&cuda_shim_launch_block_packed);
+  add("cuda_shim_launch_grid_packed", (void *)&cuda_shim_launch_grid_packed);
 
   return syms;
 }
diff --git a/mlir/cuda-tile/cuda_shim/cuda_shim.cc b/mlir/cuda-tile/cuda_shim/cuda_shim.cc
@@ -505,10 +505,10 @@ extern "C" void cuda_shim_launch_packed(
 
 // Convenience: 1D launch, shared=0, stream optional
 extern "C" void
-cuda_shim_launch_block_packed(uint64_t module_handle, uint64_t kernel_name_ptr,
-                              uint32_t blockX, uint32_t blockY, uint32_t blockZ,
-                              uint64_t stream, uint64_t arg_data_ptr,
-                              uint64_t arg_sizes_ptr, uint32_t num_args) {
+cuda_shim_launch_grid_packed(uint64_t module_handle, uint64_t kernel_name_ptr,
+                             uint32_t blockX, uint32_t blockY, uint32_t blockZ,
+                             uint64_t stream, uint64_t arg_data_ptr,
+                             uint64_t arg_sizes_ptr, uint32_t num_args) {
   cuda_shim_launch_packed(module_handle, kernel_name_ptr, 1, 1, 1, blockX,
                           blockY, blockZ, 0, stream, arg_data_ptr,
                           arg_sizes_ptr, num_args);
@@ -519,7 +519,7 @@ extern "C" void cuda_shim_ctx_synchronize(void) { mgpuCtxSynchronize(); }
 
 // only for debugging
 extern "C" void cuda_debug_dump_float(uint64_t dptr, int n) {
-  auto *p = reinterpret_cast<const float*>(static_cast<uintptr_t>(dptr));
+  auto *p = reinterpret_cast<const float *>(static_cast<uintptr_t>(dptr));
   for (uint32_t i = 0; i < n; ++i) {
     fprintf(stderr, "i=%u v=%f\n", i, p[i]);
   }
diff --git a/mlir/cuda-tile/sample/test.mlir b/mlir/cuda-tile/sample/test.mlir
@@ -3,7 +3,7 @@ module {
   func.func private @cuda_shim_stream_destroy(i64)
   func.func private @cuda_shim_free(i64, i64)
   func.func private @cuda_shim_stream_synchronize(i64)
-  func.func private @cuda_shim_launch_block_packed(i64, i64, i32, i32, i32, i64, i64, i64, i32)
+  func.func private @cuda_shim_launch_grid_packed(i64, i64, i32, i32, i32, i64, i64, i64, i32)
   func.func private @cuda_shim_memcpy_d2h(i64, i64, i64)
   func.func private @cuda_shim_memcpy_h2d(i64, i64, i64)
   func.func private @cuda_shim_malloc(i64, i64, i1) -> i64
@@ -135,7 +135,7 @@ module {
     %14 = arith.index_cast %intptr_55 : index to i64
     %intptr_56 = memref.extract_aligned_pointer_as_index %alloc_36 : memref<4xi64> -> index
     %15 = arith.index_cast %intptr_56 : index to i64
-    call @cuda_shim_launch_block_packed(%4, %3, %c8_i32, %c1_i32, %c1_i32_54, %5, %14, %15, %c4_i32) : (i64, i64, i32, i32, i32, i64, i64, i64, i32) -> ()
+    call @cuda_shim_launch_grid_packed(%4, %3, %c8_i32, %c1_i32, %c1_i32_54, %5, %14, %15, %c4_i32) : (i64, i64, i32, i32, i32, i64, i64, i64, i32) -> ()
     call @cuda_shim_stream_synchronize(%5) : (i64) -> ()
     call @cuda_shim_memcpy_d2h(%13, %12, %c32_i64_49) : (i64, i64, i64) -> ()
     memref.dealloc %alloc_35 : memref<4xi64>