HigherOrderCO · kings177 · Aug 16, 2024 · Aug 16, 2024 · Aug 16, 2024 · Aug 19, 2024
diff --git a/.gitignore b/.gitignore
@@ -14,3 +14,6 @@ examples/**/*.cu
 # nix-direnv
 /.direnv/
 /.envrc
+
+# cuda header
+src/shared_mem_config.h
diff --git a/build.rs b/build.rs
@@ -1,3 +1,5 @@
+use std::process::Command;
+
 fn main() {
   let cores = num_cpus::get();
   let tpcl2 = (cores as f64).log2().floor() as u32;
@@ -6,6 +8,8 @@ fn main() {
   println!("cargo:rerun-if-changed=src/hvm.c");
   println!("cargo:rerun-if-changed=src/run.cu");
   println!("cargo:rerun-if-changed=src/hvm.cu");
+  println!("cargo:rerun-if-changed=src/get_shared_mem.cu");
+  println!("cargo:rerun-if-changed=src/shared_mem_config.h");
   println!("cargo:rustc-link-arg=-rdynamic");
 
   match cc::Build::new()
@@ -23,13 +27,32 @@ fn main() {
   }
 
   // Builds hvm.cu
-  if std::process::Command::new("nvcc").arg("--version").stdout(std::process::Stdio::null()).stderr(std::process::Stdio::null()).status().is_ok() {
+  if Command::new("nvcc").arg("--version").stdout(std::process::Stdio::null()).stderr(std::process::Stdio::null()).status().is_ok() {
     if let Ok(cuda_path) = std::env::var("CUDA_HOME") {
       println!("cargo:rustc-link-search=native={}/lib64", cuda_path);
     } else {
       println!("cargo:rustc-link-search=native=/usr/local/cuda/lib64");
     }
 
+    // Compile get_shared_mem.cu
+    if let Ok(output) = Command::new("nvcc")
+      .args(&["src/get_shared_mem.cu", "-o", "get_shared_mem"])
+      .output()
+      .and_then(|_| Command::new("./get_shared_mem").output()) {
+        if output.status.success() {
+          let shared_mem_str = String::from_utf8_lossy(&output.stdout).trim().to_string();
+          std::fs::write("src/shared_mem_config.h", format!("#define HVM_SHARED_MEM {}", shared_mem_str))
+            .expect("Failed to write shared_mem_config.h");
+        } else {
+          println!("cargo:warning=\x1b[1m\x1b[31mWARNING: Failed to get shared memory size. Using default value.\x1b[0m");
+        }
+    } else {
+      println!("cargo:warning=\x1b[1m\x1b[31mWARNING: Failed to compile or run get_shared_mem.cu. Using default shared memory value.\x1b[0m");
+    }
+
+    // Clean up temporary executable
+    let _ = std::fs::remove_file("get_shared_mem");
+
     cc::Build::new()
       .cuda(true)
       .file("src/run.cu")

diff --git a/src/get_shared_mem.cu b/src/get_shared_mem.cu
@@ -0,0 +1,24 @@
+#include <cuda_runtime.h>
+#include <cstdio>
+
+int main() {
+    int device = 0;
+    cudaDeviceProp prop;
+    cudaGetDeviceProperties(&prop, device);
+
+    size_t sharedMemPerBlock = prop.sharedMemPerBlock;
+    int maxSharedMemPerBlockOptin;
+    cudaDeviceGetAttribute(&maxSharedMemPerBlockOptin, cudaDevAttrMaxSharedMemoryPerBlockOptin, device);
+
+    size_t maxSharedMem = (sharedMemPerBlock > (size_t)maxSharedMemPerBlockOptin) ? sharedMemPerBlock : (size_t)maxSharedMemPerBlockOptin;
+
+    // Subtract 3KB (3072 bytes) from the max shared memory as is allocated somewhere else
+    maxSharedMem -= 3072;
+
+    // Calculate the hex value
+    unsigned int hexValue = (unsigned int)(maxSharedMem / 12);
+
+    printf("0x%X", hexValue);
+
+    return 0;
+}
diff --git a/src/hvm.cu b/src/hvm.cu
@@ -126,9 +126,15 @@ struct RBag {
   Pair lo_buf[RLEN];
 };
 
+#include "shared_mem_config.h"
+
+#ifndef HVM_SHARED_MEM
+#define HVM_SHARED_MEM 0x2000 // Default value
+#endif
+
 // Local Net
-const u32 L_NODE_LEN = 0x2000;
-const u32 L_VARS_LEN = 0x2000;
+const u32 L_NODE_LEN = HVM_SHARED_MEM;
+const u32 L_VARS_LEN = HVM_SHARED_MEM;
 struct LNet {
   Pair node_buf[L_NODE_LEN];
   Port vars_buf[L_VARS_LEN];