coderonion
diff --git a/‎bash.exe.stackdump
Lines changed: 16 additions & 0 deletions b/‎bash.exe.stackdump
Lines changed: 16 additions & 0 deletions
diff --git a/‎src/05-prerequisites-for-speedup/arithmetic_gpu.py
Lines changed: 4 additions & 1 deletion b/‎src/05-prerequisites-for-speedup/arithmetic_gpu.py
Lines changed: 4 additions & 1 deletion
diff --git a/‎src/07-global-memory/matrix.py
Lines changed: 16 additions & 4 deletions b/‎src/07-global-memory/matrix.py
Lines changed: 16 additions & 4 deletions
diff --git a/‎src/08-shared-memory/bank_conflict.py
Lines changed: 8 additions & 2 deletions b/‎src/08-shared-memory/bank_conflict.py
Lines changed: 8 additions & 2 deletions
diff --git a/‎src/08-shared-memory/reduce_gpu.py
Lines changed: 14 additions & 3 deletions b/‎src/08-shared-memory/reduce_gpu.py
Lines changed: 14 additions & 3 deletions
diff --git a/‎src/09-atomic/neighbor_gpu.py
Lines changed: 8 additions & 6 deletions b/‎src/09-atomic/neighbor_gpu.py
Lines changed: 8 additions & 6 deletions
diff --git a/‎src/09-atomic/reduce_atomic.py
Lines changed: 2 additions & 4 deletions b/‎src/09-atomic/reduce_atomic.py
Lines changed: 2 additions & 4 deletions
diff --git a/‎src/10-warp/reduce.py
Lines changed: 20 additions & 8 deletions b/‎src/10-warp/reduce.py
Lines changed: 20 additions & 8 deletions
diff --git a/‎src/11-stream/a.py
Lines changed: 7 additions & 0 deletions b/‎src/11-stream/a.py
Lines changed: 7 additions & 0 deletions
diff --git a/‎src/11-stream/host_kernel.py
Lines changed: 83 additions & 0 deletions b/‎src/11-stream/host_kernel.py
Lines changed: 83 additions & 0 deletions
@@ -0,0 +1,16 @@
+Stack trace:
+Frame        Function    Args
+00600000010  001800617BE (00180251890, 0018023DFD1, 00000000058, 000FFFFB770)
+00600000010  001800490FA (00000000000, 00100000000, 00000000000, 00000000001)
+00600000010  00180049132 (00000000000, 00000000000, 00000000058, 0018031E960)
+00600000010  0018006D9C9 (0000000000A, 000FFFFC940, 001800458BF, 00000000000)
+00600000010  0018006DB92 (00000000003, 000FFFFC940, 001800458BF, 000FFFFC940)
+00600000010  0018006EA4C (000FFFFC940, 001802405E5, 001800EAF57, 0000000000D)
+00600000010  001800596A6 (000FFFF0000, 00000000000, 00000000000, 6C36EE15FFFFFFFF)
+00600000010  0018005A9C5 (00000000002, 0018031E270, 001800BE5F9, 00600040000)
+00600000010  0018005AE89 (001800C7664, 00000000000, 00000000000, 00000000000)
+000FFFFCCE0  0018005B149 (000FFFFCE00, 00000000000, 00000000030, 0000000002F)
+000FFFFCCE0  00180049877 (00000000000, 00000000000, 00000000000, 00000000000)
+000FFFFFFF0  001800482C6 (00000000000, 00000000000, 00000000000, 00000000000)
+000FFFFFFF0  00180048374 (00000000000, 00000000000, 00000000000, 00000000000)
+End of stack trace
@@ -47,7 +47,10 @@
     stop = drv.Event()
     start.record()
 
-    arithmetic(d_x, x0, numpy.int32(N), grid=((N-1)//128+1, 1), block=(128,1,1))
+    arithmetic(d_x, x0, numpy.int32(N), 
+        grid=((N-1)//128+1, 1), 
+        block=(128,1,1)
+        )
 
     stop.record()
     stop.synchronize()
 
@@ -77,13 +77,25 @@ def timing(d_A, d_B, N, task):
         stop = drv.Event()
         start.record()
         if task == 0:
-            copy(d_A, d_B, numpy.int32(N), numpy.int32(TILE_DIM), grid=grid_size, block=block_size)
+            copy(d_A, d_B, numpy.int32(N), numpy.int32(TILE_DIM), 
+                grid=grid_size, 
+                block=block_size
+                )
         elif task == 1:
-            transpose1(d_A, d_B, numpy.int32(N), grid=grid_size, block=block_size)
+            transpose1(d_A, d_B, numpy.int32(N), 
+                grid=grid_size, 
+                block=block_size
+                )
         elif task == 2:
-            transpose2(d_A, d_B, numpy.int32(N), grid=grid_size, block=block_size)
+            transpose2(d_A, d_B, numpy.int32(N), 
+                grid=grid_size, 
+                block=block_size
+                )
         elif task == 3:
-            transpose3(d_A, d_B, numpy.int32(N), grid=grid_size, block=block_size)
+            transpose3(d_A, d_B, numpy.int32(N), 
+                grid=grid_size, 
+                block=block_size
+                )
         else:
             print("Error: wrong task")
             return
 
@@ -83,9 +83,15 @@ def timing(d_A, d_B, N, task):
         stop = drv.Event()
         start.record()
         if task == 1:
-            transpose1(d_A, d_B, numpy.int32(N), grid=grid_size, block=block_size)
+            transpose1(d_A, d_B, numpy.int32(N), 
+                grid=grid_size, 
+                block=block_size
+                )
         elif task == 2:
-            transpose2(d_A, d_B, numpy.int32(N), grid=grid_size, block=block_size)
+            transpose2(d_A, d_B, numpy.int32(N), 
+                grid=grid_size, 
+                block=block_size
+                )
         else:
             print("Error: wrong task")
             return
 
@@ -96,6 +96,7 @@ def timing(method):
     d_x = drv.mem_alloc(h_x.nbytes)
     h_y = numpy.zeros((grid_size,1), dtype=real_py)
     d_y = drv.mem_alloc(h_y.nbytes)
+    size_real = numpy.dtype(real_py).itemsize
     t_sum = 0
     t2_sum = 0
     for repeat in range(NUM_REPEATS+1):
@@ -105,11 +106,21 @@ def timing(method):
         start.record() 
 
         if method==0:
-            reduce_global(d_x, d_y, grid=(grid_size, 1), block=(128,1,1))
+            reduce_global(d_x, d_y, 
+                grid=(grid_size, 1), 
+                block=(128,1,1)
+                )
         elif method==1:
-            reduce_shared(d_x, d_y, numpy.int32(N), grid=((N-1)//128+1, 1), block=(128,1,1))
+            reduce_shared(d_x, d_y, numpy.int32(N), 
+                grid=((N-1)//128+1, 1), 
+                block=(128,1,1)
+                )
         elif method==2:
-            reduce_dynamic(d_x, d_y, numpy.int32(N), grid=((N-1)//128+1, 1), block=(128,1,1), shared=numpy.zeros((1,1),dtype=real_py).nbytes*BLOCK_SIZE)
+            reduce_dynamic(d_x, d_y, numpy.int32(N), 
+                grid=((N-1)//128+1, 1), 
+                block=(128,1,1), 
+                shared=size_real*BLOCK_SIZE
+                )
         else:
             print("Error: wrong method")
             break
 
@@ -74,14 +74,16 @@ def timing(d_NN, d_NL, d_x, d_y, N, MN, atomic):
         start.record()
         if atomic:
             find_neighbor_atomic(d_NN, d_NL, d_x, d_y, numpy.int32(N),
-            numpy.int32(MN), numpy.__dict__[real_py](cutoff_square),
-            grid=((N-1)//128+1, 1), 
-            block=(128,1,1))
+                numpy.int32(MN), numpy.__dict__[real_py](cutoff_square),
+                grid=((N-1)//128+1, 1), 
+                block=(128,1,1)
+                )
         else:
             find_neighbor_no_atomic(d_NN, d_NL, d_x, d_y, numpy.int32(N),
-            numpy.__dict__[real_py](cutoff_square),
-            grid=((N-1)//128+1, 1), 
-            block=(128,1,1))
+                numpy.__dict__[real_py](cutoff_square),
+                grid=((N-1)//128+1, 1), 
+                block=(128,1,1)
+                )
         stop.record()
         stop.synchronize()
         elapsed_time = start.time_till(stop)
 
@@ -46,6 +46,7 @@ def timing():
     h_x = numpy.full((N,1), 1.23, dtype=real_py)
     d_x = drv.mem_alloc(h_x.nbytes)
     drv.memcpy_htod(d_x, h_x)
+    size_real = numpy.dtype(real_py).itemsize
     t_sum = 0
     t2_sum = 0
     for repeat in range(NUM_REPEATS+1):
@@ -61,10 +62,7 @@ def timing():
             numpy.int32(N), 
             grid=(grid_size, 1), 
             block=(128,1,1), 
-            shared=numpy.zeros(
-                (1,1),
-                dtype=real_py
-                ).nbytes*BLOCK_SIZE
+            shared=size_real*BLOCK_SIZE
             )
 
         drv.memcpy_dtoh(h_y, d_y)
 
@@ -1,6 +1,7 @@
 import pycuda.autoinit
 import pycuda.driver as drv
-import numpy, math, sys
+import numpy as np
+import math, sys
 from pycuda.compiler import DynamicSourceModule
 
 if len(sys.argv)>2 and sys.argv[1]=='-double':
@@ -117,32 +118,43 @@
 reduce_shfl = mod.get_function("reduce_shfl")
 reduce_cp = mod.get_function("reduce_cp")
 
-
-
 def timing(method):
     NUM_REPEATS = 10
     N = 100000000
     BLOCK_SIZE = 128
     grid_size = (N-1)//128+1
-    h_x = numpy.full((N,1), 1.23, dtype=real_py)
+    h_x = np.full((N,1), 1.23, dtype=real_py)
     d_x = drv.mem_alloc(h_x.nbytes)
     drv.memcpy_htod(d_x, h_x)
+    size_real = np.dtype(real_py).itemsize
     t_sum = 0
     t2_sum = 0
     for repeat in range(NUM_REPEATS+1):
         start = drv.Event()
         stop = drv.Event()
         start.record() 
 
-        h_y = numpy.zeros((1,1), dtype=real_py)
+        h_y = np.zeros((1,1), dtype=real_py)
         d_y = drv.mem_alloc(h_y.nbytes)
         drv.memcpy_htod(d_y, h_y)
         if method==0:
-            reduce_syncwarp(d_x, d_y, numpy.int32(N), grid=(grid_size, 1), block=(128,1,1), shared=numpy.zeros((1,1),dtype=real_py).nbytes*BLOCK_SIZE)
+            reduce_syncwarp(d_x, d_y, np.int32(N), 
+            grid=(grid_size, 1), 
+            block=(128,1,1), 
+            shared=size_real*BLOCK_SIZE
+            )
         elif method==1:
-            reduce_shfl(d_x, d_y, numpy.int32(N), grid=((N-1)//128+1, 1), block=(128,1,1), shared=numpy.zeros((1,1),dtype=real_py).nbytes*BLOCK_SIZE)
+            reduce_shfl(d_x, d_y, np.int32(N), 
+            grid=((N-1)//128+1, 1), 
+            block=(128,1,1), 
+            shared=size_real*BLOCK_SIZE
+            )
         elif method==2:
-            reduce_cp(d_x, d_y, numpy.int32(N), grid=((N-1)//128+1, 1), block=(128,1,1), shared=numpy.zeros((1,1),dtype=real_py).nbytes*BLOCK_SIZE)
+            reduce_cp(d_x, d_y, np.int32(N), 
+            grid=((N-1)//128+1, 1), 
+            block=(128,1,1), 
+            shared=size_real*BLOCK_SIZE
+            )
         else:
             print("Error: wrong method")
             break
 
@@ -0,0 +1,7 @@
+import numpy as np
+
+a = np.zeros((1,10))
+print(a)
+b = np.ones((1,3))
+b = a[0,3:5]
+print(type(b))
@@ -0,0 +1,83 @@
+import numpy, math, sys, time
+import pycuda.autoinit
+import pycuda.driver as drv
+from pycuda.compiler import DynamicSourceModule
+
+if len(sys.argv)>2 and sys.argv[1]=='-double':
+    real_py = 'float64' 
+    real_cpp = 'double'
+else:
+    real_py = 'float32'
+    real_cpp = 'float'
+
+mod = DynamicSourceModule(r"""
+void __global__ gpu_sum(const real *x, const real *y, real *z, const int N)
+{
+    const int n = blockDim.x * blockIdx.x + threadIdx.x;
+    if (n < N)
+    {
+        z[n] = x[n] + y[n];
+    }
+}""".replace('real', real_cpp))
+gpu_sum = mod.get_function("gpu_sum")
+
+def cpu_sum(x, y, N_host):
+    z = numpy.empty_like(x, dtype=real_py)
+    for n in range(N_host):
+        z[n] = x[n] + y[n]
+    return z
+
+def timing(h_x, h_y, h_z, d_x, d_y, d_z, ratio, overlap):
+    NUM_REPEATS = 10
+    N = h_x.size
+    t_sum = 0
+    t2_sum = 0
+    for repeat in range(NUM_REPEATS+1):
+        start = time.time()
+
+        if not overlap:
+            cpu_sum(h_x, h_y, N//ratio)
+        
+        gpu_sum(d_x, d_y, d_z, numpy.int32(N), 
+            grid=((N-1)//128+1, 1), 
+            block=(128,1,1)
+            )
+
+        if overlap:
+            cpu_sum(h_x, h_y, N//ratio)
+        
+        elapsed_time = (time.time()-start)*1000
+        print("Time = {:.6f} ms.".format(elapsed_time))
+        if repeat > 0:
+            t_sum += elapsed_time
+            t2_sum += elapsed_time * elapsed_time
+    t_ave = t_sum / NUM_REPEATS
+    t_err = math.sqrt(t2_sum / NUM_REPEATS - t_ave * t_ave)
+    print("Time = {:.6f} +- {:.6f} ms.".format(t_ave, t_err))
+
+
+
+N = 100000000
+h_x = numpy.full((N,1), 1.23, dtype=real_py)
+h_y = numpy.full((N,1), 2.34, dtype=real_py)
+h_z = numpy.zeros_like(h_x, dtype=real_py)
+d_x = drv.mem_alloc(h_x.nbytes)
+d_y = drv.mem_alloc(h_y.nbytes)
+d_z = drv.mem_alloc(h_z.nbytes)
+drv.memcpy_htod(d_x, h_x)
+drv.memcpy_htod(d_y, h_y)
+
+print("Without CPU-GPU overlap (ratio = 1000000)")
+timing(h_x, h_y, h_z, d_x, d_y, d_z, 1000000, False)
+print("With CPU-GPU overlap (ratio = 1000000)")
+timing(h_x, h_y, h_z, d_x, d_y, d_z, 1000000, True)
+
+print("Without CPU-GPU overlap (ratio = 100000)")
+timing(h_x, h_y, h_z, d_x, d_y, d_z, 100000, False)
+print("With CPU-GPU overlap (ratio = 100000)")
+timing(h_x, h_y, h_z, d_x, d_y, d_z, 100000, True)
+
+print("Without CPU-GPU overlap (ratio = 10000000)")
+timing(h_x, h_y, h_z, d_x, d_y, d_z, 10000000, False)
+print("With CPU-GPU overlap (ratio = 10000000)")
+timing(h_x, h_y, h_z, d_x, d_y, d_z, 10000000, True)