fix: template cumsum/squeeze/unwrap/intersect1d to preserve input dtype

peng.li24 · peng.li24 · commit c9382d7bc6fa · 2026-06-03T01:40:26.000+08:00
Convert non-template pycpp wrappers to template&lt;T&gt; to match numpy's
dtype-preserving behavior:
  cumsum(f32)→f32, squeeze(f32)→f32, unwrap(f32)→f32, intersect1d(f32)→f32

Add float32 pybind11 bindings for all four functions.
Add float32 test coverage (loop over [float64, float32]).

Known limitation: float32 unwrap with large π-multiple values differs
from numpy by ~ULP because numpy uses float64 constants internally
(period = 2*np.float64(pi)) even for float32 input.
diff --git a/pycpp/core_py.h b/pycpp/core_py.h
@@ -1018,42 +1018,46 @@ inline py::array_t<py::ssize_t> flatnonzero(const py::array_t<double>& arr) {
 }
 
 /// numpy.unwrap(p, discont=None, axis=-1) — 1D only
-inline py::array_t<double> unwrap(const py::array_t<double>& arr, double discont = M_PI) {
+template<typename T>
+py::array_t<T> unwrap(const py::array_t<T>& arr, T discont = T(M_PI)) {
     auto buf = arr.request();
-    py::array_t<double> result(buf.shape);
-    numpy::unwrap(static_cast<const double*>(buf.ptr),
-                  static_cast<double*>(result.request().ptr), buf.size, discont);
+    py::array_t<T> result(buf.shape);
+    numpy::unwrap(static_cast<const T*>(buf.ptr),
+                  static_cast<T*>(result.request().ptr), buf.size, discont);
     return result;
 }
 
 /// numpy.cumsum(a, axis=None) — 1D cumulative sum
-inline py::array_t<double> cumsum(const py::array_t<double>& arr) {
+template<typename T>
+py::array_t<T> cumsum(const py::array_t<T>& arr) {
     auto buf = arr.request();
-    py::array_t<double> result(buf.shape);
-    numpy::cumsum(static_cast<const double*>(buf.ptr),
-                  static_cast<double*>(result.request().ptr), buf.size);
+    py::array_t<T> result(buf.shape);
+    numpy::cumsum(static_cast<const T*>(buf.ptr),
+                  static_cast<T*>(result.request().ptr), buf.size);
     return result;
 }
 
 /// numpy.squeeze(a, axis=None) — remove axes of length 1
-inline py::array_t<double> squeeze(const py::array_t<double>& arr) {
+template<typename T>
+py::array_t<T> squeeze(const py::array_t<T>& arr) {
     auto buf = arr.request();
     std::vector<py::ssize_t> new_shape;
     for (auto s : buf.shape)
         if (s != 1) new_shape.push_back(s);
     if (new_shape.empty()) new_shape.push_back(1);
-    py::array_t<double> result(new_shape);
-    std::memcpy(result.request().ptr, buf.ptr, buf.size * sizeof(double));
+    py::array_t<T> result(new_shape);
+    std::memcpy(result.request().ptr, buf.ptr, buf.size * sizeof(T));
     return result;
 }
 
 /// numpy.intersect1d(ar1, ar2, assume_unique=False, return_indices=False)
-inline py::array_t<double> intersect1d(const py::array_t<double>& a, const py::array_t<double>& b) {
+template<typename T>
+py::array_t<T> intersect1d(const py::array_t<T>& a, const py::array_t<T>& b) {
     auto ba = a.request(), bb = b.request();
     auto inter = intersect1d(
-        static_cast<const double*>(ba.ptr), ba.size,
-        static_cast<const double*>(bb.ptr), bb.size);
-    return py::array_t<double>(inter.size(), inter.data());
+        static_cast<const T*>(ba.ptr), ba.size,
+        static_cast<const T*>(bb.ptr), bb.size);
+    return py::array_t<T>(inter.size(), inter.data());
 }
 
 // ============================================================================
diff --git a/tests/module.cpp b/tests/module.cpp
@@ -217,10 +217,14 @@ PYBIND11_MODULE(numpycpp, m) {
     m.def("isin", static_cast<py::array_t<bool>(*)(const py::array_t<double>&, const std::vector<double>&)>(&numpy::isin));
 	m.def("isin", static_cast<py::array_t<bool>(*)(const py::array_t<double>&, const std::vector<int>&)>(&numpy::isin));
     m.def("intersect1d", static_cast<py::array_t<double>(*)(const py::array_t<double>&, const py::array_t<double>&)>(&numpy::intersect1d));
+    m.def("intersect1d", static_cast<py::array_t<float>(*)(const py::array_t<float>&, const py::array_t<float>&)>(&numpy::intersect1d));
 	m.def("flatnonzero", static_cast<py::array_t<py::ssize_t>(*)(const py::array_t<double>&)>(&numpy::flatnonzero));
 	m.def("unwrap", static_cast<py::array_t<double>(*)(const py::array_t<double>&, double)>(&numpy::unwrap), py::arg("arr"), py::arg("discont") = M_PI);
+	m.def("unwrap", static_cast<py::array_t<float>(*)(const py::array_t<float>&, float)>(&numpy::unwrap), py::arg("arr"), py::arg("discont") = (float)M_PI);
 	m.def("cumsum", static_cast<py::array_t<double>(*)(const py::array_t<double>&)>(&numpy::cumsum));
+	m.def("cumsum", static_cast<py::array_t<float>(*)(const py::array_t<float>&)>(&numpy::cumsum));
 	m.def("squeeze", static_cast<py::array_t<double>(*)(const py::array_t<double>&)>(&numpy::squeeze));
+	m.def("squeeze", static_cast<py::array_t<float>(*)(const py::array_t<float>&)>(&numpy::squeeze));
 
     // -- Interpolation -----------------------------------------------------
     m.def("interp", static_cast<py::array_t<double>(*)(const py::array_t<double>&, const py::array_t<double>&, const py::array_t<double>&)>(&numpy::interp));
diff --git a/tests/test_all.py b/tests/test_all.py
@@ -733,31 +733,38 @@ def test_flatnonzero(cpp):
     assert_bit_aligned(cpp.flatnonzero(a2), np.flatnonzero(a2), "flatnonzero zeros")
 
 def test_unwrap(cpp):
-    a = np.array([0.0, 0.5, 0.8, -0.9, -0.5, 0.2])
-    assert_bit_aligned(cpp.unwrap(a), np.unwrap(a), "unwrap")
-    a2 = np.array([0.0, 2.5, 5.0, -2.5, -5.0]) * np.pi
+    for dt in [np.float64, np.float32]:
+        a = np.array([0.0, 0.5, 0.8, -0.9, -0.5, 0.2], dtype=dt)
+        assert_bit_aligned(cpp.unwrap(a), np.unwrap(a), f"unwrap_{dt}")
+    # Large values: numpy uses float64 π internally even for float32 input,
+    # so float32 unwrap is not bit-exact on the correction path. Test float64 only.
+    a2 = np.array([0.0, 2.5, 5.0, -2.5, -5.0], dtype=np.float64) * np.pi
     assert_bit_aligned(cpp.unwrap(a2), np.unwrap(a2), "unwrap_large")
 
 def test_cumsum(cpp):
-    a = np.array([1.0, 2.0, 3.0, 4.0, 5.0])
-    assert_bit_aligned(cpp.cumsum(a), np.cumsum(a), "cumsum")
-    a2 = np.array([0.1, 0.2, 0.3, 0.4, 0.5])
-    assert_bit_aligned(cpp.cumsum(a2), np.cumsum(a2), "cumsum_frac")
-    a3 = np.array([-1.0, 2.0, -3.0, 4.0])
-    assert_bit_aligned(cpp.cumsum(a3), np.cumsum(a3), "cumsum_neg")
+    for dt in [np.float64, np.float32]:
+        a = np.array([1.0, 2.0, 3.0, 4.0, 5.0], dtype=dt)
+        assert_bit_aligned(cpp.cumsum(a), np.cumsum(a), f"cumsum_{dt}")
+        a2 = np.array([0.1, 0.2, 0.3, 0.4, 0.5], dtype=dt)
+        assert_bit_aligned(cpp.cumsum(a2), np.cumsum(a2), f"cumsum_frac_{dt}")
+        a3 = np.array([-1.0, 2.0, -3.0, 4.0], dtype=dt)
+        assert_bit_aligned(cpp.cumsum(a3), np.cumsum(a3), f"cumsum_neg_{dt}")
 
 def test_squeeze(cpp):
-    a = np.array([1.0, 2.0, 3.0]).reshape(3, 1)
-    assert_bit_aligned(cpp.squeeze(a), np.squeeze(a), "squeeze_col")
-    a2 = np.array([1.0, 2.0, 3.0]).reshape(1, 3)
-    assert_bit_aligned(cpp.squeeze(a2), np.squeeze(a2), "squeeze_row")
-    a3 = np.array([1.0, 2.0, 3.0, 4.0]).reshape(1, 2, 1, 2, 1)
-    assert_bit_aligned(cpp.squeeze(a3), np.squeeze(a3), "squeeze_multi")
+    for dt in [np.float64, np.float32]:
+        a = np.array([1.0, 2.0, 3.0], dtype=dt).reshape(3, 1)
+        assert_bit_aligned(cpp.squeeze(a), np.squeeze(a), f"squeeze_col_{dt}")
+        a2 = np.array([1.0, 2.0, 3.0], dtype=dt).reshape(1, 3)
+        assert_bit_aligned(cpp.squeeze(a2), np.squeeze(a2), f"squeeze_row_{dt}")
+        a3 = np.array([1.0, 2.0, 3.0, 4.0], dtype=dt).reshape(1, 2, 1, 2, 1)
+        assert_bit_aligned(cpp.squeeze(a3), np.squeeze(a3), f"squeeze_multi_{dt}")
 
 def test_intersect1d(cpp):
-    a, b = np.array([1.0, 2.0, 3.0, 4.0]), np.array([3.0, 4.0, 5.0, 6.0])
-    cpp_r = np.sort(np.asarray(cpp.intersect1d(a, b)))
-    assert_bit_aligned(cpp_r, np.intersect1d(a, b), "intersect1d")
+    for dt in [np.float64, np.float32]:
+        a = np.array([1.0, 2.0, 3.0, 4.0], dtype=dt)
+        b = np.array([3.0, 4.0, 5.0, 6.0], dtype=dt)
+        cpp_r = np.sort(np.asarray(cpp.intersect1d(a, b)))
+        assert_bit_aligned(cpp_r, np.intersect1d(a, b), f"intersect1d_{dt}")
 
 def test_interp_basic(cpp):
     xp = np.array([0.0, 1.0, 2.0, 3.0, 4.0])