bump: version 0.3.0 new DeepTensor API (#33)

deependujha · web-flow · commit c06a4408d2c0 · 2025-01-18T22:38:59.000+05:30
* standarding optimizer class

* update

* version 0.3.0
diff --git a/csrc/main.cc b/csrc/main.cc
@@ -196,27 +196,32 @@ PYBIND11_MODULE(_core, m) {
 
   //   Optimzer class
   py::class_<Optimizer, std::shared_ptr<Optimizer>>(m, "Optimizer")
-      .def("step", &Optimizer::step);
+      .def("step", &Optimizer::step)
+      .def("zero_grad", &Optimizer::zero_grad);
 
   py::class_<SGD, std::shared_ptr<SGD>>(m, "SGD")
       .def(py::init<std::shared_ptr<Model>, double>())
       .def_readwrite("learning_rate", &SGD::learning_rate)
+      .def("zero_grad", &SGD::zero_grad)
       .def("step", &SGD::step);
 
   py::class_<Momentum, std::shared_ptr<Momentum>>(m, "Momentum")
       .def(py::init<std::shared_ptr<Model>, double, double>())
       .def_readwrite("learning_rate", &Momentum::learning_rate)
+      .def("zero_grad", &Momentum::zero_grad)
       .def_readwrite("decay_factor", &Momentum::decay_factor)
       .def("step", &Momentum::step);
 
   py::class_<AdaGrad, std::shared_ptr<AdaGrad>>(m, "AdaGrad")
       .def(py::init<std::shared_ptr<Model>, double>())
       .def_readwrite("learning_rate", &AdaGrad::learning_rate)
+      .def("zero_grad", &AdaGrad::zero_grad)
       .def("step", &AdaGrad::step);
 
   py::class_<RMSprop, std::shared_ptr<RMSprop>>(m, "RMSprop")
       .def(py::init<std::shared_ptr<Model>, double>())
       .def(py::init<std::shared_ptr<Model>, double, double>())
+      .def("zero_grad", &RMSprop::zero_grad)
       .def_readwrite("learning_rate", &RMSprop::learning_rate)
       .def_readwrite("decay_factor", &RMSprop::decay_factor)
       .def("step", &RMSprop::step);
@@ -225,6 +230,7 @@ PYBIND11_MODULE(_core, m) {
       .def(py::init<std::shared_ptr<Model>, double>())
       .def(py::init<std::shared_ptr<Model>, double, double, double>())
       .def_readwrite("learning_rate", &Adam::learning_rate)
+      .def("zero_grad", &Adam::zero_grad)
       .def_readwrite("beta1", &Adam::beta1)
       .def_readwrite("beta2", &Adam::beta2)
       .def("step", &Adam::step);
diff --git a/csrc/optimizer.h b/csrc/optimizer.h
@@ -9,6 +9,7 @@ class Optimizer {
 public:
   virtual ~Optimizer() = default;
   virtual void step() = 0;
+  virtual void zero_grad() = 0;
 };
 
 // stochastic gradient descent
@@ -27,6 +28,10 @@ class SGD : public Optimizer {
       e->data = e->data - this->learning_rate * e->grad;
     }
   }
+
+  void zero_grad() override {
+    m->zero_grad();
+  }
 };
 
 // SGD with Momentum
@@ -55,6 +60,10 @@ class Momentum : public Optimizer {
       m_para[i]->data = m_para[i]->data - this->learning_rate * velocity[i];
     }
   }
+
+  void zero_grad() override {
+    m->zero_grad();
+  }
 };
 
 // Nesterov Accelerated Gradient (NAG) - we need to compute gradient at
@@ -88,6 +97,10 @@ class Momentum : public Optimizer {
 //       m_para[i]->data = m_para[i]->data - this->learning_rate * velocity[i];
 //     }
 //   }
+
+// void zero_grad() override {
+//     m->zero_grad();
+//   }
 // };
 
 // AdaGrad (Adaptive Gradient Algorithm) - great for sparse datasets
@@ -114,6 +127,10 @@ class AdaGrad : public Optimizer {
               std::sqrt(prev_grad_square[i] + this->epsilon);
     }
   }
+
+  void zero_grad() override {
+    m->zero_grad();
+  }
 };
 
 // RMSProp (Root Mean Square Propagation)
@@ -153,6 +170,10 @@ class RMSprop : public Optimizer {
               std::sqrt(prev_grad_square[i] + epsilon);
     }
   }
+
+  void zero_grad() override {
+    m->zero_grad();
+  }
 };
 
 // ADAM (Adaptive Moment Estimation)
@@ -215,4 +236,8 @@ class Adam : public Optimizer {
     }
     this->time++;
   }
+
+  void zero_grad() override {
+    m->zero_grad();
+  }
 };
diff --git a/demo/new_model_api.ipynb b/demo/new_model_api.ipynb
diff --git a/pyproject.toml b/pyproject.toml
@@ -4,7 +4,7 @@ build-backend = "scikit_build_core.build"
 
 [project]
 name = "deeptensor"
-version = "0.2.0" # new api
+version = "0.3.0" # new api
 url = "https://github.com/deependujha/deeptensor"
 readme = "README.md"
 authors = [