d0/dac/sdyna_8cpp_source.html

 // =========================================================================
 #include <cstdlib>
 #include <random>
 // =========================================================================
 #include <agrum/FMDP/SDyna/sdyna.h>
 // =========================================================================

 namespace gum {

   // ==========================================================================
   // Constructor & destructor.
   // ==========================================================================

   // ###################################################################
   /*
    * Constructor
    *
    * @param observationPhaseLenght : the number of observation done before a
    * replanning is launch. If equals 0, a planning is done after each structural
    * change.
    * @param nbValueIterationStep : the number of value iteration done during
    * one planning
    * @return an instance of SDyna architecture
    */
   // ###################################################################

   SDYNA::SDYNA(ILearningStrategy*           learner,
                IPlanningStrategy< double >* planer,
                IDecisionStrategy*           decider,
                Idx                          observationPhaseLenght,
                Idx                          nbValueIterationStep,
                bool                         actionReward,
                bool                         verbose) :
       __learner(learner),
       __planer(planer), __decider(decider),
       __observationPhaseLenght(observationPhaseLenght),
       __nbValueIterationStep(nbValueIterationStep), __actionReward(actionReward),
       _verbose(verbose) {
     GUM_CONSTRUCTOR(SDYNA);

     _fmdp = new FMDP< double >();

     __nbObservation = 1;
   }

   // ###################################################################
   // Destructor
   // ###################################################################
   SDYNA::~SDYNA() {
     delete __decider;

     delete __learner;

     delete __planer;

     for (auto obsIter = __bin.beginSafe(); obsIter != __bin.endSafe(); ++obsIter)
       delete *obsIter;

     delete _fmdp;

     GUM_DESTRUCTOR(SDYNA);
   }

   // ==========================================================================
   // Initialization
   // ==========================================================================

   void SDYNA::initialize() {
     __learner->initialize(_fmdp);
     __planer->initialize(_fmdp);
     __decider->initialize(_fmdp);
   }

   // ###################################################################
   /*
    * Initializes the Sdyna instance.
    * @param initialState : the state of the studied system from which we will
    * begin the explore, learn and exploit process
    */
   // ###################################################################
   void SDYNA::initialize(const Instantiation& initialState) {
     initialize();
     setCurrentState(initialState);
   }

   // ==========================================================================
   // ==========================================================================

   // ###################################################################
   /*
    * Performs a feedback on the last transition.
    * In extenso, learn from the transition.
    * @param originalState : the state we were in before the transition
    * @param reachedState : the state we reached after
    * @param performedAction : the action we performed
    * @param obtainedReward : the reward we obtained
    */
   // ###################################################################
   void SDYNA::feedback(const Instantiation& curState,
                        const Instantiation& prevState,
                        Idx                  lastAction,
                        double               reward) {
     __lastAction = lastAction;
     _lastState = prevState;
     feedback(curState, reward);
   }

   // ###################################################################
   /*
    * Performs a feedback on the last transition.
    * In extenso, learn from the transition.
    * @param reachedState : the state reached after the transition
    * @param obtainedReward : the reward obtained during the transition
    * @warning Uses the __originalState and __performedAction stored in cache
    * If you want to specify the original state and the performed action, see
    * below
    */
   // ###################################################################
   void SDYNA::feedback(const Instantiation& newState, double reward) {
     Observation* obs = new Observation();

     for (auto varIter = _lastState.variablesSequence().beginSafe();
          varIter != _lastState.variablesSequence().endSafe();
          ++varIter)
       obs->setModality(*varIter, _lastState.val(**varIter));

     for (auto varIter = newState.variablesSequence().beginSafe();
          varIter != newState.variablesSequence().endSafe();
          ++varIter) {
       obs->setModality(_fmdp->main2prime(*varIter), newState.val(**varIter));

       if (this->__actionReward)
         obs->setRModality(*varIter, _lastState.val(**varIter));
       else
         obs->setRModality(*varIter, newState.val(**varIter));
     }

     obs->setReward(reward);

     __learner->addObservation(__lastAction, obs);
     __bin.insert(obs);

     setCurrentState(newState);
     __decider->checkState(_lastState, __lastAction);

     if (__nbObservation % __observationPhaseLenght == 0)
       makePlanning(__nbValueIterationStep);

     __nbObservation++;
   }

   // ###################################################################
   /*
    * Starts a new planning
    * @param Idx : the maximal number of value iteration performed in this
    * planning
    */
   // ###################################################################
   void SDYNA::makePlanning(Idx nbValueIterationStep) {
     if (_verbose) std::cout << "Updating decision trees ..." << std::endl;
     __learner->updateFMDP();
     // std::cout << << "Done" << std::endl;

     if (_verbose) std::cout << "Planning ..." << std::endl;
     __planer->makePlanning(nbValueIterationStep);
     // std::cout << << "Done" << std::endl;

     __decider->setOptimalStrategy(__planer->optimalPolicy());
   }

   // ##################################################################
   /*
    * @return the id of the action the SDyna instance wish to be performed
    * @param the state in which we currently are
    */
   // ###################################################################
   Idx SDYNA::takeAction(const Instantiation& curState) {
     _lastState = curState;
     return takeAction();
   }

   // ###################################################################
   /*
    * @return the id of the action the SDyna instance wish to be performed
    */
   // ###################################################################
   Idx SDYNA::takeAction() {
     ActionSet actionSet = __decider->stateOptimalPolicy(_lastState);
     if (actionSet.size() == 1) {
       __lastAction = actionSet[0];
     } else {
       Idx randy = (Idx)((double)std::rand() / (double)RAND_MAX * actionSet.size());
       __lastAction = actionSet[randy == actionSet.size() ? 0 : randy];
     }
     return __lastAction;
   }

   // ###################################################################
   //
   // ###################################################################
   std::string SDYNA::toString() {
     std::stringstream description;

     description << _fmdp->toString() << std::endl;
     description << __planer->optimalPolicy2String() << std::endl;

     return description.str();
   }

 }   // End of namespace gum
sdyna.h
Copyright 2005-2019 Pierre-Henri WUILLEMIN et Christophe GONZALES (LIP6) {prenom.nom}_at_lip6.fr.

gum::SDYNA::~SDYNA
~SDYNA()
Destructor.
Definition: sdyna.cpp:79

gum::IPlanningStrategy::initialize
virtual void initialize(const FMDP< GUM_SCALAR > *fmdp)=0
Initializes the learner.

gum::IPlanningStrategy::optimalPolicy2String
virtual std::string optimalPolicy2String()=0
Returns a string describing the optimal policy in a dot format.

gum::ActionSet::size
Size size() const
Gives the size.
Definition: actionSet.h:211

gum::IDecisionStrategy::initialize
virtual void initialize(const FMDP< double > *fmdp)
Initializes the learner.
Definition: IDecisionStrategy.h:72

gum::SDYNA::toString
std::string toString()
Returns.
Definition: sdyna.cpp:232

gum::IDecisionStrategy::stateOptimalPolicy
virtual ActionSet stateOptimalPolicy(const Instantiation &curState)
Definition: IDecisionStrategy.h:97

gum::SDYNA::takeAction
Idx takeAction()
Definition: sdyna.cpp:218

gum::ActionSet
A class to store the optimal actions.
Definition: actionSet.h:88

gum::IDecisionStrategy
<agrum/FMDP/SDyna/IDecisionStrategy.h>
Definition: IDecisionStrategy.h:51

gum::SDYNA::_lastState
Instantiation _lastState
The state in which the system is before we perform a new action.
Definition: sdyna.h:413

gum::SDYNA::setCurrentState
void setCurrentState(const Instantiation &currentState)
Sets last state visited to the given state.
Definition: sdyna.h:292

gum::SDYNA::__lastAction
Idx __lastAction
The last performed action.
Definition: sdyna.h:436

gum::ILearningStrategy::updateFMDP
virtual void updateFMDP()=0
Starts an update of datastructure in the associated FMDP.

gum::SDYNA::SDYNA
SDYNA(ILearningStrategy *learner, IPlanningStrategy< double > *planer, IDecisionStrategy *decider, Idx observationPhaseLenght, Idx nbValueIterationStep, bool actionReward, bool verbose=true)
Constructor.
Definition: sdyna.cpp:57

gum::SDYNA::_verbose
bool _verbose
Definition: sdyna.h:443

double

gum::SDYNA::feedback
void feedback(const Instantiation &originalState, const Instantiation &reachedState, Idx performedAction, double obtainedReward)
Performs a feedback on the last transition.
Definition: sdyna.cpp:130

gum::FMDP< double >

gum::IDecisionStrategy::checkState
virtual void checkState(const Instantiation &newState, Idx actionId)=0

gum::SDYNA::__planer
IPlanningStrategy< double > * __planer
The planer used to plan an optimal strategy.
Definition: sdyna.h:420

gum
Copyright 2005-2019 Pierre-Henri WUILLEMIN et Christophe GONZALES (LIP6) {prenom.nom}_at_lip6.fr.
Definition: agrum.h:25

gum::Instantiation::variablesSequence
const Sequence< const DiscreteVariable *> & variablesSequence() const final
Returns the sequence of DiscreteVariable of this instantiation.
Definition: instantiation_inl.h:726

gum::ILearningStrategy::initialize
virtual void initialize(FMDP< double > *fmdp)=0
Initializes the learner.

gum::SDYNA::__learner
ILearningStrategy * __learner
The learner used to learn the FMDP.
Definition: sdyna.h:417

gum::Observation
Definition: observation.h:53

gum::Instantiation::val
Idx val(Idx i) const
Returns the current value of the variable at position i.
Definition: instantiation_inl.h:191

gum::SDYNA
The general SDyna architecture abstract class.
Definition: sdyna.h:66

gum::Observation::setReward
void setReward(double reward)
Returns the modality assumed by the given variable in this observation.
Definition: observation.h:124

gum::ILearningStrategy
<agrum/FMDP/SDyna/ILearningStrategy.h>
Definition: ILearningStrategy.h:55

gum::ILearningStrategy::addObservation
virtual bool addObservation(Idx actionId, const Observation *obs)=0
Gives to the learner a new transition.

gum::IPlanningStrategy::makePlanning
virtual void makePlanning(Idx nbIte)=0
Starts a new planning.

gum::Observation::setRModality
INLINE void setRModality(const DiscreteVariable *var, Idx modality)
Returns the modality assumed by the given variable in this observation.
Definition: observation.h:112

gum::SDYNA::__observationPhaseLenght
Idx __observationPhaseLenght
The number of observation we make before using again the planer.
Definition: sdyna.h:427

gum::SDYNA::__nbObservation
Idx __nbObservation
The total number of observation made so far.
Definition: sdyna.h:430

gum::FMDP::main2prime
const DiscreteVariable * main2prime(const DiscreteVariable *mainVar) const
Returns the primed variable associate to the given main variable.
Definition: fmdp.h:109

gum::IPlanningStrategy::optimalPolicy
virtual const MultiDimFunctionGraph< ActionSet, SetTerminalNodePolicy > * optimalPolicy()=0
Returns optimalPolicy computed so far current size.

gum::SDYNA::makePlanning
void makePlanning(Idx nbStep)
Starts a new planning.
Definition: sdyna.cpp:190

gum::SDYNA::initialize
void initialize()
Initializes the Sdyna instance.
Definition: sdyna.cpp:98

gum::Instantiation
Class for assigning/browsing values to tuples of discrete variables.
Definition: instantiation.h:83

gum::SDYNA::_fmdp
FMDP< double > * _fmdp
The learnt Markovian Decision Process.
Definition: sdyna.h:410

gum::Idx
Size Idx
Type for indexes.
Definition: types.h:53

gum::SDYNA::__decider
IDecisionStrategy * __decider
The decider.
Definition: sdyna.h:423

gum::SDYNA::__actionReward
bool __actionReward
Definition: sdyna.h:441

gum::IPlanningStrategy< double >

gum::SDYNA::__nbValueIterationStep
Idx __nbValueIterationStep
The number of Value Iteration step we perform.
Definition: sdyna.h:433

gum::Observation::setModality
INLINE void setModality(const DiscreteVariable *var, Idx modality)
Sets the modality assumed by the given variable in this observation.
Definition: observation.h:109

gum::IDecisionStrategy::setOptimalStrategy
void setOptimalStrategy(const MultiDimFunctionGraph< ActionSet, SetTerminalNodePolicy > *optPol)
Definition: IDecisionStrategy.h:90

gum::SDYNA::__bin
Set< Observation *> __bin
Since SDYNA made these observation, it has to delete them on quitting.
Definition: sdyna.h:439

gum::FMDP::toString
std::string toString() const
Displays the FMDP in a Dot format.
Definition: fmdp_tpl.h:370