d9/d31/sdyna_8h_source.html

 // =========================================================================
 #ifndef GUM_SDYNA_H
 #define GUM_SDYNA_H
 // =========================================================================
 #include <agrum/agrum.h>
 #include <agrum/multidim/instantiation.h>
 // =========================================================================
 #include <agrum/variables/discreteVariable.h>
 // =========================================================================
 #include <agrum/FMDP/SDyna/Strategies/IDecisionStrategy.h>
 #include <agrum/FMDP/SDyna/Strategies/ILearningStrategy.h>
 #include <agrum/FMDP/SDyna/Strategies/IPlanningStrategy.h>
 #include <agrum/FMDP/decision/E_GreedyDecider.h>
 #include <agrum/FMDP/decision/lazyDecider.h>
 #include <agrum/FMDP/decision/randomDecider.h>
 #include <agrum/FMDP/decision/statisticalLazyDecider.h>
 #include <agrum/FMDP/fmdp.h>
 #include <agrum/FMDP/learning/fmdpLearner.h>
 #include <agrum/FMDP/learning/observation.h>
 #include <agrum/FMDP/planning/actionSet.h>
 #include <agrum/FMDP/planning/adaptiveRMaxPlaner.h>
 #include <agrum/FMDP/planning/structuredPlaner.h>
 // =========================================================================

 namespace gum {

   class SDYNA {
     // ###################################################################
     // ###################################################################
     public:
     // ==========================================================================
     // ==========================================================================
     static SDYNA* spitiInstance(double attributeSelectionThreshold = 0.99,
                                 double discountFactor = 0.9,
                                 double epsilon = 1,
                                 Idx    observationPhaseLenght = 100,
                                 Idx    nbValueIterationStep = 10) {
       bool               actionReward = false;
       ILearningStrategy* ls = new FMDPLearner< CHI2TEST, CHI2TEST, ITILEARNER >(
          attributeSelectionThreshold, actionReward);
       IPlanningStrategy< double >* ps =
          StructuredPlaner< double >::sviInstance(discountFactor, epsilon);
       IDecisionStrategy* ds = new E_GreedyDecider();
       return new SDYNA(
          ls, ps, ds, observationPhaseLenght, nbValueIterationStep, actionReward);
     }

     // ==========================================================================
     // ==========================================================================
     static SDYNA* spimddiInstance(double attributeSelectionThreshold = 0.99,
                                   double similarityThreshold = 0.3,
                                   double discountFactor = 0.9,
                                   double epsilon = 1,
                                   Idx    observationPhaseLenght = 100,
                                   Idx    nbValueIterationStep = 10) {
       bool               actionReward = false;
       ILearningStrategy* ls = new FMDPLearner< GTEST, GTEST, IMDDILEARNER >(
          attributeSelectionThreshold, actionReward, similarityThreshold);
       IPlanningStrategy< double >* ps = StructuredPlaner< double >::spumddInstance(
          discountFactor, epsilon, false);
       IDecisionStrategy* ds = new E_GreedyDecider();
       return new SDYNA(ls,
                        ps,
                        ds,
                        observationPhaseLenght,
                        nbValueIterationStep,
                        actionReward,
                        false);
     }

     // ==========================================================================
     // ==========================================================================
     static SDYNA* RMaxMDDInstance(double attributeSelectionThreshold = 0.99,
                                   double similarityThreshold = 0.3,
                                   double discountFactor = 0.9,
                                   double epsilon = 1,
                                   Idx    observationPhaseLenght = 100,
                                   Idx    nbValueIterationStep = 10) {
       bool               actionReward = true;
       ILearningStrategy* ls = new FMDPLearner< GTEST, GTEST, IMDDILEARNER >(
          attributeSelectionThreshold, actionReward, similarityThreshold);
       AdaptiveRMaxPlaner* rm = AdaptiveRMaxPlaner::ReducedAndOrderedInstance(
          ls, discountFactor, epsilon);
       IPlanningStrategy< double >* ps = rm;
       IDecisionStrategy*           ds = rm;
       return new SDYNA(
          ls, ps, ds, observationPhaseLenght, nbValueIterationStep, actionReward);
     }

     // ==========================================================================
     // ==========================================================================
     static SDYNA* RMaxTreeInstance(double attributeSelectionThreshold = 0.99,
                                    double discountFactor = 0.9,
                                    double epsilon = 1,
                                    Idx    observationPhaseLenght = 100,
                                    Idx    nbValueIterationStep = 10) {
       bool               actionReward = true;
       ILearningStrategy* ls = new FMDPLearner< GTEST, GTEST, ITILEARNER >(
          attributeSelectionThreshold, actionReward);
       AdaptiveRMaxPlaner* rm =
          AdaptiveRMaxPlaner::TreeInstance(ls, discountFactor, epsilon);
       IPlanningStrategy< double >* ps = rm;
       IDecisionStrategy*           ds = rm;
       return new SDYNA(
          ls, ps, ds, observationPhaseLenght, nbValueIterationStep, actionReward);
     }

     // ==========================================================================
     // ==========================================================================
     static SDYNA* RandomMDDInstance(double attributeSelectionThreshold = 0.99,
                                     double similarityThreshold = 0.3,
                                     double discountFactor = 0.9,
                                     double epsilon = 1,
                                     Idx    observationPhaseLenght = 100,
                                     Idx    nbValueIterationStep = 10) {
       bool               actionReward = true;
       ILearningStrategy* ls = new FMDPLearner< GTEST, GTEST, IMDDILEARNER >(
          attributeSelectionThreshold, actionReward, similarityThreshold);
       IPlanningStrategy< double >* ps =
          StructuredPlaner< double >::spumddInstance(discountFactor, epsilon);
       IDecisionStrategy* ds = new RandomDecider();
       return new SDYNA(
          ls, ps, ds, observationPhaseLenght, nbValueIterationStep, actionReward);
     }

     // ==========================================================================
     // ==========================================================================
     static SDYNA* RandomTreeInstance(double attributeSelectionThreshold = 0.99,
                                      double discountFactor = 0.9,
                                      double epsilon = 1,
                                      Idx    observationPhaseLenght = 100,
                                      Idx    nbValueIterationStep = 10) {
       bool               actionReward = true;
       ILearningStrategy* ls = new FMDPLearner< CHI2TEST, CHI2TEST, ITILEARNER >(
          attributeSelectionThreshold, actionReward);
       IPlanningStrategy< double >* ps =
          StructuredPlaner< double >::sviInstance(discountFactor, epsilon);
       IDecisionStrategy* ds = new RandomDecider();
       return new SDYNA(
          ls, ps, ds, observationPhaseLenght, nbValueIterationStep, actionReward);
     }


     // ###################################################################
     // ###################################################################

     // ==========================================================================
     // ==========================================================================
     private:
     SDYNA(ILearningStrategy*           learner,
           IPlanningStrategy< double >* planer,
           IDecisionStrategy*           decider,
           Idx                          observationPhaseLenght,
           Idx                          nbValueIterationStep,
           bool                         actionReward,
           bool                         verbose = true);

     // ==========================================================================
     // ==========================================================================
     public:
     ~SDYNA();


     // ###################################################################
     // ###################################################################
     public:
     // ==========================================================================
     // ==========================================================================
     void addAction(const Idx actionId, const std::string& actionName) {
       _fmdp->addAction(actionId, actionName);
     }

     // ==========================================================================
     // ==========================================================================
     void addVariable(const DiscreteVariable* var) { _fmdp->addVariable(var); }


     // ###################################################################
     // ###################################################################
     public:
     // ==========================================================================
     // ==========================================================================
     void initialize();

     // ==========================================================================
     // ==========================================================================
     void initialize(const Instantiation& initialState);


     // ###################################################################
     // ###################################################################
     public:
     // ==========================================================================
     // ==========================================================================
     void setCurrentState(const Instantiation& currentState) {
       _lastState = currentState;
     }

     // ==========================================================================
     // ==========================================================================
     Idx takeAction(const Instantiation& curState);

     // ==========================================================================
     // ==========================================================================
     Idx takeAction();

     // ==========================================================================
     // ==========================================================================
     void feedback(const Instantiation& originalState,
                   const Instantiation& reachedState,
                   Idx                  performedAction,
                   double               obtainedReward);

     // ==========================================================================
     // ==========================================================================
     void feedback(const Instantiation& reachedState, double obtainedReward);

     // ==========================================================================
     // ==========================================================================
     void makePlanning(Idx nbStep);


     public:
     // ==========================================================================
     // ==========================================================================
     std::string toString();

     std::string optimalPolicy2String() { return __planer->optimalPolicy2String(); }


     // ###################################################################
     // ###################################################################
     public:
     // ==========================================================================
     // ==========================================================================
     Size learnerSize() { return __learner->size(); }

     // ==========================================================================
     // ==========================================================================
     Size modelSize() { return _fmdp->size(); }

     // ==========================================================================
     // ==========================================================================
     Size valueFunctionSize() { return __planer->vFunctionSize(); }

     // ==========================================================================
     // ==========================================================================
     Size optimalPolicySize() { return __planer->optimalPolicySize(); }


     protected:
     FMDP< double >* _fmdp;

     Instantiation _lastState;

     private:
     ILearningStrategy* __learner;

     IPlanningStrategy< double >* __planer;

     IDecisionStrategy* __decider;


     Idx __observationPhaseLenght;

     Idx __nbObservation;

     Idx __nbValueIterationStep;

     Idx __lastAction;

     Set< Observation* > __bin;

     bool __actionReward;

     bool _verbose;
   };


 } /* namespace gum */


 #endif   // GUM_SDYNA_H
gum::StructuredPlaner::sviInstance
static StructuredPlaner< GUM_SCALAR > * sviInstance(GUM_SCALAR discountFactor=0.9, GUM_SCALAR epsilon=0.00001, bool verbose=true)
Definition: structuredPlaner.h:94

gum::SDYNA::~SDYNA
~SDYNA()
Destructor.
Definition: sdyna.cpp:79

gum::IPlanningStrategy::optimalPolicy2String
virtual std::string optimalPolicy2String()=0
Returns a string describing the optimal policy in a dot format.

gum::SDYNA::optimalPolicy2String
std::string optimalPolicy2String()
Definition: sdyna.h:363

gum::SDYNA::toString
std::string toString()
Returns.
Definition: sdyna.cpp:232

discreteVariable.h
Copyright 2005-2019 Pierre-Henri WUILLEMIN et Christophe GONZALES (LIP6) {prenom.nom}_at_lip6.fr.

gum::SDYNA::takeAction
Idx takeAction()
Definition: sdyna.cpp:218

gum::IDecisionStrategy
<agrum/FMDP/SDyna/IDecisionStrategy.h>
Definition: IDecisionStrategy.h:51

ILearningStrategy.h
Copyright 2005-2019 Pierre-Henri WUILLEMIN et Christophe GONZALES (LIP6) {prenom.nom}_at_lip6.fr.

agrum.h

gum::SDYNA::_lastState
Instantiation _lastState
The state in which the system is before we perform a new action.
Definition: sdyna.h:413

gum::SDYNA::setCurrentState
void setCurrentState(const Instantiation &currentState)
Sets last state visited to the given state.
Definition: sdyna.h:292

gum::SDYNA::__lastAction
Idx __lastAction
The last performed action.
Definition: sdyna.h:436

gum::SDYNA::SDYNA
SDYNA(ILearningStrategy *learner, IPlanningStrategy< double > *planer, IDecisionStrategy *decider, Idx observationPhaseLenght, Idx nbValueIterationStep, bool actionReward, bool verbose=true)
Constructor.
Definition: sdyna.cpp:57

gum::AdaptiveRMaxPlaner::ReducedAndOrderedInstance
static AdaptiveRMaxPlaner * ReducedAndOrderedInstance(const ILearningStrategy *learner, double discountFactor=0.9, double epsilon=0.00001, bool verbose=true)
Definition: adaptiveRMaxPlaner.h:65

gum::SDYNA::_verbose
bool _verbose
Definition: sdyna.h:443

gum::SDYNA::RMaxTreeInstance
static SDYNA * RMaxTreeInstance(double attributeSelectionThreshold=0.99, double discountFactor=0.9, double epsilon=1, Idx observationPhaseLenght=100, Idx nbValueIterationStep=10)
@
Definition: sdyna.h:137

gum::SDYNA::feedback
void feedback(const Instantiation &originalState, const Instantiation &reachedState, Idx performedAction, double obtainedReward)
Performs a feedback on the last transition.
Definition: sdyna.cpp:130

statisticalLazyDecider.h
Copyright 2005-2019 Pierre-Henri WUILLEMIN et Christophe GONZALES (LIP6) {prenom.nom}_at_lip6.fr.

gum::IPlanningStrategy::optimalPolicySize
virtual Size optimalPolicySize()=0
Returns optimalPolicy computed so far current size.

gum::FMDP< double >

gum::DiscreteVariable
Base class for discrete random variable.
Definition: discreteVariable.h:60

gum::SDYNA::__planer
IPlanningStrategy< double > * __planer
The planer used to plan an optimal strategy.
Definition: sdyna.h:420

gum
Copyright 2005-2019 Pierre-Henri WUILLEMIN et Christophe GONZALES (LIP6) {prenom.nom}_at_lip6.fr.
Definition: agrum.h:25

gum::SDYNA::addVariable
void addVariable(const DiscreteVariable *var)
Inserts a new variable in the SDyna instance.
Definition: sdyna.h:250

gum::SDYNA::RandomTreeInstance
static SDYNA * RandomTreeInstance(double attributeSelectionThreshold=0.99, double discountFactor=0.9, double epsilon=1, Idx observationPhaseLenght=100, Idx nbValueIterationStep=10)
@
Definition: sdyna.h:175

gum::SDYNA::__learner
ILearningStrategy * __learner
The learner used to learn the FMDP.
Definition: sdyna.h:417

structuredPlaner.h
Copyright 2005-2019 Pierre-Henri WUILLEMIN et Christophe GONZALES (LIP6) {prenom.nom}_at_lip6.fr.

IDecisionStrategy.h
Copyright 2005-2019 Pierre-Henri WUILLEMIN et Christophe GONZALES (LIP6) {prenom.nom}_at_lip6.fr.

actionSet.h
Copyright 2005-2019 Pierre-Henri WUILLEMIN et Christophe GONZALES (LIP6) {prenom.nom}_at_lip6.fr.

gum::SDYNA
The general SDyna architecture abstract class.
Definition: sdyna.h:66

gum::Set
Representation of a setA Set is a structure that contains arbitrary elements.
Definition: set.h:165

fmdp.h
Copyright 2005-2019 Pierre-Henri WUILLEMIN et Christophe GONZALES (LIP6) {prenom.nom}_at_lip6.fr.

gum::FMDP::addVariable
void addVariable(const DiscreteVariable *var)
Adds a variable to FMDP description.
Definition: fmdp_tpl.h:124

gum::SDYNA::learnerSize
Size learnerSize()
learnerSize
Definition: sdyna.h:379

adaptiveRMaxPlaner.h
Copyright 2005-2019 Pierre-Henri WUILLEMIN et Christophe GONZALES (LIP6) {prenom.nom}_at_lip6.fr.

gum::ILearningStrategy
<agrum/FMDP/SDyna/ILearningStrategy.h>
Definition: ILearningStrategy.h:55

gum::E_GreedyDecider
<agrum/FMDP/decision/E_GreedyDecider.h>
Definition: E_GreedyDecider.h:56

gum::RandomDecider
Class to make decision randomlyDoes nothing more than the interface for DecisionStrategy does...
Definition: randomDecider.h:49

gum::SDYNA::valueFunctionSize
Size valueFunctionSize()
valueFunctionSize
Definition: sdyna.h:395

gum::FMDP::size
Size size() const
Returns the map binding main variables and prime variables.
Definition: fmdp_tpl.h:392

gum::AdaptiveRMaxPlaner::TreeInstance
static AdaptiveRMaxPlaner * TreeInstance(const ILearningStrategy *learner, double discountFactor=0.9, double epsilon=0.00001, bool verbose=true)
Definition: adaptiveRMaxPlaner.h:79

gum::FMDPLearner
Definition: fmdpLearner.h:60

gum::SDYNA::__observationPhaseLenght
Idx __observationPhaseLenght
The number of observation we make before using again the planer.
Definition: sdyna.h:427

gum::SDYNA::addAction
void addAction(const Idx actionId, const std::string &actionName)
Inserts a new action in the SDyna instance.
Definition: sdyna.h:236

gum::SDYNA::__nbObservation
Idx __nbObservation
The total number of observation made so far.
Definition: sdyna.h:430

instantiation.h
Copyright 2005-2019 Pierre-Henri WUILLEMIN et Christophe GONZALES (LIP6) {prenom.nom}_at_lip6.fr.

gum::SDYNA::RMaxMDDInstance
static SDYNA * RMaxMDDInstance(double attributeSelectionThreshold=0.99, double similarityThreshold=0.3, double discountFactor=0.9, double epsilon=1, Idx observationPhaseLenght=100, Idx nbValueIterationStep=10)
@
Definition: sdyna.h:117

observation.h
Copyright 2005-2019 Pierre-Henri WUILLEMIN et Christophe GONZALES (LIP6) {prenom.nom}_at_lip6.fr.

gum::SDYNA::spitiInstance
static SDYNA * spitiInstance(double attributeSelectionThreshold=0.99, double discountFactor=0.9, double epsilon=1, Idx observationPhaseLenght=100, Idx nbValueIterationStep=10)
@
Definition: sdyna.h:75

gum::SDYNA::makePlanning
void makePlanning(Idx nbStep)
Starts a new planning.
Definition: sdyna.cpp:190

IPlanningStrategy.h
Copyright 2005-2019 Pierre-Henri WUILLEMIN et Christophe GONZALES (LIP6) {prenom.nom}_at_lip6.fr.

gum::SDYNA::initialize
void initialize()
Initializes the Sdyna instance.
Definition: sdyna.cpp:98

gum::Instantiation
Class for assigning/browsing values to tuples of discrete variables.
Definition: instantiation.h:83

gum::SDYNA::_fmdp
FMDP< double > * _fmdp
The learnt Markovian Decision Process.
Definition: sdyna.h:410

gum::AdaptiveRMaxPlaner
<agrum/FMDP/planning/adaptiveRMaxPlaner.h>
Definition: adaptiveRMaxPlaner.h:53

lazyDecider.h
Copyright 2005-2019 Pierre-Henri WUILLEMIN et Christophe GONZALES (LIP6) {prenom.nom}_at_lip6.fr.

gum::SDYNA::spimddiInstance
static SDYNA * spimddiInstance(double attributeSelectionThreshold=0.99, double similarityThreshold=0.3, double discountFactor=0.9, double epsilon=1, Idx observationPhaseLenght=100, Idx nbValueIterationStep=10)
@
Definition: sdyna.h:93

gum::ILearningStrategy::size
virtual Size size()=0
learnerSize

gum::SDYNA::optimalPolicySize
Size optimalPolicySize()
optimalPolicySize
Definition: sdyna.h:403

randomDecider.h
Copyright 2005-2019 Pierre-Henri WUILLEMIN et Christophe GONZALES (LIP6) {prenom.nom}_at_lip6.fr.

gum::Idx
Size Idx
Type for indexes.
Definition: types.h:53

gum::SDYNA::RandomMDDInstance
static SDYNA * RandomMDDInstance(double attributeSelectionThreshold=0.99, double similarityThreshold=0.3, double discountFactor=0.9, double epsilon=1, Idx observationPhaseLenght=100, Idx nbValueIterationStep=10)
@
Definition: sdyna.h:156

gum::IPlanningStrategy::vFunctionSize
virtual Size vFunctionSize()=0
Returns vFunction computed so far current size.

gum::SDYNA::__decider
IDecisionStrategy * __decider
The decider.
Definition: sdyna.h:423

gum::SDYNA::__actionReward
bool __actionReward
Definition: sdyna.h:441

gum::IPlanningStrategy< double >

gum::Size
std::size_t Size
In aGrUM, hashed values are unsigned long int.
Definition: types.h:48

fmdpLearner.h
Copyright 2005-2019 Pierre-Henri WUILLEMIN et Christophe GONZALES (LIP6) {prenom.nom}_at_lip6.fr.

gum::SDYNA::modelSize
Size modelSize()
modelSize
Definition: sdyna.h:387

gum::SDYNA::__nbValueIterationStep
Idx __nbValueIterationStep
The number of Value Iteration step we perform.
Definition: sdyna.h:433

gum::SDYNA::__bin
Set< Observation *> __bin
Since SDYNA made these observation, it has to delete them on quitting.
Definition: sdyna.h:439

gum::StructuredPlaner::spumddInstance
static StructuredPlaner< GUM_SCALAR > * spumddInstance(GUM_SCALAR discountFactor=0.9, GUM_SCALAR epsilon=0.00001, bool verbose=true)
Definition: structuredPlaner.h:80

gum::FMDP::addAction
void addAction(Idx actionId, const std::string &action)
Adds an action to FMDP description.
Definition: fmdp_tpl.h:153

E_GreedyDecider.h
Copyright 2005-2019 Pierre-Henri WUILLEMIN et Christophe GONZALES (LIP6) {prenom.nom}_at_lip6.fr.