d9/d31/sdyna_8h_source.html

 /***************************************************************************
  *   Copyright (C) 2005 by Christophe GONZALES and Pierre-Henri WUILLEMIN  *
  *   {prenom.nom}_at_lip6.fr                                               *
  *                                                                         *
  *   This program is free software; you can redistribute it and/or modify  *
  *   it under the terms of the GNU General Public License as published by  *
  *   the Free Software Foundation; either version 2 of the License, or     *
  *   (at your option) any later version.                                   *
  *                                                                         *
  *   This program is distributed in the hope that it will be useful,       *
  *   but WITHOUT ANY WARRANTY; without even the implied warranty of        *
  *   MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the         *
  *   GNU General Public License for more details.                          *
  *                                                                         *
  *   You should have received a copy of the GNU General Public License     *
  *   along with this program; if not, write to the                         *
  *   Free Software Foundation, Inc.,                                       *
  *   59 Temple Place - Suite 330, Boston, MA  02111-1307, USA.             *
  ***************************************************************************/
 // =========================================================================
 #ifndef GUM_SDYNA_H
 #define GUM_SDYNA_H
 // =========================================================================
 #include <agrum/agrum.h>
 #include <agrum/multidim/instantiation.h>
 // =========================================================================
 #include <agrum/variables/discreteVariable.h>
 // =========================================================================
 #include <agrum/FMDP/SDyna/Strategies/IDecisionStrategy.h>
 #include <agrum/FMDP/SDyna/Strategies/ILearningStrategy.h>
 #include <agrum/FMDP/SDyna/Strategies/IPlanningStrategy.h>
 #include <agrum/FMDP/decision/E_GreedyDecider.h>
 #include <agrum/FMDP/decision/lazyDecider.h>
 #include <agrum/FMDP/decision/randomDecider.h>
 #include <agrum/FMDP/decision/statisticalLazyDecider.h>
 #include <agrum/FMDP/fmdp.h>
 #include <agrum/FMDP/learning/fmdpLearner.h>
 #include <agrum/FMDP/learning/observation.h>
 #include <agrum/FMDP/planning/actionSet.h>
 #include <agrum/FMDP/planning/adaptiveRMaxPlaner.h>
 #include <agrum/FMDP/planning/structuredPlaner.h>
 // =========================================================================

 namespace gum {

   class SDYNA {
     // ###################################################################
     // ###################################################################
     public:
     // ==========================================================================
     // ==========================================================================
     static SDYNA* spitiInstance(double attributeSelectionThreshold = 0.99,
                                 double discountFactor = 0.9,
                                 double epsilon = 1,
                                 Idx    observationPhaseLenght = 100,
                                 Idx    nbValueIterationStep = 10) {
       bool               actionReward = false;
       ILearningStrategy* ls = new FMDPLearner< CHI2TEST, CHI2TEST, ITILEARNER >(
          attributeSelectionThreshold, actionReward);
       IPlanningStrategy< double >* ps =
          StructuredPlaner< double >::sviInstance(discountFactor, epsilon);
       IDecisionStrategy* ds = new E_GreedyDecider();
       return new SDYNA(
          ls, ps, ds, observationPhaseLenght, nbValueIterationStep, actionReward);
     }

     // ==========================================================================
     // ==========================================================================
     static SDYNA* spimddiInstance(double attributeSelectionThreshold = 0.99,
                                   double similarityThreshold = 0.3,
                                   double discountFactor = 0.9,
                                   double epsilon = 1,
                                   Idx    observationPhaseLenght = 100,
                                   Idx    nbValueIterationStep = 10) {
       bool               actionReward = false;
       ILearningStrategy* ls = new FMDPLearner< GTEST, GTEST, IMDDILEARNER >(
          attributeSelectionThreshold, actionReward, similarityThreshold);
       IPlanningStrategy< double >* ps = StructuredPlaner< double >::spumddInstance(
          discountFactor, epsilon, false);
       IDecisionStrategy* ds = new E_GreedyDecider();
       return new SDYNA(ls,
                        ps,
                        ds,
                        observationPhaseLenght,
                        nbValueIterationStep,
                        actionReward,
                        false);
     }

     // ==========================================================================
     // ==========================================================================
     static SDYNA* RMaxMDDInstance(double attributeSelectionThreshold = 0.99,
                                   double similarityThreshold = 0.3,
                                   double discountFactor = 0.9,
                                   double epsilon = 1,
                                   Idx    observationPhaseLenght = 100,
                                   Idx    nbValueIterationStep = 10) {
       bool               actionReward = true;
       ILearningStrategy* ls = new FMDPLearner< GTEST, GTEST, IMDDILEARNER >(
          attributeSelectionThreshold, actionReward, similarityThreshold);
       AdaptiveRMaxPlaner* rm = AdaptiveRMaxPlaner::ReducedAndOrderedInstance(
          ls, discountFactor, epsilon);
       IPlanningStrategy< double >* ps = rm;
       IDecisionStrategy*           ds = rm;
       return new SDYNA(
          ls, ps, ds, observationPhaseLenght, nbValueIterationStep, actionReward);
     }

     // ==========================================================================
     // ==========================================================================
     static SDYNA* RMaxTreeInstance(double attributeSelectionThreshold = 0.99,
                                    double discountFactor = 0.9,
                                    double epsilon = 1,
                                    Idx    observationPhaseLenght = 100,
                                    Idx    nbValueIterationStep = 10) {
       bool               actionReward = true;
       ILearningStrategy* ls = new FMDPLearner< GTEST, GTEST, ITILEARNER >(
          attributeSelectionThreshold, actionReward);
       AdaptiveRMaxPlaner* rm =
          AdaptiveRMaxPlaner::TreeInstance(ls, discountFactor, epsilon);
       IPlanningStrategy< double >* ps = rm;
       IDecisionStrategy*           ds = rm;
       return new SDYNA(
          ls, ps, ds, observationPhaseLenght, nbValueIterationStep, actionReward);
     }

     // ==========================================================================
     // ==========================================================================
     static SDYNA* RandomMDDInstance(double attributeSelectionThreshold = 0.99,
                                     double similarityThreshold = 0.3,
                                     double discountFactor = 0.9,
                                     double epsilon = 1,
                                     Idx    observationPhaseLenght = 100,
                                     Idx    nbValueIterationStep = 10) {
       bool               actionReward = true;
       ILearningStrategy* ls = new FMDPLearner< GTEST, GTEST, IMDDILEARNER >(
          attributeSelectionThreshold, actionReward, similarityThreshold);
       IPlanningStrategy< double >* ps =
          StructuredPlaner< double >::spumddInstance(discountFactor, epsilon);
       IDecisionStrategy* ds = new RandomDecider();
       return new SDYNA(
          ls, ps, ds, observationPhaseLenght, nbValueIterationStep, actionReward);
     }

     // ==========================================================================
     // ==========================================================================
     static SDYNA* RandomTreeInstance(double attributeSelectionThreshold = 0.99,
                                      double discountFactor = 0.9,
                                      double epsilon = 1,
                                      Idx    observationPhaseLenght = 100,
                                      Idx    nbValueIterationStep = 10) {
       bool               actionReward = true;
       ILearningStrategy* ls = new FMDPLearner< CHI2TEST, CHI2TEST, ITILEARNER >(
          attributeSelectionThreshold, actionReward);
       IPlanningStrategy< double >* ps =
          StructuredPlaner< double >::sviInstance(discountFactor, epsilon);
       IDecisionStrategy* ds = new RandomDecider();
       return new SDYNA(
          ls, ps, ds, observationPhaseLenght, nbValueIterationStep, actionReward);
     }


     // ###################################################################
     // ###################################################################

     // ==========================================================================
     // ==========================================================================
     private:
     SDYNA(ILearningStrategy*           learner,
           IPlanningStrategy< double >* planer,
           IDecisionStrategy*           decider,
           Idx                          observationPhaseLenght,
           Idx                          nbValueIterationStep,
           bool                         actionReward,
           bool                         verbose = true);

     // ==========================================================================
     // ==========================================================================
     public:
     ~SDYNA();


     // ###################################################################
     // ###################################################################
     public:
     // ==========================================================================
     // ==========================================================================
     void addAction(const Idx actionId, const std::string& actionName) {
       _fmdp->addAction(actionId, actionName);
     }

     // ==========================================================================
     // ==========================================================================
     void addVariable(const DiscreteVariable* var) { _fmdp->addVariable(var); }


     // ###################################################################
     // ###################################################################
     public:
     // ==========================================================================
     // ==========================================================================
     void initialize();

     // ==========================================================================
     // ==========================================================================
     void initialize(const Instantiation& initialState);


     // ###################################################################
     // ###################################################################
     public:
     // ==========================================================================
     // ==========================================================================
     void setCurrentState(const Instantiation& currentState) {
       _lastState = currentState;
     }

     // ==========================================================================
     // ==========================================================================
     Idx takeAction(const Instantiation& curState);

     // ==========================================================================
     // ==========================================================================
     Idx takeAction();

     // ==========================================================================
     // ==========================================================================
     void feedback(const Instantiation& originalState,
                   const Instantiation& reachedState,
                   Idx                  performedAction,
                   double               obtainedReward);

     // ==========================================================================
     // ==========================================================================
     void feedback(const Instantiation& reachedState, double obtainedReward);

     // ==========================================================================
     // ==========================================================================
     void makePlanning(Idx nbStep);


     public:
     // ==========================================================================
     // ==========================================================================
     std::string toString();

     std::string optimalPolicy2String() { return __planer->optimalPolicy2String(); }


     // ###################################################################
     // ###################################################################
     public:
     // ==========================================================================
     // ==========================================================================
     Size learnerSize() { return __learner->size(); }

     // ==========================================================================
     // ==========================================================================
     Size modelSize() { return _fmdp->size(); }

     // ==========================================================================
     // ==========================================================================
     Size valueFunctionSize() { return __planer->vFunctionSize(); }

     // ==========================================================================
     // ==========================================================================
     Size optimalPolicySize() { return __planer->optimalPolicySize(); }


     protected:
     FMDP< double >* _fmdp;

     Instantiation _lastState;

     private:
     ILearningStrategy* __learner;

     IPlanningStrategy< double >* __planer;

     IDecisionStrategy* __decider;


     Idx __observationPhaseLenght;

     Idx __nbObservation;

     Idx __nbValueIterationStep;

     Idx __lastAction;

     Set< Observation* > __bin;

     bool __actionReward;

     bool _verbose;
   };


 } /* namespace gum */


 #endif   // GUM_SDYNA_H
gum::StructuredPlaner::sviInstance
static StructuredPlaner< GUM_SCALAR > * sviInstance(GUM_SCALAR discountFactor=0.9, GUM_SCALAR epsilon=0.00001, bool verbose=true)
Definition: structuredPlaner.h:91

gum::SDYNA::~SDYNA
~SDYNA()
Destructor.
Definition: sdyna.cpp:76

gum::IPlanningStrategy::optimalPolicy2String
virtual std::string optimalPolicy2String()=0
Returns a string describing the optimal policy in a dot format.

gum::SDYNA::optimalPolicy2String
std::string optimalPolicy2String()
Definition: sdyna.h:360

gum::SDYNA::toString
std::string toString()
Returns.
Definition: sdyna.cpp:229

discreteVariable.h
Base class for discrete random variable.

gum::SDYNA::takeAction
Idx takeAction()
Definition: sdyna.cpp:215

gum::IDecisionStrategy
<agrum/FMDP/SDyna/IDecisionStrategy.h>
Definition: IDecisionStrategy.h:48

ILearningStrategy.h
Headers of the Learning Strategy interface.

agrum.h

gum::SDYNA::_lastState
Instantiation _lastState
The state in which the system is before we perform a new action.
Definition: sdyna.h:410

gum::SDYNA::setCurrentState
void setCurrentState(const Instantiation &currentState)
Sets last state visited to the given state.
Definition: sdyna.h:289

gum::SDYNA::__lastAction
Idx __lastAction
The last performed action.
Definition: sdyna.h:433

gum::SDYNA::SDYNA
SDYNA(ILearningStrategy *learner, IPlanningStrategy< double > *planer, IDecisionStrategy *decider, Idx observationPhaseLenght, Idx nbValueIterationStep, bool actionReward, bool verbose=true)
Constructor.
Definition: sdyna.cpp:54

gum::AdaptiveRMaxPlaner::ReducedAndOrderedInstance
static AdaptiveRMaxPlaner * ReducedAndOrderedInstance(const ILearningStrategy *learner, double discountFactor=0.9, double epsilon=0.00001, bool verbose=true)
Definition: adaptiveRMaxPlaner.h:62

gum::SDYNA::_verbose
bool _verbose
Definition: sdyna.h:440

gum::SDYNA::RMaxTreeInstance
static SDYNA * RMaxTreeInstance(double attributeSelectionThreshold=0.99, double discountFactor=0.9, double epsilon=1, Idx observationPhaseLenght=100, Idx nbValueIterationStep=10)
@
Definition: sdyna.h:134

gum::SDYNA::feedback
void feedback(const Instantiation &originalState, const Instantiation &reachedState, Idx performedAction, double obtainedReward)
Performs a feedback on the last transition.
Definition: sdyna.cpp:127

statisticalLazyDecider.h
Headers of the Statistical lazy decision maker class.

gum::IPlanningStrategy::optimalPolicySize
virtual Size optimalPolicySize()=0
Returns optimalPolicy computed so far current size.

gum::FMDP< double >

gum::DiscreteVariable
Base class for discrete random variable.
Definition: discreteVariable.h:57

gum::SDYNA::__planer
IPlanningStrategy< double > * __planer
The planer used to plan an optimal strategy.
Definition: sdyna.h:417

gum
gum is the global namespace for all aGrUM entities
Definition: agrum.h:25

gum::SDYNA::addVariable
void addVariable(const DiscreteVariable *var)
Inserts a new variable in the SDyna instance.
Definition: sdyna.h:247

gum::SDYNA::RandomTreeInstance
static SDYNA * RandomTreeInstance(double attributeSelectionThreshold=0.99, double discountFactor=0.9, double epsilon=1, Idx observationPhaseLenght=100, Idx nbValueIterationStep=10)
@
Definition: sdyna.h:172

gum::SDYNA::__learner
ILearningStrategy * __learner
The learner used to learn the FMDP.
Definition: sdyna.h:414

structuredPlaner.h
Headers of the StructuredPlaner planer class.

IDecisionStrategy.h
Headers of the Decision Strategy interface.

actionSet.h
Headers of the MDDOperatorStrategy planer class.

gum::SDYNA
The general SDyna architecture abstract class.
Definition: sdyna.h:63

gum::Set
Representation of a setA Set is a structure that contains arbitrary elements.
Definition: set.h:162

fmdp.h
Class for implementation of factored markov decision process.

gum::FMDP::addVariable
void addVariable(const DiscreteVariable *var)
Adds a variable to FMDP description.
Definition: fmdp_tpl.h:121

gum::SDYNA::learnerSize
Size learnerSize()
learnerSize
Definition: sdyna.h:376

adaptiveRMaxPlaner.h
Headers of the RMax planer class.

gum::ILearningStrategy
<agrum/FMDP/SDyna/ILearningStrategy.h>
Definition: ILearningStrategy.h:52

gum::E_GreedyDecider
<agrum/FMDP/decision/E_GreedyDecider.h>
Definition: E_GreedyDecider.h:53

gum::RandomDecider
Class to make decision randomlyDoes nothing more than the interface for DecisionStrategy does...
Definition: randomDecider.h:46

gum::SDYNA::valueFunctionSize
Size valueFunctionSize()
valueFunctionSize
Definition: sdyna.h:392

gum::FMDP::size
Size size() const
Returns the map binding main variables and prime variables.
Definition: fmdp_tpl.h:389

gum::AdaptiveRMaxPlaner::TreeInstance
static AdaptiveRMaxPlaner * TreeInstance(const ILearningStrategy *learner, double discountFactor=0.9, double epsilon=0.00001, bool verbose=true)
Definition: adaptiveRMaxPlaner.h:76

gum::FMDPLearner
Definition: fmdpLearner.h:57

gum::SDYNA::__observationPhaseLenght
Idx __observationPhaseLenght
The number of observation we make before using again the planer.
Definition: sdyna.h:424

gum::SDYNA::addAction
void addAction(const Idx actionId, const std::string &actionName)
Inserts a new action in the SDyna instance.
Definition: sdyna.h:233

gum::SDYNA::__nbObservation
Idx __nbObservation
The total number of observation made so far.
Definition: sdyna.h:427

instantiation.h
Header files of gum::Instantiation.

gum::SDYNA::RMaxMDDInstance
static SDYNA * RMaxMDDInstance(double attributeSelectionThreshold=0.99, double similarityThreshold=0.3, double discountFactor=0.9, double epsilon=1, Idx observationPhaseLenght=100, Idx nbValueIterationStep=10)
@
Definition: sdyna.h:114

observation.h
Headers of the Observation class.

gum::SDYNA::spitiInstance
static SDYNA * spitiInstance(double attributeSelectionThreshold=0.99, double discountFactor=0.9, double epsilon=1, Idx observationPhaseLenght=100, Idx nbValueIterationStep=10)
@
Definition: sdyna.h:72

gum::SDYNA::makePlanning
void makePlanning(Idx nbStep)
Starts a new planning.
Definition: sdyna.cpp:187

IPlanningStrategy.h
Headers of the Planning Strategy interface.

gum::SDYNA::initialize
void initialize()
Initializes the Sdyna instance.
Definition: sdyna.cpp:95

gum::Instantiation
Class for assigning/browsing values to tuples of discrete variables.
Definition: instantiation.h:80

gum::SDYNA::_fmdp
FMDP< double > * _fmdp
The learnt Markovian Decision Process.
Definition: sdyna.h:407

gum::AdaptiveRMaxPlaner
<agrum/FMDP/planning/adaptiveRMaxPlaner.h>
Definition: adaptiveRMaxPlaner.h:50

lazyDecider.h
Headers of the lazy decision maker class.

gum::SDYNA::spimddiInstance
static SDYNA * spimddiInstance(double attributeSelectionThreshold=0.99, double similarityThreshold=0.3, double discountFactor=0.9, double epsilon=1, Idx observationPhaseLenght=100, Idx nbValueIterationStep=10)
@
Definition: sdyna.h:90

gum::ILearningStrategy::size
virtual Size size()=0
learnerSize

gum::SDYNA::optimalPolicySize
Size optimalPolicySize()
optimalPolicySize
Definition: sdyna.h:400

randomDecider.h
Headers of the Random decision maker class.

gum::Idx
Size Idx
Type for indexes.
Definition: types.h:50

gum::SDYNA::RandomMDDInstance
static SDYNA * RandomMDDInstance(double attributeSelectionThreshold=0.99, double similarityThreshold=0.3, double discountFactor=0.9, double epsilon=1, Idx observationPhaseLenght=100, Idx nbValueIterationStep=10)
@
Definition: sdyna.h:153

gum::IPlanningStrategy::vFunctionSize
virtual Size vFunctionSize()=0
Returns vFunction computed so far current size.

gum::SDYNA::__decider
IDecisionStrategy * __decider
The decider.
Definition: sdyna.h:420

gum::SDYNA::__actionReward
bool __actionReward
Definition: sdyna.h:438

gum::IPlanningStrategy< double >

gum::Size
std::size_t Size
In aGrUM, hashed values are unsigned long int.
Definition: types.h:45

fmdpLearner.h
Headers of the FMDPLearner class.

gum::SDYNA::modelSize
Size modelSize()
modelSize
Definition: sdyna.h:384

gum::SDYNA::__nbValueIterationStep
Idx __nbValueIterationStep
The number of Value Iteration step we perform.
Definition: sdyna.h:430

gum::SDYNA::__bin
Set< Observation *> __bin
Since SDYNA made these observation, it has to delete them on quitting.
Definition: sdyna.h:436

gum::StructuredPlaner::spumddInstance
static StructuredPlaner< GUM_SCALAR > * spumddInstance(GUM_SCALAR discountFactor=0.9, GUM_SCALAR epsilon=0.00001, bool verbose=true)
Definition: structuredPlaner.h:77

gum::FMDP::addAction
void addAction(Idx actionId, const std::string &action)
Adds an action to FMDP description.
Definition: fmdp_tpl.h:150

E_GreedyDecider.h
Headers of the epsilon-greedy decision maker class.