d1/d72/adaptiveRMaxPlaner_8cpp_source.html

 // =========================================================================
 #include <queue>
 #include <vector>
 //#include <algorithm>
 //#include <utility>
 // =========================================================================
 #include <agrum/core/math/math.h>
 #include <agrum/core/functors.h>
 #include <agrum/core/smallobjectallocator/smallObjectAllocator.h>
 // =========================================================================
 #include <agrum/multidim/implementations/multiDimFunctionGraph.h>
 #include <agrum/multidim/instantiation.h>
 #include <agrum/multidim/potential.h>
 // =========================================================================
 #include <agrum/FMDP/planning/adaptiveRMaxPlaner.h>
 // =========================================================================

 #define RECASTED(x) reinterpret_cast< const MultiDimFunctionGraph< double >* >(x)

 namespace gum {

   /* **************************************************************************************************
    * **/
   /* ** **/
   /* **                                Constructors / Destructors **/
   /* ** **/
   /* **************************************************************************************************
    * **/

   // ===========================================================================
   // Default constructor
   // ===========================================================================
   AdaptiveRMaxPlaner::AdaptiveRMaxPlaner(IOperatorStrategy< double >* opi,
                                          double                   discountFactor,
                                          double                   epsilon,
                                          const ILearningStrategy* learner,
                                          bool                     verbose) :
       StructuredPlaner(opi, discountFactor, epsilon, verbose),
       IDecisionStrategy(), __fmdpLearner(learner), __initialized(false) {
     GUM_CONSTRUCTOR(AdaptiveRMaxPlaner);
   }

   // ===========================================================================
   // Default destructor
   // ===========================================================================
   AdaptiveRMaxPlaner::~AdaptiveRMaxPlaner() {
     GUM_DESTRUCTOR(AdaptiveRMaxPlaner);

     for (HashTableIteratorSafe< Idx, StatesCounter* > scIter =
             __counterTable.beginSafe();
          scIter != __counterTable.endSafe();
          ++scIter)
       delete scIter.val();
   }

   /* **************************************************************************************************
    * **/
   /* ** **/
   /* **                                     Planning Methods **/
   /* ** **/
   /* **************************************************************************************************
    * **/

   // ==========================================================================
   // Initializes data structure needed for making the planning
   // ==========================================================================
   void AdaptiveRMaxPlaner::initialize(const FMDP< double >* fmdp) {
     if (!__initialized) {
       StructuredPlaner::initialize(fmdp);
       IDecisionStrategy::initialize(fmdp);
       for (auto actionIter = fmdp->beginActions();
            actionIter != fmdp->endActions();
            ++actionIter) {
         __counterTable.insert(*actionIter, new StatesCounter());
         __initializedTable.insert(*actionIter, false);
       }
       __initialized = true;
     }
   }

   // ===========================================================================
   // Performs a value iteration
   // ===========================================================================
   void AdaptiveRMaxPlaner::makePlanning(Idx nbStep) {
     __makeRMaxFunctionGraphs();

     StructuredPlaner::makePlanning(nbStep);

     __clearTables();
   }

   /* **************************************************************************************************
    * **/
   /* ** **/
   /* **                                   Value Iteration Methods **/
   /* ** **/
   /* **************************************************************************************************
    * **/

   // ===========================================================================
   // Performs a single step of value iteration
   // ===========================================================================
   void AdaptiveRMaxPlaner::_initVFunction() {
     _vFunction->manager()->setRootNode(
        _vFunction->manager()->addTerminalNode(0.0));
     for (auto actionIter = _fmdp->beginActions();
          actionIter != _fmdp->endActions();
          ++actionIter)
       _vFunction = this->_operator->add(
          _vFunction, RECASTED(this->_fmdp->reward(*actionIter)), 1);
   }

   // ===========================================================================
   // Performs a single step of value iteration
   // ===========================================================================
   MultiDimFunctionGraph< double >* AdaptiveRMaxPlaner::_valueIteration() {
     // *****************************************************************************************
     // Loop reset
     MultiDimFunctionGraph< double >* newVFunction =
        _operator->getFunctionInstance();
     newVFunction->copyAndReassign(*_vFunction, _fmdp->mapMainPrime());

     // *****************************************************************************************
     // For each action
     std::vector< MultiDimFunctionGraph< double >* > qActionsSet;
     for (auto actionIter = _fmdp->beginActions();
          actionIter != _fmdp->endActions();
          ++actionIter) {
       MultiDimFunctionGraph< double >* qAction =
          _evalQaction(newVFunction, *actionIter);

       // *******************************************************************************************
       // Next, we add the reward
       qAction = _addReward(qAction, *actionIter);

       qAction = this->_operator->maximize(
          __actionsRMaxTable[*actionIter],
          this->_operator->multiply(qAction, __actionsBoolTable[*actionIter], 1),
          2);

       qActionsSet.push_back(qAction);
     }
     delete newVFunction;

     // *****************************************************************************************
     // Next to evaluate main value function, we take maximise over all action
     // value, ...
     newVFunction = _maximiseQactions(qActionsSet);

     return newVFunction;
   }

   /* **************************************************************************************************
    * **/
   /* ** **/
   /* **                                   Optimal Policy Evaluation Methods **/
   /* ** **/
   /* **************************************************************************************************
    * **/

   // ===========================================================================
   // Evals the policy corresponding to the given value function
   // ===========================================================================
   void AdaptiveRMaxPlaner::_evalPolicy() {
     // *****************************************************************************************
     // Loop reset
     MultiDimFunctionGraph< double >* newVFunction =
        _operator->getFunctionInstance();
     newVFunction->copyAndReassign(*_vFunction, _fmdp->mapMainPrime());

     std::vector<
        MultiDimFunctionGraph< ArgMaxSet< double, Idx >, SetTerminalNodePolicy >* >
        argMaxQActionsSet;
     // *****************************************************************************************
     // For each action
     for (auto actionIter = _fmdp->beginActions();
          actionIter != _fmdp->endActions();
          ++actionIter) {
       MultiDimFunctionGraph< double >* qAction =
          this->_evalQaction(newVFunction, *actionIter);

       qAction = this->_addReward(qAction, *actionIter);

       qAction = this->_operator->maximize(
          __actionsRMaxTable[*actionIter],
          this->_operator->multiply(qAction, __actionsBoolTable[*actionIter], 1),
          2);

       argMaxQActionsSet.push_back(_makeArgMax(qAction, *actionIter));
     }
     delete newVFunction;

     // *****************************************************************************************
     // Next to evaluate main value function, we take maximise over all action
     // value, ...
     MultiDimFunctionGraph< ArgMaxSet< double, Idx >, SetTerminalNodePolicy >*
        argMaxVFunction = _argmaximiseQactions(argMaxQActionsSet);

     // *****************************************************************************************
     // Next to evaluate main value function, we take maximise over all action
     // value, ...
     _extractOptimalPolicy(argMaxVFunction);
   }

   // ===========================================================================
   //
   // ===========================================================================
   void AdaptiveRMaxPlaner::__makeRMaxFunctionGraphs() {
     __rThreshold =
        __fmdpLearner->modaMax() * 5 > 30 ? __fmdpLearner->modaMax() * 5 : 30;
     __rmax = __fmdpLearner->rMax() / (1.0 - this->_discountFactor);

     for (auto actionIter = this->fmdp()->beginActions();
          actionIter != this->fmdp()->endActions();
          ++actionIter) {
       std::vector< MultiDimFunctionGraph< double >* > rmaxs;
       std::vector< MultiDimFunctionGraph< double >* > boolQs;

       for (auto varIter = this->fmdp()->beginVariables();
            varIter != this->fmdp()->endVariables();
            ++varIter) {
         const IVisitableGraphLearner* visited = __counterTable[*actionIter];

         MultiDimFunctionGraph< double >* varRMax =
            this->_operator->getFunctionInstance();
         MultiDimFunctionGraph< double >* varBoolQ =
            this->_operator->getFunctionInstance();

         visited->insertSetOfVars(varRMax);
         visited->insertSetOfVars(varBoolQ);

         std::pair< NodeId, NodeId > rooty =
            __visitLearner(visited, visited->root(), varRMax, varBoolQ);
         varRMax->manager()->setRootNode(rooty.first);
         varRMax->manager()->reduce();
         varRMax->manager()->clean();
         varBoolQ->manager()->setRootNode(rooty.second);
         varBoolQ->manager()->reduce();
         varBoolQ->manager()->clean();

         rmaxs.push_back(varRMax);
         boolQs.push_back(varBoolQ);

         //          std::cout << RECASTED(this->_fmdp->transition(*actionIter,
         //          *varIter))->toDot() << std::endl;
         //          for( auto varIter2 =
         //          RECASTED(this->_fmdp->transition(*actionIter,
         //          *varIter))->variablesSequence().beginSafe(); varIter2 !=
         //          RECASTED(this->_fmdp->transition(*actionIter,
         //          *varIter))->variablesSequence().endSafe(); ++varIter2 )
         //              std::cout << (*varIter2)->name() << " | ";
         //          std::cout << std::endl;

         //          std::cout << varRMax->toDot() << std::endl;
         //          for( auto varIter =
         //          varRMax->variablesSequence().beginSafe(); varIter !=
         //          varRMax->variablesSequence().endSafe(); ++varIter )
         //              std::cout << (*varIter)->name() << " | ";
         //          std::cout << std::endl;

         //          std::cout << varBoolQ->toDot() << std::endl;
         //          for( auto varIter =
         //          varBoolQ->variablesSequence().beginSafe(); varIter !=
         //          varBoolQ->variablesSequence().endSafe(); ++varIter )
         //              std::cout << (*varIter)->name() << " | ";
         //          std::cout << std::endl;
       }

       //        std::cout << "Maximising" << std::endl;
       __actionsRMaxTable.insert(*actionIter, this->_maximiseQactions(rmaxs));
       __actionsBoolTable.insert(*actionIter, this->_minimiseFunctions(boolQs));
     }
   }

   // ===========================================================================
   //
   // ===========================================================================
   std::pair< NodeId, NodeId >
      AdaptiveRMaxPlaner::__visitLearner(const IVisitableGraphLearner* visited,
                                         NodeId currentNodeId,
                                         MultiDimFunctionGraph< double >* rmax,
                                         MultiDimFunctionGraph< double >* boolQ) {
     std::pair< NodeId, NodeId > rep;
     if (visited->isTerminal(currentNodeId)) {
       rep.first = rmax->manager()->addTerminalNode(
          visited->nodeNbObservation(currentNodeId) < __rThreshold ? __rmax : 0.0);
       rep.second = boolQ->manager()->addTerminalNode(
          visited->nodeNbObservation(currentNodeId) < __rThreshold ? 0.0 : 1.0);
       return rep;
     }

     NodeId* rmaxsons = static_cast< NodeId* >(SOA_ALLOCATE(
        sizeof(NodeId) * visited->nodeVar(currentNodeId)->domainSize()));
     NodeId* bqsons = static_cast< NodeId* >(SOA_ALLOCATE(
        sizeof(NodeId) * visited->nodeVar(currentNodeId)->domainSize()));

     for (Idx moda = 0; moda < visited->nodeVar(currentNodeId)->domainSize();
          ++moda) {
       std::pair< NodeId, NodeId > sonp = __visitLearner(
          visited, visited->nodeSon(currentNodeId, moda), rmax, boolQ);
       rmaxsons[moda] = sonp.first;
       bqsons[moda] = sonp.second;
     }

     rep.first =
        rmax->manager()->addInternalNode(visited->nodeVar(currentNodeId), rmaxsons);
     rep.second =
        boolQ->manager()->addInternalNode(visited->nodeVar(currentNodeId), bqsons);
     return rep;
   }

   // ===========================================================================
   //
   // ===========================================================================
   void AdaptiveRMaxPlaner::__clearTables() {
     for (auto actionIter = this->fmdp()->beginActions();
          actionIter != this->fmdp()->endActions();
          ++actionIter) {
       delete __actionsBoolTable[*actionIter];
       delete __actionsRMaxTable[*actionIter];
     }
     __actionsRMaxTable.clear();
     __actionsBoolTable.clear();
   }

 }   // end of namespace gum
gum::AdaptiveRMaxPlaner::makePlanning
void makePlanning(Idx nbStep=1000000)
Performs a value iteration.
Definition: adaptiveRMaxPlaner.cpp:114

gum::AdaptiveRMaxPlaner::__counterTable
HashTable< Idx, StatesCounter *> __counterTable
Definition: adaptiveRMaxPlaner.h:210

math.h
Copyright 2005-2019 Pierre-Henri WUILLEMIN et Christophe GONZALES (LIP6) {prenom.nom}_at_lip6.fr.

gum::AdaptiveRMaxPlaner::__actionsBoolTable
HashTable< Idx, MultiDimFunctionGraph< double > *> __actionsBoolTable
Definition: adaptiveRMaxPlaner.h:189

gum::StructuredPlaner
<agrum/FMDP/planning/structuredPlaner.h>
Definition: structuredPlaner.h:70

gum::AdaptiveRMaxPlaner::~AdaptiveRMaxPlaner
~AdaptiveRMaxPlaner()
Default destructor.
Definition: adaptiveRMaxPlaner.cpp:76

gum::IDecisionStrategy::initialize
virtual void initialize(const FMDP< double > *fmdp)
Initializes the learner.
Definition: IDecisionStrategy.h:72

gum::AdaptiveRMaxPlaner::_valueIteration
virtual MultiDimFunctionGraph< double > * _valueIteration()
Performs a single step of value iteration.
Definition: adaptiveRMaxPlaner.cpp:146

gum::MultiDimFunctionGraphManager::clean
void clean()
Removes var without nodes in the diagram.
Definition: multiDimFunctionGraphManager_tpl.h:554

smallObjectAllocator.h
Copyright 2005-2019 Pierre-Henri WUILLEMIN et Christophe GONZALES (LIP6) {prenom.nom}_at_lip6.fr.

gum::MultiDimFunctionGraphManager::setRootNode
void setRootNode(const NodeId &root)
Sets root node of decision diagram.
Definition: multiDimFunctionGraphManager_tpl.h:56

gum::IDecisionStrategy
<agrum/FMDP/SDyna/IDecisionStrategy.h>
Definition: IDecisionStrategy.h:51

gum::StatesCounter
<agrum/FMDP/simulation/statesCounter.h>
Definition: statesCounter.h:51

gum::FMDP::beginActions
SequenceIteratorSafe< Idx > beginActions() const
Returns an iterator reference to he beginning of the list of actions.
Definition: fmdp.h:137

gum::StructuredPlaner< double >::_argmaximiseQactions
virtual MultiDimFunctionGraph< ArgMaxSet< double, Idx >, SetTerminalNodePolicy > * _argmaximiseQactions(std::vector< MultiDimFunctionGraph< ArgMaxSet< double, Idx >, SetTerminalNodePolicy > *> &)
Performs argmax_a Q(s,a)
Definition: structuredPlaner_tpl.h:540

gum::MultiDimFunctionGraph::copyAndReassign
void copyAndReassign(const MultiDimFunctionGraph< GUM_SCALAR, TerminalNodePolicy > &src, const Bijection< const DiscreteVariable *, const DiscreteVariable * > &reassign)
Copies src diagrams structure into this diagrams.
Definition: multiDimFunctionGraph_tpl.h:288

gum::StructuredPlaner< double >::_discountFactor
double _discountFactor
Discount Factor used for infinite horizon planning.
Definition: structuredPlaner.h:363

gum::StructuredPlaner< double >::_operator
IOperatorStrategy< double > * _operator
Definition: structuredPlaner.h:365

gum::AdaptiveRMaxPlaner::__visitLearner
std::pair< NodeId, NodeId > __visitLearner(const IVisitableGraphLearner *, NodeId currentNodeId, MultiDimFunctionGraph< double > *, MultiDimFunctionGraph< double > *)
Definition: adaptiveRMaxPlaner.cpp:309

gum::IOperatorStrategy< double >

gum::IOperatorStrategy::maximize
virtual MultiDimFunctionGraph< GUM_SCALAR > * maximize(const MultiDimFunctionGraph< GUM_SCALAR > *f1, const MultiDimFunctionGraph< GUM_SCALAR > *f2, Idx del=3)=0

gum::FMDP::beginVariables
SequenceIteratorSafe< const DiscreteVariable *> beginVariables() const
Returns an iterator reference to he beginning of the list of variables.
Definition: fmdp.h:95

gum::FMDP::mapMainPrime
INLINE const Bijection< const DiscreteVariable *, const DiscreteVariable *> & mapMainPrime() const
Returns the map binding main variables and prime variables.
Definition: fmdp.h:117

gum::IVisitableGraphLearner
<agrum/FMDP/SDyna/IVisitableGraphLearner.h>
Definition: IVisitableGraphLearner.h:53

gum::AdaptiveRMaxPlaner::__clearTables
void __clearTables()
Definition: adaptiveRMaxPlaner.cpp:345

gum::AdaptiveRMaxPlaner::__fmdpLearner
const ILearningStrategy * __fmdpLearner
Definition: adaptiveRMaxPlaner.h:190

gum::AdaptiveRMaxPlaner::AdaptiveRMaxPlaner
AdaptiveRMaxPlaner(IOperatorStrategy< double > *opi, double discountFactor, double epsilon, const ILearningStrategy *learner, bool verbose)
Default constructor.
Definition: adaptiveRMaxPlaner.cpp:63

gum::MultiDimFunctionGraphManager::addInternalNode
NodeId addInternalNode(const DiscreteVariable *var)
Inserts a new non terminal node in graph.
Definition: multiDimFunctionGraphManager_tpl.h:76

gum::StructuredPlaner< double >::_extractOptimalPolicy
void _extractOptimalPolicy(const MultiDimFunctionGraph< ArgMaxSet< double, Idx >, SetTerminalNodePolicy > *optimalValueFunction)
From V(s)* = argmax_a Q*(s,a), this function extract pi*(s) This function mainly consists in extracti...
Definition: structuredPlaner_tpl.h:564

gum::FMDP< double >

gum::HashTableIteratorSafe
Safe Iterators for hashtables.
Definition: hashTable.h:2220

gum
Copyright 2005-2019 Pierre-Henri WUILLEMIN et Christophe GONZALES (LIP6) {prenom.nom}_at_lip6.fr.
Definition: agrum.h:25

gum::StructuredPlaner< double >::_fmdp
const FMDP< double > * _fmdp
The Factored Markov Decision Process describing our planning situation (NB : this one must have funct...
Definition: structuredPlaner.h:338

functors.h
Copyright 2005-2019 Pierre-Henri WUILLEMIN et Christophe GONZALES (LIP6) {prenom.nom}_at_lip6.fr.

gum::IVisitableGraphLearner::root
virtual NodeId root() const =0

gum::IOperatorStrategy::add
virtual MultiDimFunctionGraph< GUM_SCALAR > * add(const MultiDimFunctionGraph< GUM_SCALAR > *f1, const MultiDimFunctionGraph< GUM_SCALAR > *f2, Idx del=1)=0

gum::AdaptiveRMaxPlaner::__initializedTable
HashTable< Idx, bool > __initializedTable
Definition: adaptiveRMaxPlaner.h:211

gum::DiscreteVariable::domainSize
virtual Size domainSize() const =0

gum::IOperatorStrategy::multiply
virtual MultiDimFunctionGraph< GUM_SCALAR > * multiply(const MultiDimFunctionGraph< GUM_SCALAR > *f1, const MultiDimFunctionGraph< GUM_SCALAR > *f2, Idx del=3)=0

potential.h
Copyright 2005-2019 Pierre-Henri WUILLEMIN et Christophe GONZALES (LIP6) {prenom.nom}_at_lip6.fr.

adaptiveRMaxPlaner.h
Copyright 2005-2019 Pierre-Henri WUILLEMIN et Christophe GONZALES (LIP6) {prenom.nom}_at_lip6.fr.

gum::IVisitableGraphLearner::nodeVar
virtual const DiscreteVariable * nodeVar(NodeId ni) const =0

gum::ILearningStrategy
<agrum/FMDP/SDyna/ILearningStrategy.h>
Definition: ILearningStrategy.h:55

gum::AdaptiveRMaxPlaner::__makeRMaxFunctionGraphs
void __makeRMaxFunctionGraphs()
Definition: adaptiveRMaxPlaner.cpp:238

gum::AdaptiveRMaxPlaner::__actionsRMaxTable
HashTable< Idx, MultiDimFunctionGraph< double > *> __actionsRMaxTable
Definition: adaptiveRMaxPlaner.h:188

gum::IVisitableGraphLearner::isTerminal
virtual bool isTerminal(NodeId ni) const =0

gum::StructuredPlaner< double >::_evalQaction
virtual MultiDimFunctionGraph< double > * _evalQaction(const MultiDimFunctionGraph< double > *, Idx)
Performs the P(s&#39;|s,a).V^{t-1}(s&#39;) part of the value itération.
Definition: structuredPlaner_tpl.h:353

gum::IVisitableGraphLearner::insertSetOfVars
virtual void insertSetOfVars(MultiDimFunctionGraph< double > *) const =0

gum::FMDP::reward
const MultiDimImplementation< GUM_SCALAR > * reward(Idx actionId=0) const
Returns the reward table of mdp.
Definition: fmdp_tpl.h:324

instantiation.h
Copyright 2005-2019 Pierre-Henri WUILLEMIN et Christophe GONZALES (LIP6) {prenom.nom}_at_lip6.fr.

gum::MultiDimFunctionGraph< double >

gum::StructuredPlaner< double >::_makeArgMax
MultiDimFunctionGraph< ArgMaxSet< double, Idx >, SetTerminalNodePolicy > * _makeArgMax(const MultiDimFunctionGraph< double > *Qaction, Idx actionId)
Creates a copy of given Qaction that can be exploit by a Argmax.
Definition: structuredPlaner_tpl.h:482

gum::ILearningStrategy::modaMax
virtual double modaMax() const =0
learnerSize

multiDimFunctionGraph.h
Copyright 2005-2019 Pierre-Henri WUILLEMIN et Christophe GONZALES (LIP6) {prenom.nom}_at_lip6.fr.

gum::StructuredPlaner::initialize
virtual void initialize(const FMDP< GUM_SCALAR > *fmdp)
Initializes data structure needed for making the planning.
Definition: structuredPlaner_tpl.h:229

gum::SetTerminalNodePolicy
Implementation of a Terminal Node Policy that maps nodeid to a set of value.
Definition: SetTerminalNodePolicy.h:48

gum::AdaptiveRMaxPlaner::__rThreshold
double __rThreshold
Definition: adaptiveRMaxPlaner.h:192

gum::IVisitableGraphLearner::nodeSon
virtual NodeId nodeSon(NodeId ni, Idx modality) const =0

gum::AdaptiveRMaxPlaner
<agrum/FMDP/planning/adaptiveRMaxPlaner.h>
Definition: adaptiveRMaxPlaner.h:53

gum::AdaptiveRMaxPlaner::initialize
void initialize(const FMDP< double > *fmdp)
Initializes data structure needed for making the planning.
Definition: adaptiveRMaxPlaner.cpp:97

gum::ILearningStrategy::rMax
virtual double rMax() const =0
learnerSize

gum::StructuredPlaner< double >::fmdp
INLINE const FMDP< double > * fmdp()
Returns a const ptr on the Factored Markov Decision Process on which we&#39;re planning.
Definition: structuredPlaner.h:137

gum::AdaptiveRMaxPlaner::__rmax
double __rmax
Definition: adaptiveRMaxPlaner.h:193

gum::StructuredPlaner< double >::_addReward
virtual MultiDimFunctionGraph< double > * _addReward(MultiDimFunctionGraph< double > *function, Idx actionId=0)
Perform the R(s) + gamma . function.
Definition: structuredPlaner_tpl.h:408

gum::AdaptiveRMaxPlaner::_initVFunction
virtual void _initVFunction()
Performs a single step of value iteration.
Definition: adaptiveRMaxPlaner.cpp:133

gum::FMDP::endActions
SequenceIteratorSafe< Idx > endActions() const
Returns an iterator reference to the end of the list of actions.
Definition: fmdp.h:144

gum::MultiDimFunctionGraphManager::addTerminalNode
NodeId addTerminalNode(const GUM_SCALAR &value)
Adds a value to the MultiDimFunctionGraph.
Definition: multiDimFunctionGraphManager_tpl.h:102

gum::Idx
Size Idx
Type for indexes.
Definition: types.h:53

gum::MultiDimFunctionGraph::manager
MultiDimFunctionGraphManager< GUM_SCALAR, TerminalNodePolicy > * manager()
Returns a const reference to the manager of this diagram.
Definition: multiDimFunctionGraph_tpl.h:543

gum::FMDP::endVariables
SequenceIteratorSafe< const DiscreteVariable *> endVariables() const
Returns an iterator reference to the end of the list of variables.
Definition: fmdp.h:102

RECASTED
#define RECASTED(x)
For shorter line and hence more comprehensive code purposes only.
Definition: adaptiveRMaxPlaner.cpp:48

gum::HashTable::insert
value_type & insert(const Key &key, const Val &val)
Adds a new element (actually a copy of this element) into the hash table.
Definition: hashTable_tpl.h:877

gum::IVisitableGraphLearner::nodeNbObservation
virtual Idx nodeNbObservation(NodeId ni) const =0

gum::MultiDimFunctionGraphManager::reduce
virtual void reduce()=0
Ensures that every isomorphic subgraphs are merged together.

gum::StructuredPlaner< double >::_minimiseFunctions
virtual MultiDimFunctionGraph< double > * _minimiseFunctions(std::vector< MultiDimFunctionGraph< double > *> &)
Performs min_i F_i.
Definition: structuredPlaner_tpl.h:389

gum::NodeId
Size NodeId
Type for node ids.
Definition: graphElements.h:98

gum::StructuredPlaner< double >::_vFunction
MultiDimFunctionGraph< double > * _vFunction
The Value Function computed iteratively.
Definition: structuredPlaner.h:343

gum::AdaptiveRMaxPlaner::__initialized
bool __initialized
Definition: adaptiveRMaxPlaner.h:213

gum::AdaptiveRMaxPlaner::_evalPolicy
virtual void _evalPolicy()
Perform the required tasks to extract an optimal policy.
Definition: adaptiveRMaxPlaner.cpp:194

gum::StructuredPlaner< double >::_maximiseQactions
virtual MultiDimFunctionGraph< double > * _maximiseQactions(std::vector< MultiDimFunctionGraph< double > *> &)
Performs max_a Q(s,a)
Definition: structuredPlaner_tpl.h:369

gum::IOperatorStrategy::getFunctionInstance
virtual MultiDimFunctionGraph< GUM_SCALAR, ExactTerminalNodePolicy > * getFunctionInstance()=0

SOA_ALLOCATE
#define SOA_ALLOCATE(x)
Definition: smallObjectAllocator.h:161

gum::StructuredPlaner::makePlanning
virtual void makePlanning(Idx nbStep=1000000)
Performs a value iteration.
Definition: structuredPlaner_tpl.h:251