d0/df5/structuredPlaner_8h_source.html

 /***************************************************************************
  *   Copyright (C) 2005 by Christophe GONZALES and Pierre-Henri WUILLEMIN  *
  *   {prenom.nom}_at_lip6.fr                                               *
  *                                                                         *
  *   This program is free software; you can redistribute it and/or modify  *
  *   it under the terms of the GNU General Public License as published by  *
  *   the Free Software Foundation; either version 2 of the License, or     *
  *   (at your option) any later version.                                   *
  *                                                                         *
  *   This program is distributed in the hope that it will be useful,       *
  *   but WITHOUT ANY WARRANTY; without even the implied warranty of        *
  *   MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the         *
  *   GNU General Public License for more details.                          *
  *                                                                         *
  *   You should have received a copy of the GNU General Public License     *
  *   along with this program; if not, write to the                         *
  *   Free Software Foundation, Inc.,                                       *
  *   59 Temple Place - Suite 330, Boston, MA  02111-1307, USA.             *
  ***************************************************************************/
 // =========================================================================
 #ifndef GUM_STRUCTURED_PLANNING_H
 #define GUM_STRUCTURED_PLANNING_H
 // =========================================================================
 #include <thread>
 // =========================================================================
 #include <agrum/core/argMaxSet.h>
 #include <agrum/core/functors.h>
 #include <agrum/core/inline.h>
 #include <agrum/core/smallobjectallocator/smallObjectAllocator.h>
 // =========================================================================
 #include <agrum/multidim/implementations/multiDimFunctionGraph.h>
 #include <agrum/multidim/utils/FunctionGraphUtilities/terminalNodePolicies/SetTerminalNodePolicy.h>
 // =========================================================================
 #include <agrum/FMDP/SDyna/Strategies/IPlanningStrategy.h>
 #include <agrum/FMDP/fmdp.h>
 #include <agrum/FMDP/planning/IOperatorStrategy.h>
 #include <agrum/FMDP/planning/actionSet.h>
 #include <agrum/FMDP/planning/mddOperatorStrategy.h>
 #include <agrum/FMDP/planning/treeOperatorStrategy.h>
 // =========================================================================

 namespace gum {

   template < typename GUM_SCALAR >
   class StructuredPlaner : public IPlanningStrategy< GUM_SCALAR > {
     // ###################################################################
     // ###################################################################
     public:
     // ==========================================================================
     // ==========================================================================
     static StructuredPlaner< GUM_SCALAR >*
        spumddInstance(GUM_SCALAR discountFactor = 0.9,
                       GUM_SCALAR epsilon = 0.00001,
                       bool       verbose = true) {
       return new StructuredPlaner< GUM_SCALAR >(
          new MDDOperatorStrategy< GUM_SCALAR >(),
          discountFactor,
          epsilon,
          verbose);
     }

     // ==========================================================================
     // ==========================================================================
     static StructuredPlaner< GUM_SCALAR >*
        sviInstance(GUM_SCALAR discountFactor = 0.9,
                    GUM_SCALAR epsilon = 0.00001,
                    bool       verbose = true) {
       return new StructuredPlaner< GUM_SCALAR >(
          new TreeOperatorStrategy< GUM_SCALAR >(),
          discountFactor,
          epsilon,
          verbose);
     }


     // ###################################################################
     // ###################################################################
     protected:
     // ==========================================================================
     // ==========================================================================
     StructuredPlaner(IOperatorStrategy< GUM_SCALAR >* opi,
                      GUM_SCALAR                       discountFactor,
                      GUM_SCALAR                       epsilon,
                      bool                             verbose);

     // ==========================================================================
     // ==========================================================================
     public:
     virtual ~StructuredPlaner();


     // ###################################################################
     // ###################################################################

     public:
     // ==========================================================================
     // ==========================================================================
     INLINE const FMDP< GUM_SCALAR >* fmdp() { return _fmdp; }

     // ==========================================================================
     // ==========================================================================
     INLINE const MultiDimFunctionGraph< GUM_SCALAR >* vFunction() {
       return _vFunction;
     }

     // ==========================================================================
     // ==========================================================================
     virtual Size vFunctionSize() {
       return _vFunction != nullptr ? _vFunction->realSize() : 0;
     }

     // ==========================================================================
     // ==========================================================================
     INLINE const MultiDimFunctionGraph< ActionSet, SetTerminalNodePolicy >*
                  optimalPolicy() {
       return _optimalPolicy;
     }

     // ==========================================================================
     // ==========================================================================
     virtual Size optimalPolicySize() {
       return _optimalPolicy != nullptr ? _optimalPolicy->realSize() : 0;
     }

     // ==========================================================================
     // ==========================================================================
     std::string optimalPolicy2String();


     // ###################################################################
     // ###################################################################

     public:
     // ==========================================================================
     // ==========================================================================
     virtual void initialize(const FMDP< GUM_SCALAR >* fmdp);


     // ==========================================================================
     // ==========================================================================
     virtual void makePlanning(Idx nbStep = 1000000);


     // ###################################################################
     // ###################################################################

     protected:
     // ==========================================================================
     // ==========================================================================
     virtual void _initVFunction();

     // ==========================================================================
     // ==========================================================================
     virtual MultiDimFunctionGraph< GUM_SCALAR >* _valueIteration();

     // ==========================================================================
     // ==========================================================================
     virtual MultiDimFunctionGraph< GUM_SCALAR >*
        _evalQaction(const MultiDimFunctionGraph< GUM_SCALAR >*, Idx);

     // ==========================================================================
     // ==========================================================================
     virtual MultiDimFunctionGraph< GUM_SCALAR >*
        _maximiseQactions(std::vector< MultiDimFunctionGraph< GUM_SCALAR >* >&);

     // ==========================================================================
     // ==========================================================================
     virtual MultiDimFunctionGraph< GUM_SCALAR >*
        _minimiseFunctions(std::vector< MultiDimFunctionGraph< GUM_SCALAR >* >&);

     // ==========================================================================
     // ==========================================================================
     virtual MultiDimFunctionGraph< GUM_SCALAR >*
        _addReward(MultiDimFunctionGraph< GUM_SCALAR >* function, Idx actionId = 0);


     // ###################################################################
     // ###################################################################

     protected:
     // ==========================================================================
     // ==========================================================================
     virtual void _evalPolicy();

     // ==========================================================================
     // ==========================================================================
     MultiDimFunctionGraph< ArgMaxSet< GUM_SCALAR, Idx >, SetTerminalNodePolicy >*
        _makeArgMax(const MultiDimFunctionGraph< GUM_SCALAR >* Qaction,
                    Idx                                        actionId);

     private:
     // ==========================================================================
     // ==========================================================================
     NodeId __recurArgMaxCopy(NodeId,
                              Idx,
                              const MultiDimFunctionGraph< GUM_SCALAR >*,
                              MultiDimFunctionGraph< ArgMaxSet< GUM_SCALAR, Idx >,
                                                     SetTerminalNodePolicy >*,
                              HashTable< NodeId, NodeId >&);

     protected:
     // ==========================================================================
     // ==========================================================================
     virtual MultiDimFunctionGraph< ArgMaxSet< GUM_SCALAR, Idx >,
                                    SetTerminalNodePolicy >*
        _argmaximiseQactions(
           std::vector< MultiDimFunctionGraph< ArgMaxSet< GUM_SCALAR, Idx >,
                                               SetTerminalNodePolicy >* >&);

     // ==========================================================================
     // ==========================================================================
     void _extractOptimalPolicy(
        const MultiDimFunctionGraph< ArgMaxSet< GUM_SCALAR, Idx >,
                                     SetTerminalNodePolicy >* optimalValueFunction);

     private:
     // ==========================================================================
     // ==========================================================================
     NodeId __recurExtractOptPol(
        NodeId,
        const MultiDimFunctionGraph< ArgMaxSet< GUM_SCALAR, Idx >,
                                     SetTerminalNodePolicy >*,
        HashTable< NodeId, NodeId >&);

     // ==========================================================================
     // ==========================================================================
     void __transferActionIds(const ArgMaxSet< GUM_SCALAR, Idx >&, ActionSet&);


     protected:
     // ==========================================================================
     // ==========================================================================
     const FMDP< GUM_SCALAR >* _fmdp;

     // ==========================================================================
     // ==========================================================================
     MultiDimFunctionGraph< GUM_SCALAR >* _vFunction;

     // ==========================================================================
     // ==========================================================================
     MultiDimFunctionGraph< ActionSet, SetTerminalNodePolicy >* _optimalPolicy;

     // ==========================================================================
     // ==========================================================================
     Set< const DiscreteVariable* > _elVarSeq;

     // ==========================================================================
     // ==========================================================================
     GUM_SCALAR _discountFactor;

     IOperatorStrategy< GUM_SCALAR >* _operator;

     // ==========================================================================
     // ==========================================================================
     bool _verbose;


     private:
     // ==========================================================================
     // ==========================================================================
     GUM_SCALAR __threshold;
     bool       __firstTime;
   };

 } /* namespace gum */


 #include <agrum/FMDP/planning/structuredPlaner_tpl.h>

 #endif   // GUM_STRUCTURED_PLANNING_H
gum::StructuredPlaner::sviInstance
static StructuredPlaner< GUM_SCALAR > * sviInstance(GUM_SCALAR discountFactor=0.9, GUM_SCALAR epsilon=0.00001, bool verbose=true)
Definition: structuredPlaner.h:91

SetTerminalNodePolicy.h
Headers of the ITerminalNodePolicy.

gum::StructuredPlaner
<agrum/FMDP/planning/structuredPlaner.h>
Definition: structuredPlaner.h:67

gum::StructuredPlaner::~StructuredPlaner
virtual ~StructuredPlaner()
Default destructor.
Definition: structuredPlaner_tpl.h:79

smallObjectAllocator.h
Headers of gum::SmallObjectAllocator.

gum::ActionSet
A class to store the optimal actions.
Definition: actionSet.h:85

gum::MultiDimFunctionGraph::realSize
virtual Size realSize() const
Returns the real number of parameters used for this table.
Definition: multiDimFunctionGraph_tpl.h:160

gum::StructuredPlaner::__firstTime
bool __firstTime
Definition: structuredPlaner.h:377

gum::StructuredPlaner::_argmaximiseQactions
virtual MultiDimFunctionGraph< ArgMaxSet< GUM_SCALAR, Idx >, SetTerminalNodePolicy > * _argmaximiseQactions(std::vector< MultiDimFunctionGraph< ArgMaxSet< GUM_SCALAR, Idx >, SetTerminalNodePolicy > * > &)
Performs argmax_a Q(s,a)
Definition: structuredPlaner_tpl.h:537

IOperatorStrategy.h
Headers of the Operator Strategy interface.

inline.h
aGrUM&#39;s inline/outline selection

gum::StructuredPlaner::__recurExtractOptPol
NodeId __recurExtractOptPol(NodeId, const MultiDimFunctionGraph< ArgMaxSet< GUM_SCALAR, Idx >, SetTerminalNodePolicy > *, HashTable< NodeId, NodeId > &)
Recursion part for the createArgMaxCopy.
Definition: structuredPlaner_tpl.h:586

gum::StructuredPlaner::_discountFactor
GUM_SCALAR _discountFactor
Discount Factor used for infinite horizon planning.
Definition: structuredPlaner.h:360

gum::StructuredPlaner::_evalPolicy
virtual void _evalPolicy()
Perform the required tasks to extract an optimal policy.
Definition: structuredPlaner_tpl.h:434

gum::StructuredPlaner::_operator
IOperatorStrategy< GUM_SCALAR > * _operator
Definition: structuredPlaner.h:362

gum::IOperatorStrategy
<agrum/FMDP/SDyna/IOperatorStrategy.h>
Definition: IOperatorStrategy.h:49

gum::StructuredPlaner::_verbose
bool _verbose
Boolean used to indcates whether or not iteration informations should be displayed on terminal...
Definition: structuredPlaner.h:368

gum::StructuredPlaner::_valueIteration
virtual MultiDimFunctionGraph< GUM_SCALAR > * _valueIteration()
Performs a single step of value iteration.
Definition: structuredPlaner_tpl.h:313

gum::StructuredPlaner::_extractOptimalPolicy
void _extractOptimalPolicy(const MultiDimFunctionGraph< ArgMaxSet< GUM_SCALAR, Idx >, SetTerminalNodePolicy > *optimalValueFunction)
From V(s)* = argmax_a Q*(s,a), this function extract pi*(s) This function mainly consists in extracti...
Definition: structuredPlaner_tpl.h:561

gum::FMDP
This class is used to implement factored decision process.
Definition: fmdp.h:54

gum::MDDOperatorStrategy
<agrum/FMDP/planning/mddOperatorStrategy.h>
Definition: mddOperatorStrategy.h:47

gum::StructuredPlaner::__transferActionIds
void __transferActionIds(const ArgMaxSet< GUM_SCALAR, Idx > &, ActionSet &)
Extract from an ArgMaxSet the associated ActionSet.
Definition: structuredPlaner_tpl.h:616

gum
gum is the global namespace for all aGrUM entities
Definition: agrum.h:25

gum::StructuredPlaner::_fmdp
const FMDP< GUM_SCALAR > * _fmdp
The Factored Markov Decision Process describing our planning situation (NB : this one must have funct...
Definition: structuredPlaner.h:335

functors.h
This files contains several function objects that are not (yet) defined in the STL.

gum::HashTable< NodeId, NodeId >

gum::ArgMaxSet
Class to handle efficiently argMaxSet.
Definition: argMaxSet.h:55

actionSet.h
Headers of the MDDOperatorStrategy planer class.

gum::Set
Representation of a setA Set is a structure that contains arbitrary elements.
Definition: set.h:162

fmdp.h
Class for implementation of factored markov decision process.

gum::StructuredPlaner::StructuredPlaner
StructuredPlaner(IOperatorStrategy< GUM_SCALAR > *opi, GUM_SCALAR discountFactor, GUM_SCALAR epsilon, bool verbose)
Default constructor.
Definition: structuredPlaner_tpl.h:61

gum::TreeOperatorStrategy
<agrum/FMDP/planning/treeOperatorStrategy.h>
Definition: treeOperatorStrategy.h:47

gum::StructuredPlaner::_initVFunction
virtual void _initVFunction()
Performs a single step of value iteration.
Definition: structuredPlaner_tpl.h:295

gum::StructuredPlaner::_evalQaction
virtual MultiDimFunctionGraph< GUM_SCALAR > * _evalQaction(const MultiDimFunctionGraph< GUM_SCALAR > *, Idx)
Performs the P(s&#39;|s,a).V^{t-1}(s&#39;) part of the value itération.
Definition: structuredPlaner_tpl.h:350

gum::StructuredPlaner::__threshold
GUM_SCALAR __threshold
The threshold value Whenever | V^{n} - V^{n+1} | < threshold, we consider that V ~ V*...
Definition: structuredPlaner.h:376

gum::StructuredPlaner::_elVarSeq
Set< const DiscreteVariable *> _elVarSeq
A Set to eleminate primed variables.
Definition: structuredPlaner.h:355

gum::StructuredPlaner::_optimalPolicy
MultiDimFunctionGraph< ActionSet, SetTerminalNodePolicy > * _optimalPolicy
The associated optimal policy.
Definition: structuredPlaner.h:350

gum::StructuredPlaner::vFunctionSize
virtual Size vFunctionSize()
Returns vFunction computed so far current size.
Definition: structuredPlaner.h:146

gum::StructuredPlaner::optimalPolicy2String
std::string optimalPolicy2String()
Provide a better toDot for the optimal policy where the leaves have the action name instead of its id...
Definition: structuredPlaner_tpl.h:102

gum::MultiDimFunctionGraph< GUM_SCALAR >

gum::StructuredPlaner::_makeArgMax
MultiDimFunctionGraph< ArgMaxSet< GUM_SCALAR, Idx >, SetTerminalNodePolicy > * _makeArgMax(const MultiDimFunctionGraph< GUM_SCALAR > *Qaction, Idx actionId)
Creates a copy of given Qaction that can be exploit by a Argmax.
Definition: structuredPlaner_tpl.h:479

multiDimFunctionGraph.h
Headers of MultiDimFunctionGraph.

gum::StructuredPlaner::initialize
virtual void initialize(const FMDP< GUM_SCALAR > *fmdp)
Initializes data structure needed for making the planning.
Definition: structuredPlaner_tpl.h:226

gum::SetTerminalNodePolicy
Implementation of a Terminal Node Policy that maps nodeid to a set of value.
Definition: SetTerminalNodePolicy.h:45

IPlanningStrategy.h
Headers of the Planning Strategy interface.

gum::StructuredPlaner::optimalPolicySize
virtual Size optimalPolicySize()
Returns optimalPolicy computed so far current size.
Definition: structuredPlaner.h:161

gum::StructuredPlaner::__recurArgMaxCopy
NodeId __recurArgMaxCopy(NodeId, Idx, const MultiDimFunctionGraph< GUM_SCALAR > *, MultiDimFunctionGraph< ArgMaxSet< GUM_SCALAR, Idx >, SetTerminalNodePolicy > *, HashTable< NodeId, NodeId > &)
Recursion part for the createArgMaxCopy.
Definition: structuredPlaner_tpl.h:504

structuredPlaner_tpl.h
Template implementation of FMDP/planning/StructuredPlaner.h classes.

gum::StructuredPlaner::fmdp
INLINE const FMDP< GUM_SCALAR > * fmdp()
Returns a const ptr on the Factored Markov Decision Process on which we&#39;re planning.
Definition: structuredPlaner.h:134

gum::StructuredPlaner::_addReward
virtual MultiDimFunctionGraph< GUM_SCALAR > * _addReward(MultiDimFunctionGraph< GUM_SCALAR > *function, Idx actionId=0)
Perform the R(s) + gamma . function.
Definition: structuredPlaner_tpl.h:405

treeOperatorStrategy.h
Headers of the TreeOperatorStrategy planer class.

mddOperatorStrategy.h
Headers of the MDDOperatorStrategy planer class.

argMaxSet.h
This files contains several function objects that are not (yet) defined in the STL.

gum::Idx
Size Idx
Type for indexes.
Definition: types.h:50

gum::IPlanningStrategy
<agrum/FMDP/SDyna/IPlanningStrategy.h>
Definition: IPlanningStrategy.h:49

gum::Size
std::size_t Size
In aGrUM, hashed values are unsigned long int.
Definition: types.h:45

gum::StructuredPlaner::_minimiseFunctions
virtual MultiDimFunctionGraph< GUM_SCALAR > * _minimiseFunctions(std::vector< MultiDimFunctionGraph< GUM_SCALAR > * > &)
Performs min_i F_i.
Definition: structuredPlaner_tpl.h:386

gum::NodeId
Size NodeId
Type for node ids.
Definition: graphElements.h:97

gum::StructuredPlaner::spumddInstance
static StructuredPlaner< GUM_SCALAR > * spumddInstance(GUM_SCALAR discountFactor=0.9, GUM_SCALAR epsilon=0.00001, bool verbose=true)
Definition: structuredPlaner.h:77

gum::StructuredPlaner::_vFunction
MultiDimFunctionGraph< GUM_SCALAR > * _vFunction
The Value Function computed iteratively.
Definition: structuredPlaner.h:340

gum::StructuredPlaner::_maximiseQactions
virtual MultiDimFunctionGraph< GUM_SCALAR > * _maximiseQactions(std::vector< MultiDimFunctionGraph< GUM_SCALAR > * > &)
Performs max_a Q(s,a)
Definition: structuredPlaner_tpl.h:366

gum::StructuredPlaner::vFunction
INLINE const MultiDimFunctionGraph< GUM_SCALAR > * vFunction()
Returns a const ptr on the value function computed so far.
Definition: structuredPlaner.h:139

gum::StructuredPlaner::optimalPolicy
INLINE const MultiDimFunctionGraph< ActionSet, SetTerminalNodePolicy > * optimalPolicy()
Returns the best policy obtained so far.
Definition: structuredPlaner.h:154

gum::StructuredPlaner::makePlanning
virtual void makePlanning(Idx nbStep=1000000)
Performs a value iteration.
Definition: structuredPlaner_tpl.h:248