dd/df6/BNDatabaseGenerator__tpl_8h_source.html

 /***************************************************************************
  *   Copyright (C) 2005 by Christophe GONZALES and Pierre-Henri WUILLEMIN  *
  *   {prenom.nom}@lip6.fr                                                  *
  *                                                                         *
  *   This program is free software; you can redistribute it and/or modify  *
  *   it under the terms of the GNU General Public License as published by  *
  *   the Free Software Foundation; either version 2 of the License, or     *
  *   (at your option) any later version.                                   *
  *                                                                         *
  *   This program is distributed in the hope that it wil be useful,        *
  *   but WITHOUT ANY WARRANTY; without even the implied warranty of        *
  *   MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the         *
  *   GNU General Public License for more details.                          *
  *                                                                         *
  *   You should have received a copy of the GNU General Public License     *
  *   along with this program; if not, write to the                         *
  *   Free Software Foundation, Inc.,                                       *
  *   59 Temple Place - Suite 330, Boston, MA  02111-1307, USA.             *
  ***************************************************************************/
 #include <agrum/learning/database/BNDatabaseGenerator.h>

 #include <agrum/core/timer.h>


 namespace gum {
   namespace learning {


     template < typename GUM_SCALAR >
     BNDatabaseGenerator< GUM_SCALAR >::BNDatabaseGenerator(
        const BayesNet< GUM_SCALAR >& bn) :
         __bn(bn) {
       // for debugging purposes
       GUM_CONSTRUCTOR(BNDatabaseGenerator);

       // get the node names => they will serve as ids
       NodeId id = 0;
       for (const auto& var : __bn.dag()) {
         auto name = __bn.variable(var).name();
         __names2ids.insert(name, var);
         ++id;
       }
       __nbVars = id;
       __varOrder.resize(__nbVars);
       std::iota(__varOrder.begin(), __varOrder.end(), (Idx)0);
     }

     template < typename GUM_SCALAR >
     BNDatabaseGenerator< GUM_SCALAR >::~BNDatabaseGenerator() {
       GUM_DESTRUCTOR(BNDatabaseGenerator);
     }


     template < typename GUM_SCALAR >
     double BNDatabaseGenerator< GUM_SCALAR >::drawSamples(Size nbSamples) {
       Timer timer;
       int   progress = 0;

       timer.reset();

       if (onProgress.hasListener()) {
         GUM_EMIT2(onProgress, progress, timer.step());
       }
       __database.clear();
       __database.resize(nbSamples);
       for (auto& row : __database) {
         row.resize(__nbVars);
       }
       // get the order in which the nodes will be sampled
       const gum::Sequence< gum::NodeId >& topOrder = __bn.topologicalOrder();
       std::vector< gum::Instantiation >   instantiations;

       // create instantiations in advance
       for (Idx node = 0; node < __nbVars; ++node)
         instantiations.push_back(gum::Instantiation(__bn.cpt(node)));

       // create the random generator
       std::random_device               rd;
       std::mt19937                     gen(rd());
       std::uniform_real_distribution<> distro(0.0, 1.0);

       // perform the sampling
       __log2likelihood = 0;
       const gum::DAG& dag = __bn.dag();
       for (Idx i = 0; i < nbSamples; ++i) {
         if (onProgress.hasListener()) {
           int p = int((i * 100) / nbSamples);
           if (p != progress) {
             progress = p;
             GUM_EMIT2(onProgress, progress, timer.step());
           }
         }
         std::vector< Idx >& sample = __database.at(i);
         for (Idx j = 0; j < __nbVars; ++j) {
           const gum::NodeId node = topOrder[j];
           const auto&       var = __bn.variable(node);
           const auto&       cpt = __bn.cpt(node);

           gum::Instantiation& inst = instantiations[node];
           for (auto par : dag.parents(node))
             inst.chgVal(__bn.variable(par), sample.at(par));

           const double nb = distro(gen);
           double       cumul = 0.0;
           for (inst.chgVal(var, 0); !inst.end(); inst.incVar(var)) {
             cumul += cpt[inst];
             if (cumul >= nb) break;
           }

           if (inst.end()) inst.chgVal(var, var.domainSize() - 1);
           sample.at(node) = inst.val(var);

           __log2likelihood += std::log2(__bn.cpt(node)[inst]);
         }
       }

       __drawnSamples = true;

       if (onProgress.hasListener()) {
         std::stringstream ss;
         ss << "Database of size " << nbSamples << " generated in " << timer.step()
            << " seconds. Log2likelihood : " << __log2likelihood;
         GUM_EMIT1(onStop, ss.str());
       }

       return __log2likelihood;
     }

     template < typename GUM_SCALAR >
     void BNDatabaseGenerator< GUM_SCALAR >::toCSV(const std::string& csvFileURL,
                                                   bool               useLabels,
                                                   bool               append,
                                                   std::string        csvSeparator,
                                                   bool checkOnAppend) const {
       if (!__drawnSamples) {
         GUM_ERROR(OperationNotAllowed, "drawSamples() must be called first.");
       }

       if (csvSeparator.find("\n") != std::string::npos) {
         GUM_ERROR(InvalidArgument,
                   "csvSeparator must not contain end-line characters");
       }

       bool includeHeader = true;
       if (append) {
         std::ifstream csvFile(csvFileURL);
         if (csvFile) {
           auto varOrder = __varOrderFromCSV(csvFile, csvSeparator);
           if (checkOnAppend && varOrder != __varOrder) {
             GUM_ERROR(
                OperationNotAllowed,
                "Inconsistent variable order in csvFile when appending. You "
                "can use setVarOrderFromCSV(url) function to get the right "
                "order. You could also set parameter checkOnAppend=false if you "
                "know what you are doing.");
           }
           includeHeader = false;
         }
         csvFile.close();
       }


       auto ofstreamFlag = append ? std::ofstream::app : std::ofstream::out;

       std::ofstream os(csvFileURL, ofstreamFlag);
       bool          firstCol = true;
       if (includeHeader) {
         for (const auto& i : __varOrder) {
           if (firstCol) {
             firstCol = false;
           } else {
             os << csvSeparator;
           }
           os << __bn.variable(i).name();
         }
       }
       os << std::endl;

       bool firstRow = true;
       for (const auto& row : __database) {
         if (firstRow) {
           firstRow = false;
         } else {
           os << std::endl;
         }
         firstCol = true;
         for (const auto& i : __varOrder) {
           if (firstCol) {
             firstCol = false;
           } else {
             os << csvSeparator;
           }
           if (useLabels) {
             os << __bn.variable(i).label(row.at(i));
           } else {
             os << row[i];
           }
         }
       }

       os.close();
     }

     template < typename GUM_SCALAR >
     DatabaseTable<>
        BNDatabaseGenerator< GUM_SCALAR >::toDatabaseTable(bool useLabels) const {
       if (!__drawnSamples)
         GUM_ERROR(OperationNotAllowed, "proceed() must be called first.");

       DatabaseTable<>            db;
       std::vector< std::string > varNames;
       varNames.reserve(__nbVars);
       for (const auto& i : __varOrder) {
         varNames.push_back(__names2ids.first(i));
       }

       // create the translators
       for (std::size_t i = 0; i < __nbVars; ++i) {
         const Variable& var = __bn.variable(__varOrder[i]);
         db.insertTranslator(var, i);
       }


       // db.setVariableNames(varNames);
       // db.setVariableNames(varOrderNames());

       if (useLabels) {
         std::vector< std::string > xrow(__nbVars);
         for (const auto& row : __database) {
           for (Idx i = 0; i < __nbVars; ++i) {
             Idx j = __varOrder.at(i);
             xrow[i] = __bn.variable(j).label(row.at(j));
           }
           db.insertRow(xrow);
         }
       } else {
         std::vector< DBTranslatedValueType > translatorType(__nbVars);
         for (std::size_t i = 0; i < __nbVars; ++i) {
           translatorType[i] = db.translator(i).getValType();
         }
         DBRow< DBTranslatedValue > xrow(__nbVars);
         const auto xmiss = gum::learning::DatabaseTable<>::IsMissing::False;
         for (const auto& row : __database) {
           for (Idx i = 0; i < __nbVars; ++i) {
             Idx j = __varOrder.at(i);

             if (translatorType[i] == DBTranslatedValueType::DISCRETE)
               xrow[i].discr_val = std::size_t(row.at(j));
             else
               xrow[i].cont_val = float(row.at(j));
           }
         }
         db.insertRow(xrow, xmiss);
       }

       return db;
     }


     template < typename GUM_SCALAR >
     std::vector< std::vector< Idx > >
        BNDatabaseGenerator< GUM_SCALAR >::database() const {
       if (!__drawnSamples)
         GUM_ERROR(OperationNotAllowed, "drawSamples() must be called first.");

       auto db(__database);
       for (Idx i = 0; i < __database.size(); ++i) {
         for (Idx j = 0; j < __nbVars; ++j) {
           db.at(i).at(j) = (Idx)__database.at(i).at(__varOrder.at(j));
         }
       }
       return db;
     }

     template < typename GUM_SCALAR >
     void BNDatabaseGenerator< GUM_SCALAR >::setVarOrder(
        const std::vector< Idx >& varOrder) {
       if (varOrder.size() != __nbVars) {
         GUM_ERROR(FatalError,
                   "varOrder's size must be equal to the number of variables");
       }
       std::vector< bool > usedVars(__nbVars, false);
       for (const auto& i : varOrder) {
         if (i >= __nbVars) {
           GUM_ERROR(FatalError, "varOrder contains invalid variables");
         }
         if (usedVars.at(i))
           GUM_ERROR(FatalError, "varOrder must not have repeated variables");
         usedVars.at(i) = true;
       }

       if (std::find(usedVars.begin(), usedVars.end(), false) != usedVars.end()) {
         GUM_ERROR(FatalError, "varOrder must contain all variables");
       }

       __varOrder = varOrder;
     }

     template < typename GUM_SCALAR >
     void BNDatabaseGenerator< GUM_SCALAR >::setVarOrder(
        const std::vector< std::string >& varOrder) {
       std::vector< Idx > varOrderIdx;
       varOrderIdx.reserve(varOrder.size());
       for (const auto& vname : varOrder) {
         varOrderIdx.push_back(__names2ids.second(vname));
       }
       setVarOrder(varOrderIdx);
     }

     template < typename GUM_SCALAR >
     void BNDatabaseGenerator< GUM_SCALAR >::setVarOrderFromCSV(
        const std::string& csvFileURL, const std::string& csvSeparator) {
       setVarOrder(__varOrderFromCSV(csvFileURL, csvSeparator));
     }

     template < typename GUM_SCALAR >
     void BNDatabaseGenerator< GUM_SCALAR >::setTopologicalVarOrder() {
       std::vector< Idx > varOrder;
       varOrder.reserve(__nbVars);
       for (const auto& v : __bn.topologicalOrder()) {
         varOrder.push_back(v);
       }
       setVarOrder(varOrder);
     }

     template < typename GUM_SCALAR >
     void BNDatabaseGenerator< GUM_SCALAR >::setAntiTopologicalVarOrder() {
       std::vector< Idx > varOrder;
       varOrder.reserve(__nbVars);
       for (const auto& v : __bn.topologicalOrder()) {
         varOrder.push_back(v);
       }
       std::reverse(varOrder.begin(), varOrder.end());
       setVarOrder(varOrder);
     }

     template < typename GUM_SCALAR >
     void BNDatabaseGenerator< GUM_SCALAR >::setRandomVarOrder() {
       std::vector< std::string > varOrder;
       varOrder.reserve(__bn.size());
       for (const auto& var : __bn.dag()) {
         varOrder.push_back(__bn.variable(var).name());
       }
       std::random_device rd;
       std::mt19937       g(rd());
       std::shuffle(varOrder.begin(), varOrder.end(), g);
       setVarOrder(varOrder);
     }


     template < typename GUM_SCALAR >
     std::vector< Idx > BNDatabaseGenerator< GUM_SCALAR >::varOrder() const {
       return __varOrder;
     }

     template < typename GUM_SCALAR >
     std::vector< std::string >
        BNDatabaseGenerator< GUM_SCALAR >::varOrderNames() const {
       std::vector< std::string > varNames;
       varNames.reserve(__nbVars);
       for (const auto& i : __varOrder) {
         varNames.push_back(__names2ids.first(i));
       }

       return varNames;
     }

     template < typename GUM_SCALAR >
     double BNDatabaseGenerator< GUM_SCALAR >::log2likelihood() const {
       if (!__drawnSamples) {
         GUM_ERROR(OperationNotAllowed, "drawSamples() must be called first.");
       }
       return __log2likelihood;
     }

     template < typename GUM_SCALAR >
     std::vector< Idx > BNDatabaseGenerator< GUM_SCALAR >::__varOrderFromCSV(
        const std::string& csvFileURL, const std::string& csvSeparator) const {
       std::ifstream      csvFile(csvFileURL);
       std::vector< Idx > varOrder;
       if (csvFile) {
         varOrder = __varOrderFromCSV(csvFile, csvSeparator);
         csvFile.close();
       } else {
         GUM_ERROR(NotFound, "csvFileURL does not exist");
       }

       return varOrder;
     }

     template < typename GUM_SCALAR >
     std::vector< Idx > BNDatabaseGenerator< GUM_SCALAR >::__varOrderFromCSV(
        std::ifstream& csvFile, const std::string& csvSeparator) const {
       std::string                line;
       std::vector< std::string > header_found;
       header_found.reserve(__nbVars);
       while (std::getline(csvFile, line)) {
         std::size_t i = 0;
         auto        pos = line.find(csvSeparator);
         while (pos != std::string::npos) {
           header_found.push_back(line.substr(i, pos - i));
           pos += csvSeparator.length();
           i = pos;
           pos = line.find(csvSeparator, pos);

           if (pos == std::string::npos)
             header_found.push_back(line.substr(i, line.length()));
         }
         break;
       }

       std::vector< Size > varOrder;
       varOrder.reserve(__nbVars);

       for (const auto& hf : header_found) {
         varOrder.push_back(__names2ids.second(hf));
       }

       return varOrder;
     }
   } /* namespace learning */
 } /* namespace gum */
gum::BijectionImplementation::insert
void insert(const T1 &first, const T2 &second)
Inserts a new association in the gum::Bijection.
Definition: bijection_tpl.h:389

gum::BayesNet
Class representing a Bayesian Network.
Definition: BayesNet.h:76

gum::BijectionImplementation::second
const T2 & second(const T1 &first) const
Returns the second value of a pair given its first value.
Definition: bijection_tpl.h:285

gum::Variable
Base class for every random variable.
Definition: variable.h:63

gum::learning::BNDatabaseGenerator::~BNDatabaseGenerator
~BNDatabaseGenerator()
destructor
Definition: BNDatabaseGenerator_tpl.h:57

gum::ProgressNotifier::onProgress
Signaler2< Size, double > onProgress
Progression (percent) and time.
Definition: progressNotification.h:45

gum::learning::BNDatabaseGenerator::__log2likelihood
double __log2likelihood
log2Likelihood of generated samples
Definition: BNDatabaseGenerator.h:166

gum::Timer::step
double step() const
Returns the delta time between now and the last reset() call (or the constructor).
Definition: timer_inl.h:39

gum::BijectionImplementation::first
const T1 & first(const T2 &second) const
Returns the first value of a pair given its second value.
Definition: bijection_tpl.h:278

GUM_EMIT1
#define GUM_EMIT1(signal, arg1)
Definition: signaler1.h:40

gum::learning::DBTranslatedValueType::DISCRETE

gum::learning::BNDatabaseGenerator::varOrderNames
std::vector< std::string > varOrderNames() const
returns variable order.
Definition: BNDatabaseGenerator_tpl.h:378

gum::learning::BNDatabaseGenerator::drawSamples
double drawSamples(Size nbSamples)
generate and stock database, returns log2likelihood using ProgressNotifier as notification ...
Definition: BNDatabaseGenerator_tpl.h:64

gum::Sequence
The generic class for storing (ordered) sequences of objects.
Definition: sequence.h:1019

gum::learning::DatabaseTable::insertRow
virtual void insertRow(const std::vector< std::string, ALLOC< std::string > > &new_row) final
insert a new row at the end of the database

gum::FatalError
Definition: exceptions.h:152

gum::Instantiation::chgVal
Instantiation & chgVal(const DiscreteVariable &v, Idx newval)
Assign newval to variable v in the Instantiation.
Definition: instantiation_inl.h:50

gum::learning::BNDatabaseGenerator::__names2ids
Bijection< std::string, NodeId > __names2ids
bijection nodes names
Definition: BNDatabaseGenerator.h:151

timer.h
Class used to compute response times for benchmark purposes.

gum
gum is the global namespace for all aGrUM entities
Definition: agrum.h:25

gum::Instantiation::incVar
void incVar(const DiscreteVariable &v)
Operator increment for variable v only.
Definition: instantiation_inl.h:661

gum::learning::BNDatabaseGenerator::toDatabaseTable
DatabaseTable toDatabaseTable(bool useLabels=true) const
generates a DatabaseVectInRAM
Definition: BNDatabaseGenerator_tpl.h:217

gum::learning::BNDatabaseGenerator::setTopologicalVarOrder
void setTopologicalVarOrder()
set columns in topoligical order
Definition: BNDatabaseGenerator_tpl.h:333

gum::Instantiation::val
Idx val(Idx i) const
Returns the current value of the variable at position i.
Definition: instantiation_inl.h:188

gum::Timer::reset
void reset()
Reset the timer.
Definition: timer_inl.h:29

gum::InvalidArgument
Definition: exceptions.h:209

gum::learning::BNDatabaseGenerator::__bn
const BayesNet< GUM_SCALAR > & __bn
Bayesian network.
Definition: BNDatabaseGenerator.h:148

GUM_EMIT2
#define GUM_EMIT2(signal, arg1, arg2)
Definition: signaler2.h:40

gum::learning::DatabaseTable::translator
const DBTranslator< ALLOC > & translator(const std::size_t k, const bool k_is_input_col=false) const
returns either the kth translator of the database table or the first one reading the kth column of th...

gum::learning::BNDatabaseGenerator
Definition: BNDatabaseGenerator.h:77

gum::ArcGraphPart::parents
const NodeSet & parents(const NodeId id) const
returns the set of nodes with arc ingoing to a given node
Definition: arcGraphPart_inl.h:54

gum::learning::BNDatabaseGenerator::__varOrderFromCSV
std::vector< Idx > __varOrderFromCSV(const std::string &csvFileURL, const std::string &csvSeparator=",") const
returns varOrder from a csv file
Definition: BNDatabaseGenerator_tpl.h:399

gum::learning::BNDatabaseGenerator::toCSV
void toCSV(const std::string &csvFileURL, bool useLabels=true, bool append=false, std::string csvSeparator=",", bool checkOnAppend=false) const
generates csv database according to bn
Definition: BNDatabaseGenerator_tpl.h:140

gum::learning::BNDatabaseGenerator::log2likelihood
double log2likelihood() const
returns log2Likelihood of generated samples
Definition: BNDatabaseGenerator_tpl.h:390

gum::learning::BNDatabaseGenerator::database
std::vector< std::vector< Idx > > database() const
generates database according to bn into a std::vector
Definition: BNDatabaseGenerator_tpl.h:274

gum::learning::DBRow
The class for storing a record in a database.
Definition: DBRow.h:53

gum::learning::BNDatabaseGenerator::__database
std::vector< std::vector< Idx > > __database
generated database
Definition: BNDatabaseGenerator.h:157

gum::OperationNotAllowed
Definition: exceptions.h:231

gum::learning::DatabaseTable
The class representing a tabular database as used by learning tasks.
Definition: databaseTable.h:184

gum::learning::BNDatabaseGenerator::setVarOrder
void setVarOrder(const std::vector< Idx > &varOrder)
change columns order
Definition: BNDatabaseGenerator_tpl.h:289

gum::learning::DatabaseTable::insertTranslator
std::size_t insertTranslator(const DBTranslator< ALLOC > &translator, const std::size_t input_column, const bool unique_column=true)
insert a new translator into the database table

gum::Instantiation
Class for assigning/browsing values to tuples of discrete variables.
Definition: instantiation.h:80

gum::learning::BNDatabaseGenerator::setRandomVarOrder
void setRandomVarOrder()
set columns in random order
Definition: BNDatabaseGenerator_tpl.h:356

gum::learning::BNDatabaseGenerator::setAntiTopologicalVarOrder
void setAntiTopologicalVarOrder()
set columns in antiTopoligical order
Definition: BNDatabaseGenerator_tpl.h:344

gum::learning::BNDatabaseGenerator::__nbVars
Size __nbVars
number of variables
Definition: BNDatabaseGenerator.h:154

gum::learning::BNDatabaseGenerator::varOrder
std::vector< Idx > varOrder() const
returns variable order indexes
Definition: BNDatabaseGenerator_tpl.h:371

gum::NotFound
Definition: exceptions.h:238

gum::Timer
Class used to compute response times for benchmark purposesThis class represents a classic timer...
Definition: timer.h:48

gum::Idx
Size Idx
Type for indexes.
Definition: types.h:50

gum::ProgressNotifier::onStop
Signaler1< const std::string &> onStop
with a possible explanation for stopping
Definition: progressNotification.h:48

gum::learning::BNDatabaseGenerator::__drawnSamples
bool __drawnSamples
whether drawSamples has been already called.
Definition: BNDatabaseGenerator.h:163

gum::learning::BNDatabaseGenerator::__varOrder
std::vector< Idx > __varOrder
variable order in generated database
Definition: BNDatabaseGenerator.h:160

gum::learning::BNDatabaseGenerator::setVarOrderFromCSV
void setVarOrderFromCSV(const std::string &csvFileURL, const std::string &csvSeparator=",")
change columns order according to a csv file
Definition: BNDatabaseGenerator_tpl.h:326

gum::Size
std::size_t Size
In aGrUM, hashed values are unsigned long int.
Definition: types.h:45

BNDatabaseGenerator.h

gum::DAG
Base class for dag.
Definition: DAG.h:99

gum::NodeId
Size NodeId
Type for node ids.
Definition: graphElements.h:97

gum::learning::BNDatabaseGenerator::BNDatabaseGenerator
BNDatabaseGenerator(const BayesNet< GUM_SCALAR > &bn)
default constructor
Definition: BNDatabaseGenerator_tpl.h:37

GUM_ERROR
#define GUM_ERROR(type, msg)
Definition: exceptions.h:52

gum::Instantiation::end
bool end() const
Returns true if the Instantiation reached the end.
Definition: instantiation_inl.h:224