44,99 €
inkl. MwSt.
Versandkostenfrei*
Versandfertig in 6-10 Tagen
payback
22 °P sammeln
  • Broschiertes Buch

Questo libro è strutturato in cinque unità, per offrire un'esperienza di apprendimento olistica. Il viaggio inizia con un'introduzione agli algoritmi bandit, esplorando concetti fondamentali come gli algoritmi Upper Confidence Bound (UCB) e Probably Approximately Correct (PAC). L'unità successiva introduce la struttura completa del Reinforcement Learning (RL), andando oltre gli algoritmi bandit per considerare le interazioni agente-ambiente su più fasi temporali. I processi decisionali di Markov (MDP) sono introdotti come struttura fondamentale per la modellazione di compiti decisionali…mehr

Produktbeschreibung
Questo libro è strutturato in cinque unità, per offrire un'esperienza di apprendimento olistica. Il viaggio inizia con un'introduzione agli algoritmi bandit, esplorando concetti fondamentali come gli algoritmi Upper Confidence Bound (UCB) e Probably Approximately Correct (PAC). L'unità successiva introduce la struttura completa del Reinforcement Learning (RL), andando oltre gli algoritmi bandit per considerare le interazioni agente-ambiente su più fasi temporali. I processi decisionali di Markov (MDP) sono introdotti come struttura fondamentale per la modellazione di compiti decisionali sequenziali. La quarta unità tratta i metodi di programmazione dinamica, i metodi di differenza temporale (TD) e l'equazione di ottimalità di Bellman in RL. Questi concetti consentono agli agenti di pianificare, apprendere e ottimizzare efficacemente le proprie azioni. L'ultima unità esplora le tecniche avanzate di RL, come le tracce di ammissibilità, l'approssimazione delle funzioni, i metodi dei minimi quadrati, l'apprendimento Q adattato, la rete Q profonda (DQN) e gli algoritmi di gradiente delle politiche.
Autorenporträt
Satyanarayana S. est un scientifique émérite, un professeur, un stratège en trading d'algos, un inventeur, un auteur et un chef d'entreprise né en Inde. Il est titulaire d'une maîtrise en sciences et ingénierie informatiques et d'un doctorat en algorithmes d'apprentissage automatique des graphes informatiques, obtenus respectivement à l'université Acharya Nagarjuna et à l'université Dravidian.