Sprungmarken

Servicenavigation

Hauptnavigation

Sie sind hier:

Hauptinhalt

Markovsche Entscheidungsprozesse mit unsicheren Parametern

 

 

Markovsche Entscheidungprozesse (MDPs) sind zustandsdiskrete stochastische Prozesse, bei denen in Zuständen Entscheidungen getroffen werden können, so dass das zukünftige Verhalten vom aktuellen Prozesszustand und der getroffenen Entscheidung abhängt, nicht aber  von  der Vergangenheit. Das Verhalten ist stochastisch und wird durch Zustandsübergangswahrscheinlichkeiten oder -raten beschrieben. Jede Entscheidung ist mit zustands- und entscheidungsabhängigen Kosten bewertet. Ziel der Optimierung ist die Bestimmung einer optimalen Politik (d.h. Sequenz von Entscheidungen), die den Erwartungswert der Kosten oder abgezinsten Kosten für einen vorgegebenen Zeithorizont minimiert [Pute05].

Unter dem Namen bounded parameter MDPs [GLD00] wurde eine Erweiterung der üblichen Markovschen Entscheidungsprozesse publiziert, bei der für einzelne Parameter Intervalle und keine exakten Werte bekannt sind. Ziel der Optimierung ist es - ähnlich wie in der robusten Optimierung - den besten oder schlechtesten Zielfunktionswert unter allen möglichen Realisierungen der Parameter zu ermitteln. Bisherige Ansätze untersuchen nur Parameterintervalle in zeitdiskreten Markovschen Entscheidungsprozessen und behandeln nur erste Ansätze zur Optimierung bezüglich unendlicher Horizonte. Im Rahmen des Dissertationsprojektes sollen die Parameterschranken auch für zeitkontinuierliche Markovsche Entscheidungsprozesse untersucht werden und neue numerische Optimierungsalgorithmen entwickelt werden, indem aktuelle Ansätze zur Analyse von Markov Prozessen mit unsicheren Parametern [Bu11] für Markovsche Entscheidungsprozesse erweitert werden.

MDP1

Typische Anwendungsszenarien für bounded parameter MDPs sind zum Beispiel stochastische Scheduling-Probleme mit teilweise unbekannten Parametern oder die Zuteilung von Frequenzbändern in Mobilkommunikationsnetzen. Die Prozesse können aber auch eingesetzt werden, um die Sensitivität des Prozesses bzgl. einzelner Parameter zu bestimmen oder resultieren aus der Aggregierung von Zuständen.

MDP2

Die ideale Kandidatin/der ideale Kandidat für das Dissertationsprojekt hat bereits erste Kenntnisse über stochastische Modelle im Studium erlangt und hat Interesse an der Entwicklung und prototypischen Realisierung neuer numerischer Algorithmen.

Literatur zum Thema

[Bu11] P. Buchholz. Bounding reward measures of Markov models using Markov decision processes. Numerical Linear Algebra with Applications 18 (5), 2011, 919-930.

[GLD00] R. Givan, S. Leach, T. Dean. Bounded-parameter Markov decision processes. Artificial Intelligence 122, 2000, 71-109.

[Pute005] M. L. Puterman. Markov Decision Processes – Discrete Stochastic Dynamic Programming. Wiley 2005.

 

Weitere Informationen zum Thema:

 

 



Nebeninhalt

Kontakt

Prof. Dr. Peter Buchholz
Sprecher
Modellierung und Simulation

Telefon: 0231 755-4746
Fax: 0231 755-4730

Adresse:

Postanschrift
TU Dortmund
GRK 1855
Informatik LS4
44227 Dortmund
Deutschland