In dieser Arbeit beginnen wir damit, das Portfoliooptimierungsproblem und einige der traditionellen Ansätze zu seiner Lösung aufzuzeigen. Wir erwähnen auch eine frühere Arbeit in Reinforcement Learning (RL) und legen unsere eigene Projektskizze dar, wie wir die Arbeit erweitern werden. Wir beginnen dann mit einer kurzen Einführung in RL und betrachten insbesondere eine „Actor-Critic“-Technik namens Deep Deterministic Policy Gradients (DDPG), die verwendet werden kann, um Belohnungen in einer kontinuierlichen Umgebung zu maximieren. Wir stellen unseren Versuchsaufbau vor und diskutieren auch die verschiedenen Kritiker- und Akteursfunktionen, die wir in unserem Aufbau einsetzen können. Danach präsentieren wir dann die erste Version unseres vorgeschlagenen Algorithmus, DDPGFunctions. Wir geben einen kurzen Kommentar zur Systemarchitektur unseres Frameworks, den modularen Komponenten, dem Hyper-Tuning-Framework und den Tools zum Verfolgen von Experimenten und Graphen. Da wir einige potenzielle Probleme mit dem Vanilla-Ansatz verstehen, versuchen wir, die Genauigkeit unserer Ergebnisse und Leistung in nachfolgenden Versionen von DDPGFunctions – DDPGShockBuffer und DDPGEstimates – zu beschleunigen und zu verbessern. Wir vergleichen unsere Ergebnisse all dieser Ansätze mit einer Vielzahl von Umgebungseinstellungen und Hyperparameterkonfigurationen. Im letzten Teil der Arbeit betrachten wir bestimmte Aspekte für zukünftige Arbeiten und diskutieren einige Einschränkungen unseres derzeitigen Ansatzes.
«
In dieser Arbeit beginnen wir damit, das Portfoliooptimierungsproblem und einige der traditionellen Ansätze zu seiner Lösung aufzuzeigen. Wir erwähnen auch eine frühere Arbeit in Reinforcement Learning (RL) und legen unsere eigene Projektskizze dar, wie wir die Arbeit erweitern werden. Wir beginnen dann mit einer kurzen Einführung in RL und betrachten insbesondere eine „Actor-Critic“-Technik namens Deep Deterministic Policy Gradients (DDPG), die verwendet werden kann, um Belohnungen in einer kon...
»