Die Videogenerierung ist aufgrund der komplizierten Dynamik in der Sequenz ein wichtiges, aber immer noch schwieriges Thema in den Bereichen Computer Vision und Grafik. In dieser Dissertation erforschen wir GAN-basierte Algorithmen zur Videogenerierung vor verschiedenen Hintergründen, wie z. B. Flüssigkeitsströmungen und natürliche Videos. Das Hauptziel unserer Arbeit ist die Anwendung von GANs, um realistische und zeitlich kohärente Details in den erzeugten Sequenzen zu erreichen.
Bei Strömungssimulationen ist die Erhöhung der Auflösung immer mit enormen Rechenkosten verbunden. Wir schlagen ein zeitlich kohärentes generatives Modell für die Superauflösung von Strömungen vor. Basierend auf einem bedingten GAN erzeugt unser Modell konsistente und detaillierte Ergebnisse durch die Verwendung eines neuartigen zeitlichen Diskriminators, zusätzlich zu dem üblicherweise verwendeten räumlichen Diskriminator. Unsere Experimente zeigen, dass der Generator in der Lage ist, realistischere hochaufgelöste Details abzuleiten, indem er zusätzliche physikalische Größen verwendet, wie z. B. niedrig aufgelöste Geschwindigkeiten oder Wirbelstärken,
die ebenfalls Mittel zur künstlerischen Kontrolle bieten. Zusätzlich verwenden wir einen physikalischen Datenanreicherungsschritt, der entscheidend ist, um eine Überanpassung zu vermeiden und den Speicherbedarf zu reduzieren. Auf diese Weise lernt unser Netzwerk, advozierte Größen mit sehr detaillierten, realistischen und zeitlich kohärenten Merkmalen zu erzeugen. Unsere Methode funktioniert sofort und verwendet nur einen einzigen Zeitschritt von niedrig aufgelösten Flüssigkeitsdaten. Wir demonstrieren die Fähigkeiten unserer Methode anhand einer Vielzahl komplexer Eingaben und Anwendungen in zwei und drei Dimensionen.
Um die Effizienz des Modelltrainings mit 3D-Volumendaten zu verbessern, greifen wir die klassische Idee des unbeaufsichtigten Autoencoder-Vortrainings wieder auf und schlagen eine modifizierte Variante vor, die auf einem vollständigen Rückwärtsdurchlauf basiert, der in Verbindung mit einer bestimmten Trainingsaufgabe trainiert wird. Dies führt zu Netzwerken, die so invertierbar wie möglich sind und gegenseitige Informationen über alle eingeschränkten Schichten hinweg teilen. Darüber hinaus stellen wir eine Verbindung zwischen der Singularwertzerlegung und dem Vortraining her und zeigen, wie diese genutzt werden kann, um Einblicke in die gelernten Strukturen zu gewinnen. Am wichtigsten ist, dass wir zeigen, dass unser Ansatz eine verbesserte Leistung für eine Vielzahl von relevanten Lern- und Transferaufgaben liefert, die von vollständig verbundenen Netzwerken über residuelle neuronale Netzwerke bis hin zu GANs reichen.
Für natürliche Videoanwendungen konzentrieren wir uns auf die posengeleitete Generierung menschlicher Videos. Anstatt die menschliche Sequenz direkt zu generieren, schlagen wir einen neuen Ansatz vor, um zeitlich kohärente UV-Koordinaten zu erzeugen. Unsere Methode ist nicht an die Umrisse des menschlichen Körpers gebunden und kann lose Kleidungsstücke und Haare erfassen. Wir haben eine differenzierbare Pipeline implementiert, um die UV-Zuordnung zwischen einer Sequenz von RGB-Eingaben und Texturen über UV-Koordinaten zu lernen. Anstatt die UV-Koordinaten jedes Einzelbildes separat zu behandeln, verbindet unser Ansatz zur Datengenerierung alle UV-Koordinaten durch Feature-Matching, um zeitliche Stabilität zu gewährleisten. Anschließend wird ein generatives Modell trainiert, um die räumliche Qualität und zeitliche Stabilität auszugleichen. Es wird durch überwachte und nicht überwachte Verluste sowohl im UV- als auch im Bildraum gesteuert. Unsere Experimente zeigen, dass die trainierten Modelle hochwertige UV-Koordinaten ausgeben und sich auf neue Posen verallgemeinern lassen. Sobald eine Sequenz von UV-Koordinaten von unserem Modell abgeleitet wurde, kann sie verwendet werden, um flexibel neue Looks und veränderte visuelle Stile zu synthetisieren. Im Vergleich zu bestehenden Methoden reduziert unser Ansatz den Rechenaufwand für die Animation neuer Outfits um mehrere Größenordnungen.
Unsere Methoden erreichen eine räumlich realistische und zeitlich kohärente Sequenzgenerierung mit GANs. Unsere verschiedenen Ergebnisse, z. B. die Erzeugung von Flüssigkeitsströmen und natürlichen Sequenzen, zeigen die Leistungsfähigkeit von GANs bei der Videogenerierung. Wir hoffen, dass unsere Arbeit als Inspiration für andere verwandte Arbeiten dienen kann.
«
Die Videogenerierung ist aufgrund der komplizierten Dynamik in der Sequenz ein wichtiges, aber immer noch schwieriges Thema in den Bereichen Computer Vision und Grafik. In dieser Dissertation erforschen wir GAN-basierte Algorithmen zur Videogenerierung vor verschiedenen Hintergründen, wie z. B. Flüssigkeitsströmungen und natürliche Videos. Das Hauptziel unserer Arbeit ist die Anwendung von GANs, um realistische und zeitlich kohärente Details in den erzeugten Sequenzen zu erreichen.
Bei Strömung...
»