Abschlussarbeiten

Vergleich verschiedener hybrider Quantum Machine Learning Ansätze zur Klassifikation von Bildern auf Quantencomputern

Bachelorarbeit (Dezember 2024)

Autor: Nicolas Holeczek

Abstract:

Maschinelles Lernen (ML) und die Klassifikation von Bildern werden heutzutage immer wichtiger. So findet ML beispielsweise Einsatz in autonomen Fahrzeugen, um Hindernisse zu bestimmen, oder bei der automatischen Erkennung von Krankheiten in der Medizin. Allerdings steigen die Anforderungen an neuronale Netze, welche für die Klassifikation zum Einsatz kommen, immer weiter, da die Merkmale in den Bildern immer komplexer werden. Eine vielversprechende Lösung auf diesem Gebiet ist Quantencomputing, genauer Quantum Machine Learning (QML). Durch die Vorteile, welche die in Quantencomputern verwendeten Qubits mit sich bringen, könnten QML Ansätze deutlich schnellere und bessere Ergebnisse als herkömmliche ML Methoden erzielen. Derzeit befindet sich Quantencomputing in der sogenannten ’noisy intermediate-scale quantum’ (NISQ) Ära. Der Name besagt, dass Quantencomputer nur wenige und fehleranfällige Qubits besitzen. Dementsprechend ist reines Quantum Machine Learning nicht ohne Weiteres umsetzbar. Die Lösung sind hybride Ansätze, welche auf klassische Strukturen zurückgreifen und diese mit Quantenschaltkreisen verbinden. Diese Arbeit untersucht die hybriden Ansätze Quanvolutional Neural Network (QCNN), Quantum Transfer Learning (QTL) und Variational Quantum Circuit (VQC). Dazu werden diese trainiert die Bilder des MNIST Datensatzes zu klassifizieren. Das Training erfolgt mehrfach mit unterschiedlichen Seeds, um so die Ansätze auf ihre Robustheit zu überprüfen. Anschließend werden sie anhand von Genauigkeit, Verlust und Trainingsdauer miteinander verglichen. Zusätzlich wird ein herkömmliches Convolutional Neural Network (CNN) zum Vergleich herangezogen. Am Schluss kann so die Bestimmung des effizientesten Ansatzes erfolgen. Die Auswertung des Experiments zeigt, dass das QCNN deutlich bessere Ergebnisse als QTL und VQC erzielt. Allerdings schneidet das herkömmliche CNN bei allen Metriken besser ab als das QCNN.

Betreuer: Leo Sünkel, Philipp Altmann, Claudia Linnhoff-Popien

Reinforcement Learning-gestützte State Preparation mithilfe von parametrisierten Quantengattern

Bachelorarbeit (Dezember 2024)

Autor: Isabella Debelic

Abstract:

Diese Arbeit untersucht die Anwendung von Reinforcement Learning (RL) zur Optimierung der State Preparation in parametrisierten Quantenschaltkreisen. Durch den Einsatz von RL-Algorithmen wird ein Agent trainiert, der die optimale Sequenz von Quantengattern findet, um vorgegebene Zielzustände zu rekonstruieren. Besonderes Augenmerk wird auf die Herausforderungen bei der Nutzung parametrischer Gatter gelegt, die im Vergleich zu diskreten Schaltkreisen eine kontinuierliche Optimierung erfordern. Verschiedene Ansätze, darunter ein- und zweistufige Verfahren sowie Hyperparameter-Optimierungen, werden experimentell evaluiert. Die Ergebnisse zeigen, dass RL-basierte Methoden erfolgreich zur Reduzierung der Schaltkreistiefe beitragen können, allerdings vorwiegend bei einfachen Schaltkreisen. Komplexere Schaltkreise erfordern tiefere Anpassungen der Optimierungsstrategie, um ähnliche Erfolge zu erzielen.

Betreuer: Michael Kölle, Philipp Altmann, Claudia Linnhoff-Popien

Evaluating Mutation Techniques in Genetic Algorithm-Based Quantum Circuit Synthesis

Bachelorarbeit (Dezember 2024)

Autor: Tom Bintener

Abstract:

Die Optimierung von quantum circuits ist entscheidend für den Fortschritt des quantum computing, insbesondere für momentane Noisy Intermediate-Scale Quantum (NISQ)-Geräte. Diese Geräte stehen vor erheblichen Herausforderungen aufgrund der begrenzten Anzahl an Qubits und hoher Fehlerraten, was eine effiziente quantum circuit synthesis unerlässlich macht. Genetische Algorithmen (GAs) haben sich als vielversprechende Lösung zur Optimierung von quantum circuits etabliert, indem sie eine Aufgabe automatisieren, die sonst manuell und ineffizient gelöst wird. Diese Arbeit untersucht die Auswirkungen verschiedener Mutationsstrategien innerhalb eines GA-Frameworks zur Synthese von quantum circuits. Mutationen wirken sich auf der fundamentalsten Ebene eines circuits aus und können die Gesamtleistung erheblich beeinflussen. Die Erfassung von Daten darüber, wie diese Mutationen die circuits transformieren und welche Strategien am effizientesten sind, ist ein wichtiger Schritt für die Entwicklung eines robusten GA-Optimierers. Die in dieser Forschung durchgeführten Experimente verwendeten eine Fitnessfunktion, die hauptsächlich auf der fidelity basiert, wobei auch die circuit depth und die Anzahl der T-Operationen berücksichtigt wurden. Die Experimente konzentrierten sich auf die Optimierung von circuits mit vier bis sechs qubits und umfassten umfangreiche Tests von Hyperparametern, um optimale Lösungen für praktisches quantum computing zu identifizieren. Die Ergebnisse zeigen, dass die Kombination von delete- und swap-Strategien ohne die Verwendung von change- oder add-Strategien unter den gegebenen Einschränkungen die beste Leistung erbrachte.

Betreuer: Michael Kölle, Maximilian Zorn, Claudia Linnhoff-Popien

Update Behavior of Neural Networks Trained in Alternation with an Additional Auxiliary Task

Bachelorarbeit (November 2024)

Autor: Sara Sofía Juárez Oropeza

Abstract:

Diese Arbeit untersucht die Auswirkungen einer zusätzlichen Hilfsaufgabe – im Folgenden als Sekundäraufgabe bezeichnet – auf das Verhalten der Gewichtsaktualisierung in einem vollständig verbundenen, mehrschichtigen neuronalen Netzwerk. Konkret zielt die Untersuchung darauf ab, zu verstehen, wie das Training mit einer Sekundäraufgabe die Leistung des Netzwerks bei der Primäraufgabe beeinflusst, wenn es mit unterschiedlichen Eingabeparametern während des Trainings konfrontiert wird. Die Evaluierung umfasst eine klassische überwachtes Lernaufgabe zur Klassifikation von Ziffern unter Verwendung der MNIST-Datenbank, erweitert um eine Sekundäraufgabe. Diese Sekundäraufgabe wechselt zwischen der Berechnung einer einfachen Summe aus zwei Fließkommazahlen und deren Multiplikation. Das Netzwerk unterscheidet zwischen den beiden Aufgaben anhand der Formatierung der Eingabedaten. Die Eingabe- und Ausgabeschichten des Netzwerks werden um zusätzliche Dimensionen erweitert, um die Eingaben und Ausgaben der Sekundäraufgabe zu verarbeiten. Abgesehen davon wird die Netzwerkarchitektur in keiner Weise verändert, um die Sekundäraufgabe zu berücksichtigen. Die verwendete Verlustfunktion wird je nach der zu berechnenden Aufgabe ausgetauscht. Die ursprüngliche MNIST-Ziffernklassifikationsaufgabe ohne Sekundäraufgabe dient als Basislinie zum Vergleich der Ergebnisse. Die im Rahmen dieser Arbeit durchgeführte Evaluierung zielt darauf ab, folgende Forschungsfragen zu beantworten: Welche Auswirkungen hat eine zusätzliche Aufgabe auf die Leistung eines vollständig verbundenen, mehrschichtigen Feedforward-Netzwerks? Darüber hinaus wird untersucht, ob eine zusätzliche Aufgabe die Stabilität und Robustheit eines solchen Netzwerks in Bezug auf seine Fähigkeit, unvorhergesehene Änderungen in den Trainingsdaten zu verarbeiten, positiv beeinflusst. Diese Evaluierung soll dazu beitragen, die Funktionsweise neuronaler Netzwerke besser zu verstehen und mögliche Optimierungsansätze für Retraining-Techniken zu prüfen. Zusätzlich wird das Potenzial des Multitask-Trainings zur Verbesserung der Generalisierungsfähigkeit und Robustheit neuronaler Netzwerke erforscht. Die Ergebnisse dieser Studie zeigen, dass die Einbindung einer Sekundäraufgabe während des Trainings die Leistung des neuronalen Netzwerks bei der Primäraufgabe nicht negativ beeinflusst. Vielmehr deuten die Ergebnisse auf potenziell stabilisierende Effekte hin. Das Modell, das mit einer Sekundäraufgabe trainiert wurde, zeigt eine vergleichbare Leistung zur Basislinie, mit leicht verbesserter Stabilität bei der Bewältigung unvorhergesehener Änderungen in den Trainingsdaten. Falls sich dieses Verhalten allgemein bestätigt, könnten diese Erkenntnisse darauf hindeuten, dass eine zusätzliche Aufgabe als eine Form der impliziten Regularisierung fungieren kann, die die Generalisierungsfähigkeit und Anpassungsfähigkeit des Netzwerks an neue Daten verbessert. Mit dieser Studie hoffen wir, zur Entwicklung effizienterer Retraining-Protokolle beizutragen und das Verständnis des Multitask-Lernens in neuronalen Netzwerken zu vertiefen.

Betreuer: Thomas Gabor, Maximilian Zorn, Claudia Linnhoff-Popien

The Trainability of Quantum Federated Learning

Bachelorarbeit (November 2024)

Autor: Sina Mohammad Rezaei

Abstract:

Diese Arbeit untersucht die Implementierung und Evaluierung von Quantum Federated Learning (QFL), bei dem Variational Quantum Circuits (VQCs) gemeinsam über mehrere Quanten-Clients hinweg trainiert werden. Der Schwerpunkt liegt auf dem Vergleich der Leistung und Trainierbarkeit von QFL mit traditionellen Quanten-Maschinenlernansätzen unter Verwendung des MNIST-Datensatzes. Die Experimente wurden mit 2, 3, 4 und 5 Clients durchgeführt, die jeweils unterschiedliche Datensätze verarbeiteten, sowie mit einer variierenden Anzahl von Schichten (1, 2 und 4) in den Quanten-Schaltungen. Die Trainierbarkeit der Modelle wurde anhand der Bewertung von Genauigkeit, Loss und Gradienten-Normen während des Trainingsprozesses untersucht. Die Ergebnisse zeigen, dass QFL kollaboratives Lernen ermöglicht und während des Trainings signifikante Verbesserungen in diesen Metriken aufweist. Die Basismodelle ohne QFL erzielen jedoch in der Regel eine bessere Endgenauigkeit und geringere Verluste aufgrund des ununterbrochenen Optimierungsprozesses. Darüber hinaus wurde der Einfluss einer erhöhten Schichtenanzahl auf die Trainingsstabilität und Leistung analysiert.

Betreuer: Leo Sünkel, Tobias Rohe, Claudia Linnhoff-Popien

Investigating the Lottery Ticket Hypothesis for Variational Quantum Circuits

Bachelorarbeit (November 2024)

Autor: Leonhard Klingert

Abstract:

Quantencomputing ist ein aufstrebendes Feld in der Informatik, welches in den letzten Jahren große Fortschritte erzielt hat, unteranderem im Bereich des maschinellen Lernens. Durch die Prinzipien der Quantenphysik bietet es die Möglichkeit, die Grenzen von klassischen Algorithmen zu überwinden. Variational Quantum Circuits (VQC), eine spezielle Form von Quantum Circuits, welche variierende Parameter haben, stehen jedoch durch das Barren Plateau-Phänomen vor einer erheblichen Herausforderung, das den Optimierungsprozess in bestimmten Fällen behindern kann. Die Lottery Ticket Hypothesis (LTH) ist ein aktuelles Konzept im klassischen maschinellen Lernen, das zu bemerkenswerten Verbesserungen in neuronalen Netzwerken führen kann. Diese Arbeit untersucht, ob de LTH auf VQCs angewendet werden kann. Die LTH besagt, dass es innerhalb eines großen neuronalen Netzwerks ein kleineres, effizienteres Subnetzwerk, auch Winning Ticket genannt, gibt, das eine vergleichbare Leistung wie das ursprüngliche, vollvernetzte Netzwerk erzielen kann. Die Anwendung dieses Ansatzes auf VQCs könnte helfen, die Auswirkungen des Barren Plateau-Problems zu verringern. Die Ergebnisse dieser Arbeit zeigen, dass die Weak LTH auf VQCs anwendbar ist, wobei Winning Tickets gefunden wurden, die lediglich 26,0% der ursprünglichen Gewichte haben. Für die Strong LTH, bei der das Pruning ohne vorheriges Training durchgeführt wird, wurde ein Winning Ticket für einen Binary VQC gefunden, welcher 100% Accuracy mit 45% der ursprünglichen Gewichte erreicht. Das zeigt, dass die Strong LTH auf VQCs anwendbar ist. Diese Ergebnisse liefern erste Hinweise darauf, dass die LTH ein Ansatz zur Verbesserung der Effizienz und Leistung von VQCs in Quantum Machine Learning Aufgaben sein könnte.

Betreuer: Michael Kölle, Julian Schönberger, Claudia Linnhoff-Popien

Architectural Influence on Variational Quantum Circuits in Multi-Agent Reinforcement Learning: Evolutionary Strategies for Optimization

Bachelorarbeit (November 2024)

Autor: Karola Schneider

Abstract:

Das Forschungsgebiet des Multi-Agenten Reinforcement Learning (MARL) gewinnt zunehmend an Bedeutung, insbesondere in Anwendungsbereichen wie autonomem Fahren und Robotik, in denen mehrere Akteure interagieren. Eine zentrale Herausforderung des MARL ist das exponentielle Wachstum der Dimensionen in den Zustands- und Aktionsräumen. Die Nutzung quantenmechanischer Eigenschaften bietet vielversprechende Lösungen, da sie eine kompakte Verarbeitung hochdimensionaler Daten ermöglicht und die Anzahl der zu optimierenden Parameter reduziert. Ein Nachteil gradientenbasierter Optimierungs-Methoden im Quanten MARL ist das Auftreten von Barren Plateaus, welche die Konvergenz durch ineffektive Parameter-Updates behindern. Evolutionäre Algorithmen umgehen dieses Problem, indem sie ohne Gradienten arbeiten. Aufbauend auf Forschungsergebnissen, die das Potenzial Evolutionärer Algorithmen zur Optimierung Variationaler Quantenschaltkreise für MARL aufzeigen, untersuchen wir, welchen Einfluss die Einführung von Modifikationen der Architektur im Evolutionsprozess auf die Optimierung hat. Drei Architekturkonzepte für Variationale Quantenschaltkreise —Ebenen-Basiert, Gatter-Basiert und Prototyp-Basiert — wurden mithilfe zweier evolutionärer Strategien untersucht: einer Kombination aus Rekombination und Mutation (ReMu) sowie einer nur auf Mutation basierenden Strategie (Mu). Die Effizienz der Ansätze wurde anhand des Coin Games evaluiert, wobei eine Version ohne Anpassungen der Architektur als Vergleichsgrundlage diente. Die Mu-Strategie in Kombination mit dem Gatter-Basierten Ansatz erzielte die besten Ergebnisse, einschließlich der höchsten Punktzahlen, der meisten gesammelten Münzen und der höchsten Eigenmünzenquote, und benötigte dabei die geringste Anzahl an Parametern. Darüber hinaus benötigte eine Variante des Gate-Basierten Ansatzes, welche vergleichbare Ergebnisse wie die der Vergleichsgrundlage erzielte, deutlich weniger Gatter, was zu einer Beschleunigung der Laufzeit um 90,1% führte.

Betreuer: Michael Kölle, Leo Sünkel, Claudia Linnhoff-Popien

Learning Independent Multi-Agent Flocking Behavior With Reinforcement Learning

Bachelorarbeit (Oktober 2024)

Autor: Gregor Reischl

Abstract:

Schwarmverhalten ist ein in der Natur weit verbreitetes Phänomen, das bei zahlreichen Herdentieren als Schutzmechanismus vor potentiellen Feinden dient. Diese Arbeit untersucht die Entstehung von Schwarmverhalten mithilfe zweier verschiedener Ansätze des Reinforcement Learning (RL). In früheren Studien wurden RL-basierte Lernansätze analysiert, bei denen die Technik des Parameter-Sharing (PS) zum Einsatz kam. Dabei wurde festgestellt, dass die Beutetiere Schwarmverhalten entwickeln, um effizienter vor Räubern fliehen zu können. In dieser Arbeit wird der Ansatz erweitert, indem die Auswirkungen und Unterschiede der Verwendung von Independent Learning (IL) mit dem PS-Ansatz verglichen werden. In den durchgeführten Experimenten werden die Beutetiere von RL-Policies gesteuert, die mit den RL-Algorithmen „IPPO“ (IL) und „QMIX“ (PS) trainiert wurden. Die Agenten können sich dabei frei in einer kontinuierlichen, zweidimensionalen Umgebung bewegen, wobei ihr einziges Ziel darin besteht, so lange wie möglich zu überleben. Um den Vergleich zwischen PS und IL detaillierter zu untersuchen, werden verschiedene Sichtfelder sowie unterschiedliche Arten von Raubtierverhalten verwendet, die von einfachen Heuristiken bis hin zu einem RL-basierten Modell reichen. Zur Bewertung des erlernten Schwarm- und Fluchtverhaltens werden außerdem zusätzliche Metriken wie Ausrichtung und Kohäsion für verschiedene Agentenpopulationen analysiert. Die Ergebnisse zeigen, dass die PS-Methode robuste Schwarmbewegungen erzeugt, die auch unter wechselnden äußeren Bedingungen stabil bleiben und häufig sogar die Performance des klassischen Boid-Modells übertreffen, das oft als Vergleichbasis verwendet wird. Zwar zeigt IL ebenfalls deutliche Anzeichen von Schwarmverhalten, erreicht jedoch nicht das gleiche Maß an Koordination wie PS. Zudem sind die Überlebensstrategien der IL-Agenten insgesamt deutlich weniger effizient als bei PS.

Betreuer: Maximilian Zorn, Michael Kölle, Claudia Linnhoff-Popien

Enhancing Object Recognition with Uncertainty-Based Fusion Techniques: A Comparative Analysis of Voting Techniques and Machine Learning Models

Masterarbeit (Oktober 2024)

Autor: Martin Obwexer

Abstract:

Die Objekterkennung in sicherheitskritischen Anwendungen muss in der Lage sein, hochzuverlässige Vorhersagen zu liefern. In dieser Arbeit wird daher ein Ansatz zur Verbesserung der Objekterkennung mithilfe von unsicherheitsbasierten Ensemble-Fusionstechniken untersucht. Allgemein kombiniert eine unsicherheitsbasierte Ensemble-Fusionstechnik die Vorhersagen mehrerer Modelle, wobei diese basierend auf ihrer Unsicherheit gewichtet werden, um die Zuverlässigkeit und Robustheit der Objekterkennung in sicherheitskritischen Anwendungen zu erhöhen. Die Ensemble-Methode besteht darin, verschiedene Objekterkennungsmodelle zu kombinieren, deren Ausgaben fusioniert werden, um eine bessere Leistung zu erzielen als jedes einzelne Modell im Ensemble. Ziel ist es, durch das Zusammenführen der Ausgaben mehrerer Modelle ein robusteres und zuverlässigeres Ergebnis zu erzielen als mit einzelnen Modellen allein. Die Techniken sind in zwei Ansätze unterteilt: programmatisch und maschinelles Lernen. Beide Methoden übertrafen die einzelnen Ensemble-Modelle und zeigten, dass die Ensemble-Methode die Objekterkennung verbessert. Die Untersuchung hat gezeigt, dass ähnlich leistungsfähige Modelle als Eingabe verwendet werden können und die Anzahl der Modelle auf insgesamt drei Ensemble-Mitglieder begrenzt werden kann. Da die Anwendung in einem sicherheitskritischen Umfeld erfolgt, wird der Rückruf (Recall) höher gewichtet als die Genauigkeit (Precision). Daher erzielte die Methode des validierenden maschinellen Lernens das beste Ergebnis. Dieser Ansatz erzielte eine Verbesserung der Rückrufleistung um 7,3 %, jedoch auf Kosten einer Verringerung der Genauigkeit um 4,2 %. Der programmatische Ansatz verbesserte sowohl die Genauigkeit als auch den Rückruf durch affirmatives Voting und unsicherheitsbasierte Fusion und lieferte die beste Leistung unter den getesteten Optionen. Er erreichte eine kleine Leistungsverbesserung der Genauigkeit um etwa 0,8 % und des Rückrufs um etwa 2,2 %. Der programmatische Ansatz umfasste drei verschiedene Voting-Methoden: affirmativ, konsensbasiert und einstimmig, wobei die affirmative Methode die besten Ergebnisse erzielte. Innerhalb dieser Methode wurden drei verschiedene Fusionstechniken implementiert: klassenbasiert, unsicherheitsbasiert und basierend auf der Dempster-Shafer-Theorie, wobei die unsicherheitsbasierte Fusion am besten abschnitt, indem sie Konfidenzwerte zur Entscheidung von Klassenkategorien nutzte und gewichtete Bounding Boxes berechnete. Dieser Ansatz verbesserte die Präzision bei der Erkennung kleiner und mittelgroßer Objekte, verringerte jedoch leicht die Leistung bei großen Objekten. Auch die Verbesserung der Rückrufleistung war bemerkenswert, insbesondere bei der Erkennung kleiner Objekte. Der maschinelle Lernansatz wurde in vier unterschiedliche Ansätze unterteilt, die jeweils zunehmend komplexer wurden: Klassifizierung von Kategorien, Validierung von Vorhersagen, Generierung von Bounding Boxes und Generierung neuer Vorhersagen. Das Klassifizierungsmodell verbesserte die durchschnittliche Präzision, wies jedoch eine geringere Rückrufrate im Vergleich zu einem Einzelmodell auf. Das Validierungsmodell erhöhte den Rückruf bei allen Objektgrößen, hatte jedoch eine geringere Präzision. Das Bounding-Box-Generierungsmodell und das Vorhersagegenerierungsmodell erzielten aufgrund der Komplexität des Problems und der Einschränkungen der Daten keine relevanten Ergebnisse.

Betreuer: Thomas Gabor, Philipp Altmann, Claudia Linnhoff-Popien

An Evolutionary Algorithm with Similarity-Based Variation for Job-Shop Scheduling

Masterarbeit (Oktober 2024)

Autor: Marie Brockschmidt

Abstract:

Das Ziel dieser Arbeit ist, das NP-vollständige Job Shop Scheduling Problem zu untersuchen und hierbei einen evolutionären Algorithmus zur Ermittlung eines optimalen Lösungskandidaten zu verwenden. Das Job Shop Scheduling Problem beschreibt ein Optimierungsproblem, dessen Instanzen sich aus multiplen Jobs – bestehend aus verschiedenen Operationen –zusammensetzen. Jede dieser Operationen muss auf verschiedenen, vorher spezifizierten Maschinen bearbeitet werden. Das Ziel des Optimierungsproblems ist es, die Zeitspanne, in der alle Jobs auf allen Maschinen bearbeitet werden, zu minimieren. Aufgrund der zahlreichen Anwendungen in der Industrie ist dieses Problem von großer Bedeutung und wird dementsprechend weitreichend erforscht. Die Forschung an Lösungsstrategien inkludiert auch evolutionäre Algorithmen. In dieser Arbeit wird ein Ansatz erarbeitet und getestet, der die Rekombination und Mutation des evolutionären Algorithmus anpasst, indem gültige Lösungskandidaten kreiert werden, die ähnlich zu dem zu mutierenden Individuum oder den Eltern des Lösungskandidaten sind. Da die Reihenfolge der Operationen vorher definiert ist, ist es nicht möglich die Lösungskandidaten beliebig zu rekombinieren oder zu mutieren. Der Vorteil dieses Ansatzes ist es, den Fokus bei der Mutation auf die Exploration valider Lösungskandidaten zu lenken und außerdem die Performance der besten Lösungskandidaten auszunutzen, indem diese bei der Rekombination ein neues Individuum ergeben, welches beiden Eltern sehr ähnlich ist. Da die Einschränkungen der Prioritätsreihenfolge der verschiedenen Operationen jedes Jobs zu invaliden Lösungskandidaten führen können, wird dieser Ansatz herangezogen. Durch den hohen Bekanntheitsgrad des Job Shop Scheduling Problems existieren zudem multiple Benchmarkprobleme, so auch das Lawrence Set, welches zur Evaluation der Performanz genutzt werden kann, um den soeben vorgestellten Algorithmus beispielsweise in seiner Konvergenz oder Fähigkeit, eine optimale Lösung zu finden, zu vergleichen. Die Ergebnisse des Ansatzes sind vergleichbar mit anderen in der Literatur verwendeten Methoden und führen in den meisten Fällen zu ähnlich guten Lösungen bei gleicher Anzahl an Evaluationen. Für drei der vier verwendeten Benchmarkprobleme kann die optimale Lösung gefunden werden.

Betreuer: Thomas Gabor, Maximilian Zorn, Claudia Linnhoff-Popien

Neural Networks with a Regulatory Second Task on Neuron Level

Masterarbeit (Oktober 2024)

Autor: Julian Thomas Reff

Abstract:

Einbindung einer regulatorischen Aufgabe auf Neuron-Ebene in das Trainingsschema eines neuronalen Netzwerks neben der Hauptaufgabe ist ein neuartiger Ansatz. Diese Arbeit untersucht die Auswirkungen, wenn ein konstanter Ausgabewert von Null als sekundäre Aufgabe und die Klassifikation von MNIST als primäre Aufgabe trainiert werden. Die Experimente zeigen, dass das Ausmaß, in dem Neuronen die regulatorische Aufgabe erfüllen, als Metrik für das Pruning des neuronalen Netzwerks verwendet werden kann. Während das Pruning am Ende des Trainings ineffektiv ist, gelingt das Pruning in früheren Stadien – selbst bei drastischem Pruning – mit begrenztem Post-Training konsistent und verringert die Qualitätsminderung des Modells. Das Training des neuronalen Netzwerks mit der zusätzlichen regulatorischen Aufgabe auf Neuron-Ebene erhöht die Trainingsstabilität und verbessert die Generalisierungsfähigkeit des Modells auf neue Daten. In diesem Rahmen fungiert die regulatorische Aufgabe als Regularisierungstechnik, die das Netzwerk daran hindert, in lokale Minima zu konvergieren, und ein robustes Modell gewährleistet. Allerdings kann die regulatorische Aufgabe das Modell daran hindern, einen optimalen Zustand zu erreichen, sofern keine Anpassungen, wie beispielsweise die Modifikation der Lernrate der regulatorischen Aufgabe, vorgenommen werden. Obwohl das Training mit der regulatorischen Aufgabe zusätzliche Rechenzeit erfordert, bleibt die Trainingsgeschwindigkeit vergleichbar, während weniger als die Hälfte der Trainingsdaten genutzt wird.

Betreuer: Thomas Gabor, Maximilian Zorn, Claudia Linnhoff-Popien

State Preparation on Quantum Hardware Using an Island Genetic Algorithm

Masterarbeit (Oktober 2024)

Autor: Jonathan Philip Wulf

Abstract:

Da genetische Algorithmen eine bemerkenswerte Vielseitigkeit und ein breites Anwendungsspektrum aufweisen, bleibt ihre Nutzung im Kontext der Quantenschaltungs-Synthese ein bemerkenswertes Interessengebiet. Angesichts der erheblichen Herausforderung, die der riesige Suchraum bei der Erstellung von Quantenschaltungen darstellt, ist die theoretische Eignung genetischer Algorithmen offensichtlich, insbesondere in Anbetracht ihrer inhärenten Erkundungsfähigkeit. Zusätzlich zur Nutzung von Quantenalgorithmen zur Erzielung bis zu exponentieller Laufzeitvorteile erfordert all diese Algorithmen die Vorbereitung spezifischer Zustände, um besagte Vorteile zu gewähren. Daher ist es entscheidend, in der Lage zu sein, spezifische Zustände zu erstellen, selbst wenn das Wissen über die zugrunde liegenden Schaltungen fehlt. Ein bemerkenswerter Zustand ist der Greenberger-Horne-Zeilinger (GHZ)-Zustand, der die Superpositions- und Verschränkungs-Eigenschaften der Quantencomputing vereint. Dementsprechend wird diese Schaltung in dieser Arbeit als Zielzustand zur Reproduktion verwendet, und zwei zusätzliche Schaltungen mit unterschiedlichen Zuständen werden eingesetzt, um die allgemeine Anwendbarkeit dieses Ansatzes zu veranschaulichen. Außerdem wird der genetische Algorithmus nicht nur auf dem Simulator, sondern auch auf der IONQ Aria-1 Quantum Processing Unit (QPU) ausgeführt. Diese Arbeit beleuchtet zudem die Unterschiede zwischen dem populationsbasierten und dem inselbasierten Ansatz. Diese Ansätze unterscheiden sich darin, ob die Individuen Teil einer einzelnen Population sind oder ob sie sich separat in kleinere Gruppen entwickeln, die über mehrere Inseln verteilt sind und ausschließlich durch Migration zwischen den Inseln miteinander interagieren. Diese Arbeit liefert Beweise für die Überlegenheit des inselbasierten Ansatzes im Vergleich zum populationsbasierten Ansatz für den GHZ-Zustand sowie die beiden anderen Schaltungen. Ferner wird demonstriert, dass die Einschränkungen der Hardwareausführung erfüllt werden konnten, indem der inselbasierte Ansatz auf der IONQ Aria-1 QPU verwendet wurde, um einen Lösungskandidaten für den GHZ-Zustand zu erzeugen. Darüber hinaus zeigt die Herkunft der generierten Lösungskandidaten die Wirksamkeit des genetischen Algorithmus selbst und auch die erhöhte Vielfalt der verschiedenen Ansätze.

Betreuer: Jonas Stein, Maximilian Zorn, Claudia Linnhoff-Popien

Quantum Reinforcement Learning via Parameterized Quantum Walks

Masterarbeit (Oktober 2024)

Autor: Sabrina Egger

Abstract:

Random Walks finden in verschiedenen Forschungsbereichen wie der Informatik, der Psychologie, dem Finanzwesen oder der Mathematik Anwendung, da sie ein grundlegendes Konzept der Wahrscheinlichkeitstheorie und Stochastik darstellen. Herkömmliche Computer stoßen jedoch schnell an ihre Grenzen hinsichtlich der Rechenkomplexität, so dass andere Wege zur effizienten Lösung komplexer Probleme wie das Quantencomputing erforderlich sind. Quantum Walks, das Quantenäquivalent zum klassischen Random Walk, nutzen Quanteneffekte wie Überlagerung und Verschränkung, um effizienter zu sein als ihre klassischen Gegenstücke. Dennoch stellt die Ausführung von Programmen auf Quantenrechnern in der nahen Zukunft aufgrund der hohen Fehlerraten, des Rauschens und der Anzahl der verfügbaren Qubits eine gewisse Herausforderung dar. Für eine große Anzahl von Graphproblemen wirkt die Kodierung mit Gray Code Directed Edges (GCDE) diesen Problemen entgegen, indem sie die erforderliche Anzahl von Qubits durch eine effiziente Darstellung von bipartiten Graphen unter Verwendung von Gray Code reduziert. Diese Arbeit untersucht Random Walks in Grid Worlds und Glued Trees unter Verwendung klassischer Reinforcement Learning Strategien wie Proximal Policy Optimization oder Deep Q-learning Networks. In einem weiteren Schritt werden die Umgebungen mit effizienter GCDE-Kodierung neu aufgebaut. Die Umgebungen werden in parametrisierte Quantenschaltkreise übersetzt, deren Parameter durch den Agenten optimiert und gelernt werden. Der Beitrag dieser Arbeit beinhaltet die Anwendung der effizienten GCDE-Kodierung in Quantenumgebungen und einen Vergleich zwischen einem Quanten- und einem Random-Walker hinsichtlich Trainingszeiten und Zieldistanzen. Außerdem werden die Auswirkungen unterschiedlicher Startpositionen beim Training und bei der Auswertung berücksichtigt.

Betreuer: Jonas Stein, Michael Kölle, Claudia Linnhoff-Popien

CUAOA: A Novel CUDA-Accelerated Simulation Framework for the Quantum Approximate Optimization Algorithm

Masterarbeit (September 2024)

Autor: Jonas Felix Blenninger

Abstract:

Der Quantum Approximate Optimization Algorithm (QAOA) ist ein bekannter Quantenalgorithmus, der entwickelt wurde, um Näherungslösungen für kombinatorische Optimierungsprobleme zu finden. In der heutigen Zeit, in der Quanten-Hardware durch Rauschen und begrenzte Verfügbarkeit von Qubits eingeschränkt ist, bleibt die Simulation von QAOA für die Forschung unerlässlich. Bestehenden Simulations-Frameworks auf dem neuesten Stand der Technik weisen lange Ausführungszeiten auf oder es mangelt ihnen an umfassender Funktionalität, Benutzerfreundlichkeit und Vielseitigkeit, so dass die Anwendenden häufig wesentliche Funktionen selbst implementieren müssen. Darüber hinaus sind diese Frameworks auf Python beschränkt, was ihren Einsatz in sichereren und schnelleren Sprachen wie Rust beschränkt, welche unter anderem fortgeschrittene Parallelisierungsmöglichkeiten bieten. In dieser Masterarbeit wird die Entwicklung eines neuen GPU-beschleunigten QAOA-Simulationsframeworks vorgestellt, welches das NVIDIA CUDA-Toolkit nutzt. Dieses Framework bietet eine vollständige Schnittstelle für QAOA-Simulationen, die die Berechnung von (exakten) Erwartungswerten, den direkten Zugriff auf den Zustandsvektor, schnelles Sampling und hochleistungsfähige Optimierungsmethoden unter Verwendung der effizientesten bekannten Methode für die Gradientenberechnungstechnik ermöglicht. Das hier vorgestellte Framework ist für die Verwendung in Python und Rust konzipiert und bietet so Flexibilität für die Integration in eine Vielzahl von Anwendungen, einschließlich solcher, die schnelle Algorithmusimplementierungen erfordern und den QAOA als Kern nutzen. Ein solcher Algorithmus, insbesondere der QAOA 2 , ein Divide-and-Conquer-Algorithmus, wird mit dem neuen QAOA-Simulationsframework implementiert, um dessen Verwendung in einer möglicherweise parallisierten Anwendung zu zeigen. Die Leistung des neuen QAOA-Simulations-Frameworks wird mit Hilfe verschiedener Zufallsgraphen für das MaxCut problem rigoros getestet und mit den aktuellen State-of-the-Art-Quantenschaltungs-Simulations-Frameworks und einem spezialisierten Simulator für den QAOA verglichen. Die Auswertung zeigt, dass der entwickelte Simulator die aktuellen State-of-the-Art-Simulatoren in der Laufzeit mit einer Beschleunigung von bis zu mehreren Größenordnungen übertreffen kann. Darüber hinaus werden die Fähigkeiten des Frameworks im Rahmen des Divide-and-Conquer-Algorithmus evaluiert, der den QAOA als Kernstück verwendet. Diese Implementierung übertrifft die Referenzimplementierung unter Verwendung der aktuellsten Simulatoren für eine große Probleminstanz deutlich.

Betreuer: Jonas Stein, Maximilian Zorn, Claudia Linnhoff-Popien

Explainable Time Series Forecasting using exogenous variables – How weather affects the stock market

Bachelorarbeit (September 2024)

Autor: Het Dave

Abstract:

Der Klimawandel ist real und beeinflusst das Wetter weltweit. Angesichts der sich ändernden Wetterbedingungen zielt diese Arbeit darauf ab, zu verstehen, wie Wetter genutzt werden kann, um langfristige Marktveränderungen zu modellieren. Ziel ist es, zu erfassen, wie die Fähigkeit zur Wettervorhersage dazu beitragen kann, Risiken während akuter Wetterkrisen und -störungen zu mindern und die am stärksten vom Wetter betroffenen Branchen zu arbitrage, um den Markt zu stabilisieren. Moderne Deep-Learning-Methoden wie Temporal Fusion Transformers (TFTs) und Neural Hierarchical Interpolation for Time Series Forecasting (N-HiTS) sind erforderlich, um statische und historische exogene Variablen wie Wetter- und Standortdaten einzubeziehen. Daher nutze ich die bestehende, aktuelle N-HiTS-Architektur, da sie in der Langzeitvorhersage andere Modelle übertrifft, indem sie Hierarchical Interpolation und Multi-Rate-Data Sampling integriert und eine große durchschnittliche Genauigkeitsverbesserung gegenüber den neuesten Transformer-Architekturen bietet, während die Rechenzeit um eine Größenordnung reduziert wird. Ich modifiziere dann diese bestehende Architektur, indem ich einen neuartigen Ansatz entwickle, der Wetterdaten in das Modell integriert, sodass es besser für Aktienkurse und Wetterkovariaten geeignet ist. Diesen neuartigen Ansatz nenne ich WiN-HiTs – Weather induced N-HiTS – und zeige, dass Wetterkovariaten die Marktbewegungen in bestimmten Sektoren wie Versorgungsunternehmen und Materialien über einen langen Vorhersagehorizont besser prognostizieren können. Diese Forschung betont auch die Bedeutung der Vorhersage-Dekomposition in KI-Modellen, insbesondere im finanziellen und Aktienmarkt-Kontext, wo das Verständnis des Entscheidungsprozesses entscheidend ist. Die WiN-HiTS-Architektur ermöglicht die Trennung der Stapelvorhersagekomponenten der Zeitreihenprognose, was uns hilft zu interpretieren, wie verschiedene Wetterfaktoren zu Aktienkursschwankungen beitragen und wie diese Faktoren ausgewählt werden. In dieser Arbeit verwende ich einen vielfältigen Datensatz zur Bewertung, einschließlich historischer Wetter- und Aktienmarktdaten aus mehreren geografischen Regionen und Branchen der S&P500-Aktien. Vergleichsbaselines umfassen traditionelle Modelle wie AutoArima sowie moderne maschinelle Lernansätze wie Transformer-basierte Modelle (TFT) und N-HiTS selbst. Die Ergebnisse zeigen, dass WiN-HiTS in den meisten Sektoren auf Augenhöhe mit diesen Modellen arbeitet und in bestimmten Sektoren besser abschneidet. Zu den Key Performance Indicators (KPIs), die zur Bewertung der Vorhersagegenauigkeit verwendet werden, gehören der mittlere absolute Fehler (MAE), der Root Mean Squared Error (MSE) und der mittlere absolute prozentuale Fehler (MAPE). Die Bewertung dieser Arbeit stellt die Robustheit und Praktikabilität des vorgeschlagenen WiN-HiTS-Modells in realen finanziellen Vorhersageszenarien sicher.

Betreuer: Jonas Stein, Claudia Linnhoff-Popien

A Path Towards Quantum Advantage for the Unit Commitment Problem

Bachelorarbeit (September 2024)

Autor: David Fischer

Abstract:

Diese Arbeit stellt eine Lösung für das Unit-Commitment-Problem (UCP) im Bereich des Energienetzmanagements vor. Dabei handelt es sich um ein Optimierungsproblem, bei dem ein Gleichungssystem gelöst wird, um die Kosten für eine gegebene Lösung zu berechnen. Wir charakterisieren das UCP als ein Mixed-Integer Nonlinear Programming (MINLP)-Problem und lösen es mit Hilfe eines Quantensimulations-basierten Optimierungsansatzes (QuSO), wobei dieser eine Klasse von äquivalenten Problemen definiert, die mit dem vorgeschlagenen Algorithmus lösbar sind. Durch die Modellierung des Energienetzes in einem speziellen Graph erhalten wir hilfreiche Erkenntnisse über die Struktur und die Eigenschaften der Suszeptanzmatrix. Wir nutzen approximative Randbedingungen für den Gleichstrom (DC) in diesem Modell. Die vorgeschlagene Quantenroutine beginnt mit der Invertierung der reduzierten Suszeptanzmatrix mittels Quantum Singular Value Transformation (QSVT) unter Verwendung eines speziellen Matrixinversionspolynoms. Eine Quantum Phase Estimation Routine wird zusammen mit einem zusätzlichen QSVT Verfahren verwendet, um die Kostenfunktion zu konstruieren, die dann mit dem Quantum Approximate Optimization Algorithm (QAOA) optimiert wird. Dieser hybride quantenklassische Ansatz nutzt das Potenzial quantenmechanischer Verfahren, um die Effizienz bei der Lösung komplexer Optimierungsprobleme erheblich zu verbessern. Im Rahmen unserer Analyse bewerten wir die algorithmische Komplexität und demonstrieren das beachtliche Potenzial dieses Ansatzes zur Lösung von QuSO-Problemen. Besonders hervorzuheben ist, dass die QSVT-basierte Matrixinversion die Zeitkomplexität in Fällen exponentiell verringern kann, in denen klassische Methoden schlecht mit der Größe des Problems skalieren. Diese Reduktion der Komplexität könnte die Echtzeitoptimierung großer Energienetze ermöglichen und dadurch sowohl die betriebliche Effizienz als auch die Zuverlässigkeit signifikant steigern.

Betreuer: Jonas Stein, Philipp Altmann, Claudia Linnhoff-Popien

Evolutionäre Operatoren zur Optimierung von Prompts für die Codegenerierung durch Large Language Models

Bachelorarbeit (September 2024)

Autor: Amelie Johanna Trautwein

Abstract:

In dieser Bachelorarbeit soll die Anwendung evolutionärer Algorithmen zur Optimierung der Codegenerierung durch Large Language Models (LLMs) untersucht werden. Die Methodik umfasst die Entwicklung eines evolutionären Algorithmus, der spezifische Strategien für Selektion, Crossover und Mutation einsetzt, sowie die Verwendung verschiedener Prompt-Designs und deren Einfluss auf den Optimierungsprozess. Zur Evaluierung der entwickelten Methodik wird WizardCoder verwendet, ein feingetuntes LLM basierend auf StarCoder. Um die Wirksamkeit der optimierten Prompts zu testen, werden die Benchmark-Datensätze HumanEval, MBPP, sowie der Datensatz PythonSaga genutzt. Diese Datensätze enthalten verschiedene Python Programmieraufgaben, die als Maßstab für die Bewertung der generierten Lösungen dienen. Die in dieser Arbeit entwickelten und getesteten Techniken sollen dazu beitragen, die Fähigkeiten von LLMs weiter zu verbessern und deren Einsatzmöglichkeiten in der Praxis zu erweitern. Besondere Aufmerksamkeit wird dabei auf die Entwicklung und Implementierung der evolutionären Operatoren gelegt, die durch iterative Verbesserungsprozesse die Qualität der generierten Code-Lösungen maximieren sollen. Ziel ist es, evolutionäre Operatoren zu entwickeln, die die Eingabeprompts für LLMs optimieren und somit deren Anwendung zur Codegenerierung verbessern.

Betreuer: Philipp Altmann, Maximilian Zorn, Claudia Linnhoff-Popien

Measuring Relatedness in Evolutionary Algorithms via Superfluous Genes

Bachelorarbeit (August 2024)

Autor: Paulin Anwander

Abstract:

In dieser Arbeit bewerten wir die Nutzung überflüssiger Gene zur Messung der Verwandtschaft in evolutionären Algorithmen (EA). Es ist allgemein anerkannt, dass EA, die nicht nur auf Fitness, sondern auch auf die Vielfalt der Populationen optimieren, in der Regel bessere Leistungen erbringen. Eine mögliche Definition für Vielfalt ist die Verwandtschaft der Individuen im phylogenetischen Baum, die jedoch komplex zu berechnen ist. Dies motiviert die Idee, die Verwandtschaft basierend auf überflüssigen Genen zu schätzen. Diese Gene stellen im Wesentlichen ein zweites Genom dar, das parallel zum Hauptgenom ohne Selektionsdruck evolviert. Sie werden durch Bitstrings (t-Bits) repräsentiert, was Berechnungen darauf günstig macht. Um die Vielfalt einer Population abzuschätzen, werden die t-Bits der Individuen bitweise verglichen: Eine hohe Anzahl unterschiedlicher Bits deutet auf eine geringe Verwandtschaft hin, während viele gleiche Bits auf eine hohe Verwandtschaft hindeuten. Die anfängliche Machbarkeit dieses Ansatzes wurde bereits gezeigt. Zur Bewertung der Schätzgenauigkeit führen wir EA durch, bei denen die tatsächliche und die auf t-Bits basierende Verwandtschaft von Individuenpaaren protokolliert wird. Unsere experimentellen Ergebnisse zeigen, dass die auf t-Bits basierte Verwandtschaftsschätzung signifikant mit der tatsächlichen Verwandtschaft korreliert. Wir bewerteten mehrere auf t-Bits basierende Funktionen zur Verwandtschaftsschätzung und stellten fest, dass die Verwendung der Anzahl gleicher t-Bits ohne Nachbearbeitung in den meisten Bereichen am besten funktionierte. Wir fanden jedoch auch Situationen, in denen andere Funktionen besser abschneiden. Zusätzlich bewerteten wir, wie Faktoren wie Populationsgröße, Anzahl der t-Bits, Mutationsverhalten und der Typ des Optimierungsproblems die Qualität der t-Bit-Schätzung beeinflussen. In den meisten Fällen übertraf die auf t-Bits basierende Verwandtschaftsschätzung nicht die auf dem Genom basierende Schätzung, lieferte jedoch dennoch zuverlässige Ergebnisse.

Betreuer: Thomas Gabor, Maximilian Zorn, Claudia Linnhoff-Popien

Exploring QuGANs for realistic graph generation – an exploratory study

Masterarbeit (Juli 2024)

Autor: Florian Burger

Abstract:

Generative Adversarial Networks (GANs) haben für ihre Fähigkeiten bei der Erzeugung realistischer Bilder große Anerkennung gefunden. Die Anwendung von GANs erstreckt sich jedoch auch auf die Generierung verschiedener Formen von synthetischen Daten, einschließlich eines wachsenden Interesses an der Graphengenerierung. Graphen dienen als vielseitige Darstellungen für zahlreiche Szenarien, wie Computernetzwerke, molekulare Strukturen und Infrastrukturlayouts. Folglich hat sich die Generierung künstlicher, aber realistischer Problemfälle für Tests und Entwicklung zu einem bedeutenden Forschungsgebiet entwickelt. Diese Arbeit zielt darauf ab, Quantum GANs (QuGANs) zu verbessern, um synthetische Netzwerkgraphen zu erzeugen, die reale Karteninstanzen genau imitieren. Diese generierten Graphen können zur Lösung verschiedener Routing-Probleme verwendet werden, darunter das Traveling Salesman Problem (TSP) und das Capacitated Vehicle Routing Problem (CVRP). Unser experimenteller Rahmen nutzt eine GAN-Architektur, um mehrere Szenarien zu erforschen, die in zwei Hauptgruppen eingeteilt sind: eine, die einen konventionellen klassischen Generator und Diskriminator verwendet, und die andere, die einen Quantengenerator mit einem klassischen Diskriminator integriert. Das Hauptziel besteht darin, die Leistung von QuGANs bei der Bewältigung der für diese Probleme relevanten Herausforderungen der Netzwerkgenerierung zu erhöhen. Angetrieben durch die Notwendigkeit von Instanzen, die die Dynamik der realen Welt widerspiegeln, schlägt diese Forschung eine strategische Methodik zur Erzeugung von Instanzen vor, die realistische geografische Konfigurationen und operative Arbeitslasten widerspiegeln. Klassische GANs, die für ihre Fähigkeit bekannt sind, Datenmuster zu replizieren, die die ursprüngliche Verteilung nachahmen, werden als geeignet angesehen. Unser Ansatz geht jedoch über die klassischen Methoden hinaus, indem die QuGANs den Generierungsprozess durch eine quantenmechanische Methode steuern, indem sie die einzigartigen Eigenschaften von Quantensystemen, wie Überlagerung, Interferenz und Verschränkung, nutzen. Diese Forschung zielt darauf ab, das Potenzial von QuGANs bei der Erzeugung realistischer Instanzen zu demonstrieren, die für unseren Problembereich relevant sind. Die dem Quantencomputing innewohnenden Quanteneigenschaften bieten neuartige Möglichkeiten für die Erzeugung synthetischer Netzwerke. Wir versuchen, ihre jeweiligen Vorteile und Grenzen durch eine vergleichende Analyse zwischen klassischen GANs und QuGANs aufzuzeigen. Unsere experimentellen Ergebnisse zeigen, dass klassische GANs eine minimale Verbesserung bei der Erzeugung realistischer Graphen mit niedrigeren Parametern aufweisen, während QuGANs eine deutliche Verbesserung der Lernkurve und der Anzahl der erzeugten realistischen Graphen zeigen. Diese Ergebnisse deuten darauf hin, dass QuGANs das Potenzial haben, klassische Methoden unter bestimmten Bedingungen zu übertreffen, auch wenn weitere Untersuchungen erforderlich sind, um Stabilität und rechnerische Herausforderungen zu bewältigen.

Betreuer: Tobias Rohe, Michael Kölle, Claudia Linnhoff-Popien

Designing Meta-Rewards for Multi-Agent Reinforcement Learning Cooperation

Masterarbeit (Juni 2024)

Autor: Jonas Wild

Abstract:

Diese Arbeit untersucht die Integration des dynamischen Meta-Reward-Shapings in das Multi-Agent Reinforcement Learning (MARL), um kooperatives Verhalten unter Agenten zu verbessern. Wir entwickelten ein Framework basierend auf dem ePyMarl Framework, das Strategien implementiert, um Agenten durch das Erreichen von Meta- und Hauptzielen zu kooperativem Verhalten zu führen. Wir führten einen Base Reward Critic ein, der erwartete zukünftige Returns ohne Meta-Rewards abschätzt. Dieser Critic wurde dann verwendet, um Targets für ein Neurales Netzwerk und einen Stochastic Gradient Descent Regressor zu generieren, die anzeigen, ob die Vergabe einer Meta-Reward im aktuellen Zustand mit der Policy kollidieren oder vorteilhaft sein würde. Experimentelle Auswertungen in drei Szenarien – Level based Foraging: Exploration und Gemeinsames Sammeln, und synchronisierte Angriffe in SMAC – zeigten signifikante Verbesserungen im kooperativen Verhalten der Agenten. Während Neurale Netzwerke und SGD Regressoren Potenzial zur Leistungssteigerung in der Erkundungsaufgabe zeigten, konnte ihre Wirksamkeit in den anderen beiden Herausforderungen nicht validiert werden. Letztendlich legt diese Arbeit nahe, dass dynamisches Meta-Reward-Shaping ein leistungsstarkes Werkzeug zur Entwicklung vorhersehbarer und anpassungsfähiger Multi-Agenten-Systeme ist, das Verhalten und Policies lenkt und steuert. Das automatisierte Shaping von Meta-Rewards entsprechend der Übereinstimmung mit der Belohnungsstruktur der Umgebung zeigte Potenzial und erfordert weitere Validierung.

Betreuer: Maximilian Zorn, Philipp Altmann, Claudia Linnhoff-Popien

Masked Autoencoders for Unsupervised Anomalous Sound Detection

Masterarbeit (Juni 2024)

Autor: Florian Reusch

Abstract:

In dieser Masterarbeit wird die Verwendung von Masked Autoencoders (MAEs) für die unüberwachte Erkennung von Anomalien in Audiodaten untersucht. Dabei wird das Prinzip des unüberwachten Lernens genutzt, um unregelmäßige Klangmuster zu erkennen, ohne dass manuell gelabelte Datensätze benötigt werden. Dieses Forschungsprojekt konzentriert sich auf den auditiven Bereich und zielt darauf ab, die erfolgreiche Anwendung von MAEs, die ursprünglich in der Computer Vision angewandt wurde, auf die Erkennung von Anomalien in Sounddaten auszuweiten, indem Audiodaten zur Analyse in Mel-Spektrogramme umgewandelt werden. Um die Effizienz der MAEs bei der Unterscheidung zwischen normalen und anomalen Klängen unter Verwendung des Rekonstruktionslosses als Anomalie-Score zu bewerten, wird der DCASE2020-Datensatz genutzt, der ein breites Spektrum an Klangkategorien umfasst. Zu den wichtigsten Beiträgen dieser Arbeit gehören die Anpassung des MAE-Frameworks für die Erkennung anormaler Geräusche, die Erweiterung durch Vektorquantisierung und ID-Vorhersage zur Verbesserung der Genauigkeit, die Durchführung einer umfassenden Hyperparameter-Optimierung und der Vergleich der Leistung des MAE-Modells mit anderen Methoden. Die Forschungsergebnisse unterstreichen die Effektivität von MAEs bei der Erkennung von Anomalien und zeigen, dass ein geringeres Maskierungsverhältnis von 15 Prozent und eine spezifische Encoder-Decoder-Konfiguration, insbesondere ein kleiner Encoder gepaart mit einem großen Decoder, die Fähigkeit des Modells zur Erkennung von Anomalien erheblich verbessern. Darüber hinaus stellen wir fest, dass die Vektorquantisierung zwar die Erkennung von Anomalien nicht verbessert, die ID-Vorhersage jedoch eine nützliche zusätzliche Lernaufgabe darstellt. Trotz Herausforderungen wie dem ungünstigen Skalierungsproblem, das Transformermodellen innewohnt, unterstreicht diese Arbeit das Potenzial von MAEs bei der unüberwachten Erkennung von Anomalien in Sounddaten. Indem sie sowohl die Möglichkeiten als auch die Grenzen von MAEs bei der Anomalieerkennung aufzeigt, trägt diese Arbeit zu einem differenzierten Verständnis ihrer Anwendung in der Anomaliedetektion auf Audiodaten bei und ebnet den Weg für zukünftige Untersuchungen.

Betreuer: Michael Kölle, Claudia Linnhoff-Popien

Evaluierung von metaheuristischen Optimierungsalgorithmen für Quantum Reinforcement Learning

Masterarbeit (Mai 2024)

Autor: Daniel Seidl

Abstract:

Quantum Reinforcement Learning bietet das Potenzial für Vorteile gegenüber klassischem Reinforcement Learning, wie beispielsweise eine kompaktere Repräsentation des Zustandsraums durch Quantenzustände. Darüber hinaus deuten theoretische Untersuchungen darauf hin, dass Quantum Reinforcement Learning in bestimmten Szenarien eine schnellere Konvergenz als klassische Ansätze aufweisen kann. Allerdings bedarf es weiterer Forschung, um die tatsächlichen Vorteile von Quantum Reinforcement Learning in praktischen Anwendungen zu validieren. Diese Technologie sieht sich zudem mit Herausforderungen wie einer flachen Lösungslandschaft konfrontiert, die durch fehlende oder geringe Gradienten gekennzeichnet ist und somit die Anwendung traditioneller, gradientenbasierter Optimierungsmethoden ineffizient macht. In diesem Kontext gilt es, gradientenfreie Algorithmen als Alternative zu prüfen. Die vorliegende Arbeit befasst sich mit der Integration von metaheuristischen Optimierungsalgorithmen wie der Partikelschwarmoptimierung, dem Ameisenkolonie-Algorithmus, der Tabu Suche, Simulated Annealing und der Harmonie Suche in Quantum Reinforcement Learning. Diese Algorithmen bieten Flexibilität und Effizienz bei der Parameteroptimierung, da sie spezialisierte Suchstrategien und Anpassungsfähigkeit nutzen. Die Ansätze werden im Rahmen von zwei Reinforcement Learning Umgebungen evaluiert und mit zufälliger Aktionsauswahl verglichen. Die Ergebnisse zeigen, dass in der 5×5 Empty MiniGrid Umgebung alle Algorithmen zu akzeptablen oder sogar sehr guten Ergebnissen führen, wobei Simulated Annealing und die Partikelschwarmoptimierung die besten Leistungen erzielen. In der Cart Pole Umgebung erreichen Simulated Annealing und die Partikelschwarmoptimierung optimale Ergebnisse, während der Ameisenkolonie-Algorithmus, die Tabu Suche und die Harmonie Suche nur leicht besser abschneiden als ein Algorithmus mit zufälliger Aktionswahl. Diese Ergebnisse demonstrieren das Potenzial metaheuristischer Optimierungsmethoden wie der Partikelschwarmoptimierung und Simulated Annealing für effizientes Lernen in Quantum Reinforcement Learning Systemen, zeigen aber auch die Notwendigkeit einer sorgfältigen Auswahl und Anpassung des Algorithmus an die jeweilige Problemstellung.

Betreuer: Michael Kölle, Maximilian Zorn, Claudia Linnhoff-Popien

Towards Less Greedy Quantum Coalition Structure Generation in Induced Subgraph Games

Masterarbeit (Mai 2024)

Autor: Daniëlle Schuman

Abstract:

Die Energiewende ist einer der wichtigsten Schritte im Kampf gegen den Klimawandel, den viele Nationen aktuell angehen. Jedoch stellt uns diese Umstellung auf 100 % erneubare Energien vor Herausforderungen bezüglich der erfolgreichen Steuerung von Stromnetzen. Ein Lösungsansatz ist hier das sinnvolle Zerlegen dieser Netze in Kleingruppen sogenannter Prosumenten, die Microgrids. Diese sinnvolle Zerlegung stellt jedoch ein schwieriges Optimierungsproblem da, das in etwas vereinfachter Form formalisiert werden kann als ein Problem der Koalitionsstrukturengenerierung in Induzierten Subgraph-Spielen. Hierbei versucht man einen vollvermaschten, ungerichteten, gewichteten Graphen so in Subgraphen zu zerlegen, dass die Summe über die Gewichte der in diesen Subgraphen enthaltenen Kanten maximiert wird. Zur Lösung dieses Problems wurden in den letzten Jahren auch einige Quanten-Algorithmen publiziert, wovon der Neueste ein effizienter, aber gieriger Ansatz namens GCS-Q ist. In dieser Arbeit werden diverse weitere, weniger gierige Quantum Annealing (QA)-basierte Algorithmen zur Lösung des Problems entworfen und mit GCS-Q verglichen, um festzustellen, ob einer dieser Ansätze eine bessere Lösungsqualität erzielen kann. Experimente auf drei verschiedenen Solvern – der QBSolv-Software, dem D-Wave Advantage 4.1 Quantum Annealer, und dem Algorithmus QAOA auf dem Qiskit Quantensimulator – ergeben, dass dies auf der aktuellen echten Quanten-Hardware nicht möglich ist. Mit der QBSolv-Software findet jedoch ein Großteil der neu entwickelten Ansätze bessere Lösungen, insbesondere der 4-split iterative R-QUBO Algorithmus, der auf dem verwendeten Datensatz alle Optima findet. Da seine Laufzeit zudem gut mit der Graphgröße skaliert, scheint dies ein vielversprechender Ansatz für zukünftige Forschung an der Problemstellung zu sein.

Betreuer: Jonas Nüßlein, David Bucher, Claudia Linnhoff-Popien

Specification Aware Evolutionary Error Search in Parameterized RL Environments

Masterarbeit (März 2024)

Autor: Ioan-Luca Ionescu

Abstract:

Um die Zuverlässigkeit von autonomen Systemen und maschinell erlernten Verfahren, insbesondere im Bereich des Verstärkungslernens, zu gewährleisten, ist ein Verständnis des verwendeten Modellverhaltens unerlässlich. Nimmt man die Politik eines solchen Agenten als gegeben (trainiert) und überwiegend zuverlässig an, wird es zunehmend schwieriger, durch stichprobenartiges Testen gültige Fehlerfälle (Randfälle) im Raum der möglichen Probleme zu finden. In dieser Arbeit liegt der Fokus auf der Untersuchung und Generierung von spezifikationsbewussten Problemfällen in parametrisierbaren Reinforcement Learning Umgebungen mit Hilfe von evolutionären Algorithmen. Gesucht wird nach Fehlern in Bezug auf die funktionale Spezifikation, d.h. harte Anforderungsbedingungen (hat ein Ziel in vorgegebener Zeit oder Art und Weise erfüllt) und die nicht-funktionale Spezifikation, z.B. über Proxy-Performance-Metriken wie die Körperausrichtung der Agenten auf die Ziele. Unsere evolutionäre Suche findet zum Beispiel problematische Ziele in der Nähe des Agenten, die auf Trainingsdefizite beim Umdrehen hinweisen, sowie in der Nähe von Wänden und Hindernissen. Ein erster Proof-of-Concept hat gezeigt, dass Evolutionäre Algorithmen in der Lage sind, eine spezifikationsbewusste Fehlersuche durchzuführen, aber nicht in der Lage waren, randomisierte Tests und eine Basisheuristik vollständig zu übertreffen.

Betreuer: Maximilian Zorn, Fabian Ritz, Claudia Linnhoff-Popien

Optimierung von Variational Quantum Circuits für Hybride Quantum Proximal Policy Optimization Algorithmen

Bachelorarbeit (Februar 2024)

Autor: Timo Witter

Abstract:

Quantencomputer, welche sich aktuell in der Entwicklung befinden, bieten in der Theorie neben der Hoffnung auf einen Quantenvorteil auch die Möglichkeit der Parameterreduktion. Diese ist insbesondere für das Machine Learning interessant, da sie einen schnelleren Lernvorgang und geringeren Arbeitsspeicherverbrauch für die rechenintensiven Prozesse erlauben würde. Im aktuellen Noisy Intermediate-Scale Quantum (NISQ) Zeitalter ist die Anzahl der Quantenbits jedoch noch beschränkt und Quantenrauschen erschwert das Training, daher konzentriert sich die Forschung auf Variational Quantum Circuits (VQCs). Diese hybriden Algorithmen aus einem parametrisierten Quantenschaltkreis mit klassischer Optimierung benötigen nur wenige Qubits, wodurch sie bereits jetzt die Möglichkeit bieten relevante Erfolge zu erzielen. In der der Literatur wurden in den letzten Jahren einige interessante Versionen vorgestellt, welche diese einsetzen, um Reinforcement Learning Probleme zu lösen und dabei vielversprechende Ansätze zur Verbesserung der Performance verwenden, welche es verdienen genauer betrachtet zu werden. In dieser Arbeit wird die Effektivität von Data Re-uploading, Input und Output Scaling und einer exponentiell abfallenden Lernrate für den Actor VQC eines Quantum Proximal Policy Optimization (QPPO) Algorithmus in den Frozen Lake und Cart Pole Umgebungen auf ihre Fähigkeit die Leistung des Schaltkreises im Verhältnis zur verwendeten Parameterzahl zu erhöhen evaluiert. Die Ergebnisse zeigen, dass die exponentiell abfallenden Lernrate und Data Re-uploading ohne das Hinzufügen weiterer trainierbarer Parameter die Leistung des VQC und dessen Hyperparameterstabilität deutlich erhöhen. Während Input Scaling keinen Einfluss auf die Parametereffizienz zu haben scheint, konnte Output Scaling eine wirksame Greediness-Kontrolle und so eine deutliche Steigerung der Performance und Robustheit ermöglichen.

Betreuer: Michael Kölle, Philipp Altmann, Claudia Linnhoff-Popien

Link-Konfiguration für Satellitenkommunikation mittels Reinforcement Learning

Bachelorarbeit (Februar 2024)

Autor: Jan Matheis

Abstract:

Die Satellitenkommunikation ist eine Schlüsseltechnologie unserer modernen vernetzten Welt. Angesichts zunehmend komplexerer Hardware in diesem Bereich stehen Herausforderungen bevor, die bewältigt werden müssen. Eine dieser Herausforderungen ist die effiziente Konfiguration von Links (Verbindungen) auf einem Satellitentransponder. Eine optimale Link-Konfiguration zu planen ist äußerst komplex und hängt von vielen Parametern und Metriken ab. Dabei ist die optimale Nutzung der begrenzten Ressourcen, Bandbreite und Leistung des Transponders von entscheidender Bedeutung. Ein solches Optimierungsproblem kann mithilfe von metaheuristischen Methoden wie dem Simulated Annealing angegangen werden. Aktuelle Forschungsergebnisse zeigen, dass Reinforcement Learning bei Optimierungsverfahren eine gleich gute oder bessere Leistung erzielen kann wie metaheuristische Verfahren. Für die Link-Konfiguration auf einem Satellitentransponder gibt es dazu keine Untersuchungen. Um diese Forschungslücke zu schließen, wurde im Rahmen dieser Arbeit ein Transponder Environment entwickelt. Für dieses Environment wurde die Performance des Reinforcement Learning Algorithmus PPO in zwei Experimenten mit der Metaheuristik Simulated Annealing verglichen. Die Ergebnisse zeigen, dass Simulated Annealing für dieses statische Problem bessere Ergebnisse liefert als der PPO Algorithmus. Es sind weitere Experimente erforderlich, um ein wirklich aussagekräftiges Ergebnis zu erzielen.

Betreuer: Michael Kölle, Claudia Linnhoff-Popien

Anomalous Sound Detection with Multimodal Embeddings

Bachelorarbeit (Februar 2024)

Autor: Lara Lanz

Abstract:

Die Aufgabe der akustischen Anomalieerkennung im Bereich des Maschinenlernens (ML) ist es, eine Entscheidung darüber zu treffen, ob ein Geräusch normal oder abnormal ist. In der Realität kann dies im industriellen Bereich angewendet werden, um Maschinengeräusche zu überwachen, da abnormale Geräusche hier auf einen Fehler oder Defekt hinweisen können. Eine häufige Herangehensweise zur Konstruktion von ML Modellen ist es, die Leistung bereits vortrainierter Modelle zu nutzen, um semantisch bedeutsame Merkmalsrepräsentationen, auch genannt Embeddings, aus den Daten zu extrahieren. Üblicherweise werden hierzu Modelle verwendet, die in der gleichen Modalität wie die Zielaufgabe trainiert wurden, im Kontext der akustischen Anomalieerkennung also in der Modalität Audio. Diese Bachelorarbeit untersucht die Wirksamkeit von multimodalen Embeddings für die Aufgabe der akustischen Anomalieerkennung. Dabei werden Modelle, die in mehreren Modalitäten vortrainiert wurden, benutzt, um semantisch bedeutsame Audioembeddings aus Audiodaten zu extrahieren. Diese Embeddings dienen dann als Input für etablierte Outlier Detection Methoden, um Anomalien zu identifizieren. Da die Layers der vortrainierten Modelle bei der reinen Merkmalsextraktion gefroren bleiben, ist der vorgestellte Ansatz schnell, simpel und rechnerisch kostengünstig. Verschiedene Kombinationen von vortrainierten Modellen und Outlier Detection Methoden werden in einer Ablation Study evaluiert. Die daraus resultierende beste Kombination wird hinsichtlich den Gesichtspunkten Leistung und Robustheit gegenüber verschiedenen Maschinentypen und Domänenverschiebungen bewertet. Die Ergebnisse deuten darauf hin, dass die Merkmalsextraktion mit vortrainierten multimodalen Modellen zu einer stabilen und robusten Leistung über verschiedene Maschinentypen hinweg beiträgt, wobei in diesem Kontext alle drei Baselines übertroffen werden. Der Ansatz zeigt auch eine vielversprechende Robustheit gegenüber Domänenverschiebungen und übertrifft in dieser Hinsicht zwei von drei Baselines, reicht jedoch nicht an die dritte Baseline heran, die weitere spezifische Ansätze für die Domänengeneralisierung implementiert.

Betreuer: Michael Kölle, Claudia Linnhoff-Popien

Beeinflussung von Verhalten durch Reward-Manipulation im Multi-Agent Reinforcement-Learning

Masterarbeit (März 2024)

Autor: Llewellyn Hochhauser

Abstract:

Im Bereich von Polymatrix-Spielen wurde in der Vergangenheit gezeigt, dass es möglich ist, das Verhalten anderer Agenten durch eine Manipulation der Belohnungen zu beeinflussen. Beispielsweise kann hiermit in einem kompetitiven Szenario eine Kooperation erzwungen werden. In dieser Masterarbeit wird geprüft, ob und wie dieser Ansatz auf Multi-Agent-Reinforcement-Learning (MARL) übertragen werden kann. Hierbei gibt es stets zwei Typen von Agenten, welche, die die Belohnungen aller Agenten manipulieren können, und triviale Agenten, die die Umgebung herkömmlich erlernen. Beide Agenten-Typen können von manipulierenden Agenten beeinflusst werden. Zusätzlich gelten hier bei einige Einschränkungen. Es können sich weder normale noch manipulierende Agenten untereinander ohne Umgebungsinteraktion absprechen. Auch geschieht die Manipulation individuell. Dies bedeutet, dass mehrere manipulierende Agenten sich auch hier nicht miteinander absprechen können. Die Belohnungs-Manipulation kann allerdings auf den jeweiligen Agenten angepasst werden. Mehre manipulierende Agenten können die gleiche Belohnung beeinflussen. Die Belohnungen im Gesamtsystem müssen allerdings erhalten bleiben. Agenten können daher keine Belohnungen frei erfinden. Hierfür wird in dieser Arbeit das Reward-Manipulation-Protokoll erstellt. Für dieses wurden drei verschiedene Abstufungen herausgearbeitet, mit denen dieser Ansatz verwendet und auch weiter erforscht werden kann. Getestet wird der Ansatz in verschiedenen Sozialen Dilemma-Szenarien. Um das Reward-Manipulation-Protokoll einordnen zu können, wird der Ansatz mit verwandten Algorithmen aus dem Bereich der Peer Incentivization verglichen.

Betreuer: Philipp Altmann, Michael Kölle, Claudia Linnhoff-Popien

Portraying Reinforcement Learning Policies via Diverse Behavior selected using Evolutionary Algorithms

Masterarbeit (März 2024)

Autor: Céline Davignon

Abstract:

Es ist nicht einfach, einem Reinforcement Learning Model zu vertrauen. Selbst wenn eintrainierter Agent gute Rewards erhält, ist es nicht sicher, dass er auch das erwartete Verhalten zeigt. Um mehr Vertrauen in Reinforcement Learning setzen zu können, ist die Interpretierbarkeit von Reinforcement Learning Agenten wichtig. In dieser Arbeit versuchen wir, die visuelle Interpretierbarkeit eines trainierten Agenten durch Finden diverser Verhaltensweisen eines Agenten zu verbessern. Dies möchten wir mithilfe Evolutionärer Suche erreichen. Ein Genetischer Algorithmus selektiert verschiedene Startzustände, die zu neuen Verhaltensweisen des trainierten Agenten führen. Der Ansatz wurde anhand einer einfachen Gridworld-Umgebung entwickelt. Weiterhin wurde er anhand dieser Umgebung und einer etwas komplexeren Umgebung validiert und evaluiert. Außerdem wurde der Genetische Algorithmus in einer Robotik-Umgebung angewendet, um ihn auch in kontinuierlichen Räumen zu evaluieren. Als Hauptbeitrag dieser Arbeit schlagen wir eine geeignete Fitnessfunktion vor, die diverse Verhaltensweisen bewerten kann. Sie bewertet nicht nur das Verhalten eines Agenten, sondern auch sein Verhalten unter Berücksichtigung bereits bekannter Verhaltensweisen. Das Ergebnis des Genetischen Algorithmus ist eine Menge an Episoden, die besonders diverse Verhaltensweisen zeigen. In manchen Episoden erreicht der Agent sein Ziel in erwarteter Weise, während er in anderen Episoden unerwartetes und nicht einfach erklärbares Verhalten zeigt. Außerdem schlagen wir eine mögliche Kodierung der Startzustände der Umgebung vor. Unser Ansatz kann genutzt werden, um die Qualität verschiedener trainierter Agenten zu evaluieren und zu vergleichen. Des Weiteren kann herausgefunden werden, in welchen Startzuständen der Agent noch mehr Training benötigt.

Betreuer: Philipp Altmann, Maximilian Zorn, Claudia Linnhoff-Popien

Diversity-Driven Pre-Training for Efficient Transfer Reinforcement Learning

Bachelorarbeit (Dezember 2023)

Autor: Simon Hackner

Abstract:

In dieser Arbeit wird der kürzlich vorgestellte Diskriminative Reward Co-Training (DI- RECT) Ansatz für die Vortrainierung einer generellen Policy eingesetzt, um die Lernfähigkeit von Reinforcement Learning Agenten zu verbessern und den Trainingsprozess effizienter zu gestalten. DIRECT erweitert Deep Reinforcement Learning Algorithmen durch Integration eines Buffers, der auf Basis des Episoden-Rewards vorteilhafte, von der Policy generierte Episoden aufnimmt, und eines Diskriminators, der im Laufe des Trainings lernt zwischen Episoden der Policy und des Buffers zu unterscheiden. Diese Struktur wird adaptiert um in einer Umgebung ohne Reward zu trainieren, indem der Episoden-Reward durch eine Diversitäts-Metrik ersetzt wird, wodurch der Buffer mit viel- fältigen Episoden gefüllt wird. Die vortrainierte Policy kann im Anschluss von bewährten Reinforcement Learning Algorithmen wie PPO genutzt werden, um unterschiedliche Auf- gaben in der zuvor erkundeten Umgebung effizient zu erlernen. Ziel der Arbeit ist es, die Auswirkungen des Ansatzes auf die Lernfähigkeit des Agenten, die Exploration und die Beschleunigung des Lernens verschiedener Aufgaben zu untersuchen.

Betreuer: Philipp Altmann, Maximilian Zorn, Claudia Linnhoff-Popien