Reworked the Experimente - general.

Again!
This commit is contained in:
Philipp Horstenkamp 2023-12-10 17:15:55 +01:00
parent bc6aa3200b
commit 4dac38190e
Signed by: Philipp
GPG Key ID: DD53EAC36AFB61B4

View File

@ -151,34 +151,36 @@ Chain of Thought kann nicht nur für Mathematische Problemstellungen verwendet w
Die natürliche Fortsetzung von Chain of Thought (CoT)~\cite{CoT} besteht darin, das Modell anzuregen,
mathematische und logische Probleme in Form von Programmcode zu formatieren,
welcher die eigentlichen mathematischen Operationen ausführt.
Dieser Ansatz beseitigt die größte Schwachstelle, die zeitgenössische Large Language Models (LLMs) bei mathematischen und logischen Operationen aufweisen.
welcher dann ausgeführt wird um die eigentlichen mathematischen Operationen auszuführen.
Dieser Ansatz umgeht die Schwachstelle der mathematischen Operation vollständig.
Indem der Programmcode so gestaltet wird, dass er den Gedankengang der Problemlösung nachzeichnet,
werden die Stärken von Chain of Thought-Prompts genutzt und die Schwächen von LLMs bei mathematischen Operationen effektiv umgangen.
Beim Aufbau von Program-Aided Language (PAL) Prompt-Beispielen ist zu beachten,
dass die Variablen sich an den Grundsatz der Verbalisierung halten und aussagekräftige Namen haben sollten,
die möglichst gut im Fließtext der Aufgabenstellung wiederzufinden sind,
um die Verbindung zu diesen besonders deutlich zu machen.
die möglichst gut den einzelnen Werten aus dem Fließtext der Aufgabenstellung zuzuordnen sind
und das Beispiel dadurch besondere Klarheit bekommt.
Obwohl es möglich ist, die Schritte einzeln auszuführen und dann mit den Ergebnissen weiterzuarbeiten,
wurde der Ansatz der einfachen, statt der einmaligen Ausführung gewählt.
\section{Experimente}
Die Experimente zur Quantifizierung der Effizienz von Program-Aided Language (PAL) wurden auf Datensätzen durchgeführt,
die bereits für Chain of Thought (CoT) verwendet wurden~\cite{CoT}.
Hierbei wurde sowohl die Fähigkeit zum Lösen mathematischer, abstrakter als auch algorithmischer Probleme quantifiziert.
Die CoT-Beispiele, welche die Lösungsstile aufzeigen, wurden direkt übernommen und in den PAL-Stil einer Antwort übertragen.
die bereits für Chain of Thought Experimente verwendet wurden~\cite{CoT}.
Für PAL wurde sowohl die Fähigkeit zum Lösen mathematischer, abstrakter als auch algorithmischer Probleme quantifiziert.
Die CoT-Prompt-Beispiele, welche die Lösungsstile/Wege aufzeigen, wurden direkt übernommen und in den PAL-Prompt Stil übertragen.
Um eine gute Vergleichbarkeit zu gewährleisten, wurden äquivalente Beispiele in beiden Stilen verwendet,
um die Qualität der Ergebnisse beider Algorithmen unter gleichen Bedingungen zu testen.
Beispielsweise wurden zufällig die Beispiele 3, 6 und 8 aus der Menge der Beispiele ausgewählt.
Probleme wurden sowohl mit CoT als auch mit PAL unter Verwendung dieser Kombination gelöst.
Auf diese Weise kann der Zufallsfaktor, der die Passgenauigkeit der Beispiele zum Problem beeinflusst, minimiert werden,
was die Ergebnisse vergleichbarer macht.
Auf die Beispiele und die Fragestellung folgt stets die Aufforderung, Antworten in Python zu formulieren, und zwar in dem vorgegebenen Format.
Beispielsweise wurden zufällig die CoT Beispiele 3, 6 und 8 aus der Menge der Beispiele ausgewählt.
Probleme wurden sowohl mit CoT als auch mit PAL unter Verwendung derselben zufälligen Kombination gelöst.
Auf diese Weise kann der Zufallsfaktor, der die Passgenauigkeit der Beispiele zum Problem beeinflusst,
ausgeschlossen werden, was die Ergebnisse vergleichbarer macht.
Auf die Beispiele und die Fragestellung folgt stets die Aufforderung, Antworten in Python zu formulieren mit einem Hinweis auf die Formatbeispiele.
Neben CoT und PAL wurde auch die direkte Frage nach einem Ergebnis getestet, um die qualitativen Unterschiede deutlich aufzeigen zu können.
Die direkt Frage nach einem Ergebnis ist genau wie es klingt eine Einfache bitte um Antwort nach schilderung des Sachverhalts.
\subsection{Mathematische Berechnungen}