From 4dac38190e5f7562903f73a12d2e4605d32c752b Mon Sep 17 00:00:00 2001 From: Philipp Horstenkamp Date: Sun, 10 Dec 2023 17:15:55 +0100 Subject: [PATCH] Reworked the Experimente - general. Again! --- pal-vorstellung.tex | 26 ++++++++++++++------------ 1 file changed, 14 insertions(+), 12 deletions(-) diff --git a/pal-vorstellung.tex b/pal-vorstellung.tex index 9a2b85a..4f6a6b7 100644 --- a/pal-vorstellung.tex +++ b/pal-vorstellung.tex @@ -151,34 +151,36 @@ Chain of Thought kann nicht nur für Mathematische Problemstellungen verwendet w Die natürliche Fortsetzung von Chain of Thought (CoT)~\cite{CoT} besteht darin, das Modell anzuregen, mathematische und logische Probleme in Form von Programmcode zu formatieren, - welcher die eigentlichen mathematischen Operationen ausführt. -Dieser Ansatz beseitigt die größte Schwachstelle, die zeitgenössische Large Language Models (LLMs) bei mathematischen und logischen Operationen aufweisen. + welcher dann ausgeführt wird um die eigentlichen mathematischen Operationen auszuführen. +Dieser Ansatz umgeht die Schwachstelle der mathematischen Operation vollständig. Indem der Programmcode so gestaltet wird, dass er den Gedankengang der Problemlösung nachzeichnet, werden die Stärken von Chain of Thought-Prompts genutzt und die Schwächen von LLMs bei mathematischen Operationen effektiv umgangen. Beim Aufbau von Program-Aided Language (PAL) Prompt-Beispielen ist zu beachten, dass die Variablen sich an den Grundsatz der Verbalisierung halten und aussagekräftige Namen haben sollten, - die möglichst gut im Fließtext der Aufgabenstellung wiederzufinden sind, - um die Verbindung zu diesen besonders deutlich zu machen. + die möglichst gut den einzelnen Werten aus dem Fließtext der Aufgabenstellung zuzuordnen sind + und das Beispiel dadurch besondere Klarheit bekommt. Obwohl es möglich ist, die Schritte einzeln auszuführen und dann mit den Ergebnissen weiterzuarbeiten, wurde der Ansatz der einfachen, statt der einmaligen Ausführung gewählt. + \section{Experimente} Die Experimente zur Quantifizierung der Effizienz von Program-Aided Language (PAL) wurden auf Datensätzen durchgeführt, - die bereits für Chain of Thought (CoT) verwendet wurden~\cite{CoT}. -Hierbei wurde sowohl die Fähigkeit zum Lösen mathematischer, abstrakter als auch algorithmischer Probleme quantifiziert. -Die CoT-Beispiele, welche die Lösungsstile aufzeigen, wurden direkt übernommen und in den PAL-Stil einer Antwort übertragen. + die bereits für Chain of Thought Experimente verwendet wurden~\cite{CoT}. +Für PAL wurde sowohl die Fähigkeit zum Lösen mathematischer, abstrakter als auch algorithmischer Probleme quantifiziert. +Die CoT-Prompt-Beispiele, welche die Lösungsstile/Wege aufzeigen, wurden direkt übernommen und in den PAL-Prompt Stil übertragen. Um eine gute Vergleichbarkeit zu gewährleisten, wurden äquivalente Beispiele in beiden Stilen verwendet, um die Qualität der Ergebnisse beider Algorithmen unter gleichen Bedingungen zu testen. -Beispielsweise wurden zufällig die Beispiele 3, 6 und 8 aus der Menge der Beispiele ausgewählt. -Probleme wurden sowohl mit CoT als auch mit PAL unter Verwendung dieser Kombination gelöst. -Auf diese Weise kann der Zufallsfaktor, der die Passgenauigkeit der Beispiele zum Problem beeinflusst, minimiert werden, - was die Ergebnisse vergleichbarer macht. -Auf die Beispiele und die Fragestellung folgt stets die Aufforderung, Antworten in Python zu formulieren, und zwar in dem vorgegebenen Format. +Beispielsweise wurden zufällig die CoT Beispiele 3, 6 und 8 aus der Menge der Beispiele ausgewählt. +Probleme wurden sowohl mit CoT als auch mit PAL unter Verwendung derselben zufälligen Kombination gelöst. +Auf diese Weise kann der Zufallsfaktor, der die Passgenauigkeit der Beispiele zum Problem beeinflusst, + ausgeschlossen werden, was die Ergebnisse vergleichbarer macht. +Auf die Beispiele und die Fragestellung folgt stets die Aufforderung, Antworten in Python zu formulieren mit einem Hinweis auf die Formatbeispiele. Neben CoT und PAL wurde auch die direkte Frage nach einem Ergebnis getestet, um die qualitativen Unterschiede deutlich aufzeigen zu können. +Die direkt Frage nach einem Ergebnis ist genau wie es klingt eine Einfache bitte um Antwort nach schilderung des Sachverhalts. \subsection{Mathematische Berechnungen}