Reworked the Experimente - Math + Algorithm + Abstract

Again!
This commit is contained in:
Philipp Horstenkamp 2023-12-10 18:14:00 +01:00
parent 4dac38190e
commit a459665080
Signed by: Philipp
GPG Key ID: DD53EAC36AFB61B4

View File

@ -188,17 +188,18 @@ Zur Evaluation des KI-Modells wurden mathematische Aufgaben aus acht Datensätze
Die Experimente zeigten, dass Kommentare und lange Beschreibungen zwischen den Codezeilen die Ergebnisse nicht verbessern. Die Experimente zeigten, dass Kommentare und lange Beschreibungen zwischen den Codezeilen die Ergebnisse nicht verbessern.
Daher sind die Beispiele recht schlicht gehalten. Daher sind die Beispiele recht schlicht gehalten.
In Codebeispiel \ref{list:math-prompt-example} ist ein Beispiel aus dem PAL-Repository, welches zeigt, wie ein solcher mathematischer Prompt aussehen kann. Codebeispiel \ref{list:math-prompt-example} ist ein Beispiel aus dem PAL-Repository, welches zeigt,
wie ein solches Lösungsbeispiel für einen mathematischen Prompt aussehen kann.
Das Beispiel wurde dabei nicht übersetzt, da unklar ist, Das Beispiel wurde dabei nicht übersetzt, da unklar ist,
inwiefern eine Übersetzung die Qualität von generiertem Code schwächt, inwiefern eine Übersetzung die Qualität von generiertem Code schwächt,
besonders da Code im Wesentlichen in Englisch geschrieben wird. besonders da Code im Wesentlichen in Englisch geschrieben wird.
Um die mathematischen Anteile von den Lösungsansätzen zu unterscheiden, Um die mathematischen Anteile von den Lösungsansätzen zu unterscheiden,
wurde einer der Datensätze (GSM8K) editiert und die Zahlen durch große Zahlen ersetzt, wurde einer der Datensätze (GSM8K) editiert und die Zahlen durch große Zahlen ersetzt,
bei denen die Ergebnisse von mathematischen Operationen nicht aus dem Gedächtnis kommen, sondern gerechnet werden müssen. bei denen die Ergebnisse von mathematischen Operationen nicht aus dem Gedächtnis kommen können, sondern definitiv gerechnet werden müssen.
Dies ermöglicht einen guten Vergleich, wie gut oder schlecht die Lösungsansätze im Gegensatz zur direkten Mathematik sind. Dies ermöglicht einen guten Vergleich, wie gut oder schlecht die Lösungsansätze im Gegensatz zur direkten Mathematik sind.
Es schließt nahezu aus, dass die korrekten Ergebnisse einfach geraten werden. Es wird so ausgeschlossen, dass die korrekten Ergebnisse einfach geraten werden.
Dieser so editierte Datensatz wird als GSM-HARD bezeichnet. Dieser so editierte Datensatz wird als GSM-HARD bezeichnet und ist über Huggingface frei verfügbar.
\begin{lstlisting}[language=Python, caption=Prompt Beispiel für mathematische Probleme, label=list:math-prompt-example] \begin{lstlisting}[language=Python, caption=Prompt Beispiel für mathematische Probleme, label=list:math-prompt-example]
(*@\textbf{Q: Olivia has \$23. She bought five bagels for \$3 each. How much money does she have left?}@*) (*@\textbf{Q: Olivia has \$23. She bought five bagels for \$3 each. How much money does she have left?}@*)
@ -224,7 +225,7 @@ Welche Farbe hat das Tier unter dem Hund?" Des Weiteren wurden Aufgaben zu versc
Im Beispiel gibt es tabellarische Daten über Pinguine, die nach Attributen gefiltert und anschließend gezählt werden müssen. Im Beispiel gibt es tabellarische Daten über Pinguine, die nach Attributen gefiltert und anschließend gezählt werden müssen.
Dies wird anhand eines Beispieldatensatzes über Pinguine demonstriert. Dies wird anhand eines Beispieldatensatzes über Pinguine demonstriert.
Zuletzt wurden Probleme bezüglich des Verständnisses von Datum und Zeitabständen behandelt, wie zum Beispiel: "Peters Reise sollte 5 Stunden dauern. Zuletzt wurden Probleme bezüglich des Verständnisses von Datum und Zeitabständen behandelt, wie zum Beispiel: "Peters Reise sollte 5 Stunden dauern.
Er hat aber doppelt so lange gebraucht wie geplant. Wenn er um 23 Uhr angekommen ist, wann ist er losgefahren?" Er hat aber doppelt so lange gebraucht wie geplant. Wenn er um 23 Uhr angekommen ist, wann wollte er ankommen?"
Für alle drei Problemstellungen gibt es jeweils separate Prompts im Stil von Codebeispiel \ref{list:math-prompt-example}. Für alle drei Problemstellungen gibt es jeweils separate Prompts im Stil von Codebeispiel \ref{list:math-prompt-example}.
@ -233,7 +234,7 @@ Für alle drei Problemstellungen gibt es jeweils separate Prompts im Stil von Co
Hier wird sich mit dem Lösen von deterministischen Aufgabenstellungen auseinandergesetzt, nicht mit allgemeinen, Hier wird sich mit dem Lösen von deterministischen Aufgabenstellungen auseinandergesetzt, nicht mit allgemeinen,
sondern mit spezifischen Fragestellungen wie dem kategorischen Zählen von Objekten oder dem Erstellen von Sequenzen nach Anweisungen. sondern mit spezifischen Fragestellungen wie dem kategorischen Zählen von Objekten oder dem Erstellen von Sequenzen nach Anweisungen.
Codebeispiel \ref{list:obj-count} zeigt, wie ein mögliches Beispiel für einen Zählerprompt aussehen kann. Codebeispiel \ref{list:obj-count} zeigt, wie ein mögliches Beispiel für einen Zähler-Prompt aussehen kann.
\begin{lstlisting}[language=Python, caption=Prompt Beispiel zum Zählen von Objekten, label=list:obj-count] \begin{lstlisting}[language=Python, caption=Prompt Beispiel zum Zählen von Objekten, label=list:obj-count]
(*@\textbf{Q: I have a chair, two potatoes, a cauliflower, a lettuce head, two tables, a (*@\textbf{Q: I have a chair, two potatoes, a cauliflower, a lettuce head, two tables, a
@ -257,7 +258,7 @@ def soloution()
\end{lstlisting} \end{lstlisting}
Als Standard-LLM für die Experimente welche PAL quantifizieren wurde das CODEX LLM model \DavinciCode genutzt. Als Standard-LLM für die Experimente welche PAL quantifizieren wurde das CODEX LLM model \DavinciCode genutzt.
Experimente mit andern modellen wurden der einfachheit halber aus dieser Vorstellung herausgenommen. Experimente mit andern Modellen wurden der einfachheit halber aus dieser Vorstellung herausgenommen.
\section{Ergebnisse} \section{Ergebnisse}