diff --git a/pal-vorstellung.tex b/pal-vorstellung.tex index 4f6a6b7..3e59a03 100644 --- a/pal-vorstellung.tex +++ b/pal-vorstellung.tex @@ -188,17 +188,18 @@ Zur Evaluation des KI-Modells wurden mathematische Aufgaben aus acht Datensätze Die Experimente zeigten, dass Kommentare und lange Beschreibungen zwischen den Codezeilen die Ergebnisse nicht verbessern. Daher sind die Beispiele recht schlicht gehalten. -In Codebeispiel \ref{list:math-prompt-example} ist ein Beispiel aus dem PAL-Repository, welches zeigt, wie ein solcher mathematischer Prompt aussehen kann. +Codebeispiel \ref{list:math-prompt-example} ist ein Beispiel aus dem PAL-Repository, welches zeigt, + wie ein solches Lösungsbeispiel für einen mathematischen Prompt aussehen kann. Das Beispiel wurde dabei nicht übersetzt, da unklar ist, inwiefern eine Übersetzung die Qualität von generiertem Code schwächt, besonders da Code im Wesentlichen in Englisch geschrieben wird. Um die mathematischen Anteile von den Lösungsansätzen zu unterscheiden, wurde einer der Datensätze (GSM8K) editiert und die Zahlen durch große Zahlen ersetzt, - bei denen die Ergebnisse von mathematischen Operationen nicht aus dem Gedächtnis kommen, sondern gerechnet werden müssen. + bei denen die Ergebnisse von mathematischen Operationen nicht aus dem Gedächtnis kommen können, sondern definitiv gerechnet werden müssen. Dies ermöglicht einen guten Vergleich, wie gut oder schlecht die Lösungsansätze im Gegensatz zur direkten Mathematik sind. -Es schließt nahezu aus, dass die korrekten Ergebnisse einfach geraten werden. -Dieser so editierte Datensatz wird als GSM-HARD bezeichnet. +Es wird so ausgeschlossen, dass die korrekten Ergebnisse einfach geraten werden. +Dieser so editierte Datensatz wird als GSM-HARD bezeichnet und ist über Huggingface frei verfügbar. \begin{lstlisting}[language=Python, caption=Prompt Beispiel für mathematische Probleme, label=list:math-prompt-example] (*@\textbf{Q: Olivia has \$23. She bought five bagels for \$3 each. How much money does she have left?}@*) @@ -224,7 +225,7 @@ Welche Farbe hat das Tier unter dem Hund?" Des Weiteren wurden Aufgaben zu versc Im Beispiel gibt es tabellarische Daten über Pinguine, die nach Attributen gefiltert und anschließend gezählt werden müssen. Dies wird anhand eines Beispieldatensatzes über Pinguine demonstriert. Zuletzt wurden Probleme bezüglich des Verständnisses von Datum und Zeitabständen behandelt, wie zum Beispiel: "Peters Reise sollte 5 Stunden dauern. -Er hat aber doppelt so lange gebraucht wie geplant. Wenn er um 23 Uhr angekommen ist, wann ist er losgefahren?" +Er hat aber doppelt so lange gebraucht wie geplant. Wenn er um 23 Uhr angekommen ist, wann wollte er ankommen?" Für alle drei Problemstellungen gibt es jeweils separate Prompts im Stil von Codebeispiel \ref{list:math-prompt-example}. @@ -233,7 +234,7 @@ Für alle drei Problemstellungen gibt es jeweils separate Prompts im Stil von Co Hier wird sich mit dem Lösen von deterministischen Aufgabenstellungen auseinandergesetzt, nicht mit allgemeinen, sondern mit spezifischen Fragestellungen wie dem kategorischen Zählen von Objekten oder dem Erstellen von Sequenzen nach Anweisungen. -Codebeispiel \ref{list:obj-count} zeigt, wie ein mögliches Beispiel für einen Zählerprompt aussehen kann. +Codebeispiel \ref{list:obj-count} zeigt, wie ein mögliches Beispiel für einen Zähler-Prompt aussehen kann. \begin{lstlisting}[language=Python, caption=Prompt Beispiel zum Zählen von Objekten, label=list:obj-count] (*@\textbf{Q: I have a chair, two potatoes, a cauliflower, a lettuce head, two tables, a @@ -257,7 +258,7 @@ def soloution() \end{lstlisting} Als Standard-LLM für die Experimente welche PAL quantifizieren wurde das CODEX LLM model \DavinciCode genutzt. -Experimente mit andern modellen wurden der einfachheit halber aus dieser Vorstellung herausgenommen. +Experimente mit andern Modellen wurden der einfachheit halber aus dieser Vorstellung herausgenommen. \section{Ergebnisse}