diff --git a/pal-vorstellung.tex b/pal-vorstellung.tex index 3e59a03..aeffe17 100644 --- a/pal-vorstellung.tex +++ b/pal-vorstellung.tex @@ -281,15 +281,15 @@ PAL & 72,0 & 61,2 & 79,4 & 79,6 & 96,1 & 94,6 & 92,5 & \end{tabular} } \caption[Mathematik prompt ergebnisse]{ - Ergebnisqualität von verschiedenen Prompt techniken gegenüber verschiedenen Datensätzen.\\ + Ergebnisqualität von verschiedenen Prompttechniken gegenüber verschiedenen Datensätzen.\\ Ausgelassen wurden dabei Ergebnisse von abweichenden LLMs. } \label{tab:math-performance} \end{table*} In Tabelle \ref{tab:math-performance} zeigt sich, besonders durch den Unterschied zwischen GSM8K und GSM-HARD, - wie groß die Schwierigkeiten von CoT und der direkten Berechnung bei mathematischen Operationen sind, - gerade weil der einzige Unterschied die Größe der Zahlen ist. + wie groß die Schwierigkeiten von CoT und der direkten Berechnung bei mathematischen Operationen sind. +Die wird dadurch unterstrichen das der einzige Unterschied die Größe der Zahlen ist. Die direkte Berechnung fällt von ohnehin schon schlechten $19,7\%$ auf $5,0\%$ ($\Delta_{Direkt}=-74\%$). Ähnlich verhält es sich bei der Berechnung mit CoT-Prompts, die von $65,6\%$ auf $23,1\%$ fallen ($\Delta_{CoT}=-70$). Auch wenn die Qualität der Berechnungen für PAL fällt, geschieht dies nur von $72,0\%$ auf $61,2\%$ ($\Delta_{PAL}=-14,3\%$). @@ -299,10 +299,10 @@ Auch das wesentlich bessere CoT hat immer noch einen Qualitätsunterschied von $ Aber auch mit allen anderen Datensätzen sind PAL-Prompts CoT-Prompts und direkten Anfragen überlegen. Eine manuelle Analyse der Prompts zeigt, dass das Vorgehen bei CoT- und PAL-Prompts in 16 von 25 Fällen die Antworten annähernd gleich aufbaut, - was wiederum die „einfache“ mathematische Operation mit komplexeren Zahlen als Fehlerquelle aufzeigt. + was wiederum die „einfache“ mathematische Operation mit komplexeren Zahlen als Fehlerquelle hinweist. Die Ergebnisqualität kann weiter gesteigert werden, - wenn man über die Mehrheitsentscheidung geht und eine Aufgabe mit unterschiedlichen Beispielen im Prompt löst und dann die mehrheitlich erhaltenen Ergebnisse nutzt. + wenn man die Qualität des Ergebnisses über einen Mehrheitsentscheidung gegenüber Fehlern stabilisiert. Die Ergebnisse von PAL steigen von $72,0\%$ auf $80,4\%$ ($\Delta_{PAL-M}=11\%$), die von CoT von $65,6\%$ auf $78,4\%$ ($\Delta_{CoT-M}=19\%$). Die Qualitätsverbesserung durch Mehrheitsentscheidungen ist zwar für PAL nicht so stark wie für CoT, @@ -312,7 +312,7 @@ Die Experimente zum Mehrheitsentscheid wurden nur auf GSM8K durchgeführt. \subsection{Ergebnisse der Aufgaben zum Abstrakten Denken \& Algorithmen} Die Ergebnisse zum abstrakten Denken und zu Algorithmen können in Tabelle \ref{tab:algo-performance} gefunden werden. -Auch hier wurden die Ergebnisse, die nicht mit dem Codex-Modell „code-davinci-002“ berechnet wurden, ausgelassen. +Auch hier wurden die Ergebnisse, die nicht mit dem Codex-Modell \DavinciCode berechnet wurden, ausgelassen. So steigt das Lösen von Positionsaufgaben in Objektfolgen um $8,8\%$ (COLORED OBJECT). Aussagen über tabellierte Daten steigen in ihrer Qualität um $14\%$ am Beispiel der Pinguin-Daten. @@ -321,10 +321,10 @@ Das Zählen von Objekten, welches bei der direkten Verwendung von LLMs besonders erreicht mit PAL eine Erfolgsrate von $96,7\%$. CoT erreicht hier immerhin $73\%$. Auch hier sind wieder deutliche Qualitätssteigerungen zu erkennen. -Dabei ist wichtig zu erwähnen, dass die Ergebnisqualität bei bis zu 26 Ergebnissen bei PAL-Prompts stabil ist und bei CoT-Prompts annähernd stetig abnimmt. +Dabei ist wichtig zu erwähnen, dass die Ergebnisqualität beim Handeln von mehren Objekten bei PAL-Prompts stabil ist und bei CoT-Prompts annähernd stetig abnimmt. Auch hier wird, wie bei den mathematischen Aufgaben, gezeigt, dass der Umgang mit mehr Datenpunkten für PAL wesentlich einfacher ist als für CoT. Dieses Verhalten findet sich in allen Ergebnissen wieder. -Die Stabilität von PAL gegenüber einer gesteigerten Komplexität ist wesentlich höher. +Die Stabilität von PAL ist auch hier messbar höher, insbesondere bei gesteigerter Komplexität. \begin{table}[H] \centering