Ergebnisse

This commit is contained in:
Philipp Horstenkamp 2023-12-10 18:14:37 +01:00
parent a459665080
commit e260566fd8
Signed by: Philipp
GPG Key ID: DD53EAC36AFB61B4

View File

@ -288,8 +288,8 @@ PAL & 72,0 & 61,2 & 79,4 & 79,6 & 96,1 & 94,6 & 92,5 &
\end{table*} \end{table*}
In Tabelle \ref{tab:math-performance} zeigt sich, besonders durch den Unterschied zwischen GSM8K und GSM-HARD, In Tabelle \ref{tab:math-performance} zeigt sich, besonders durch den Unterschied zwischen GSM8K und GSM-HARD,
wie groß die Schwierigkeiten von CoT und der direkten Berechnung bei mathematischen Operationen sind, wie groß die Schwierigkeiten von CoT und der direkten Berechnung bei mathematischen Operationen sind.
gerade weil der einzige Unterschied die Größe der Zahlen ist. Die wird dadurch unterstrichen das der einzige Unterschied die Größe der Zahlen ist.
Die direkte Berechnung fällt von ohnehin schon schlechten $19,7\%$ auf $5,0\%$ ($\Delta_{Direkt}=-74\%$). Die direkte Berechnung fällt von ohnehin schon schlechten $19,7\%$ auf $5,0\%$ ($\Delta_{Direkt}=-74\%$).
Ähnlich verhält es sich bei der Berechnung mit CoT-Prompts, die von $65,6\%$ auf $23,1\%$ fallen ($\Delta_{CoT}=-70$). Ähnlich verhält es sich bei der Berechnung mit CoT-Prompts, die von $65,6\%$ auf $23,1\%$ fallen ($\Delta_{CoT}=-70$).
Auch wenn die Qualität der Berechnungen für PAL fällt, geschieht dies nur von $72,0\%$ auf $61,2\%$ ($\Delta_{PAL}=-14,3\%$). Auch wenn die Qualität der Berechnungen für PAL fällt, geschieht dies nur von $72,0\%$ auf $61,2\%$ ($\Delta_{PAL}=-14,3\%$).
@ -299,10 +299,10 @@ Auch das wesentlich bessere CoT hat immer noch einen Qualitätsunterschied von $
Aber auch mit allen anderen Datensätzen sind PAL-Prompts CoT-Prompts und direkten Anfragen überlegen. Aber auch mit allen anderen Datensätzen sind PAL-Prompts CoT-Prompts und direkten Anfragen überlegen.
Eine manuelle Analyse der Prompts zeigt, dass das Vorgehen bei CoT- und PAL-Prompts in 16 von 25 Fällen die Antworten annähernd gleich aufbaut, Eine manuelle Analyse der Prompts zeigt, dass das Vorgehen bei CoT- und PAL-Prompts in 16 von 25 Fällen die Antworten annähernd gleich aufbaut,
was wiederum die „einfache“ mathematische Operation mit komplexeren Zahlen als Fehlerquelle aufzeigt. was wiederum die „einfache“ mathematische Operation mit komplexeren Zahlen als Fehlerquelle hinweist.
Die Ergebnisqualität kann weiter gesteigert werden, Die Ergebnisqualität kann weiter gesteigert werden,
wenn man über die Mehrheitsentscheidung geht und eine Aufgabe mit unterschiedlichen Beispielen im Prompt löst und dann die mehrheitlich erhaltenen Ergebnisse nutzt. wenn man die Qualität des Ergebnisses über einen Mehrheitsentscheidung gegenüber Fehlern stabilisiert.
Die Ergebnisse von PAL steigen von $72,0\%$ auf $80,4\%$ ($\Delta_{PAL-M}=11\%$), Die Ergebnisse von PAL steigen von $72,0\%$ auf $80,4\%$ ($\Delta_{PAL-M}=11\%$),
die von CoT von $65,6\%$ auf $78,4\%$ ($\Delta_{CoT-M}=19\%$). die von CoT von $65,6\%$ auf $78,4\%$ ($\Delta_{CoT-M}=19\%$).
Die Qualitätsverbesserung durch Mehrheitsentscheidungen ist zwar für PAL nicht so stark wie für CoT, Die Qualitätsverbesserung durch Mehrheitsentscheidungen ist zwar für PAL nicht so stark wie für CoT,
@ -312,7 +312,7 @@ Die Experimente zum Mehrheitsentscheid wurden nur auf GSM8K durchgeführt.
\subsection{Ergebnisse der Aufgaben zum Abstrakten Denken \& Algorithmen} \subsection{Ergebnisse der Aufgaben zum Abstrakten Denken \& Algorithmen}
Die Ergebnisse zum abstrakten Denken und zu Algorithmen können in Tabelle \ref{tab:algo-performance} gefunden werden. Die Ergebnisse zum abstrakten Denken und zu Algorithmen können in Tabelle \ref{tab:algo-performance} gefunden werden.
Auch hier wurden die Ergebnisse, die nicht mit dem Codex-Modell „code-davinci-002“ berechnet wurden, ausgelassen. Auch hier wurden die Ergebnisse, die nicht mit dem Codex-Modell \DavinciCode berechnet wurden, ausgelassen.
So steigt das Lösen von Positionsaufgaben in Objektfolgen um $8,8\%$ (COLORED OBJECT). So steigt das Lösen von Positionsaufgaben in Objektfolgen um $8,8\%$ (COLORED OBJECT).
Aussagen über tabellierte Daten steigen in ihrer Qualität um $14\%$ am Beispiel der Pinguin-Daten. Aussagen über tabellierte Daten steigen in ihrer Qualität um $14\%$ am Beispiel der Pinguin-Daten.
@ -321,10 +321,10 @@ Das Zählen von Objekten, welches bei der direkten Verwendung von LLMs besonders
erreicht mit PAL eine Erfolgsrate von $96,7\%$. CoT erreicht hier immerhin $73\%$. erreicht mit PAL eine Erfolgsrate von $96,7\%$. CoT erreicht hier immerhin $73\%$.
Auch hier sind wieder deutliche Qualitätssteigerungen zu erkennen. Auch hier sind wieder deutliche Qualitätssteigerungen zu erkennen.
Dabei ist wichtig zu erwähnen, dass die Ergebnisqualität bei bis zu 26 Ergebnissen bei PAL-Prompts stabil ist und bei CoT-Prompts annähernd stetig abnimmt. Dabei ist wichtig zu erwähnen, dass die Ergebnisqualität beim Handeln von mehren Objekten bei PAL-Prompts stabil ist und bei CoT-Prompts annähernd stetig abnimmt.
Auch hier wird, wie bei den mathematischen Aufgaben, gezeigt, dass der Umgang mit mehr Datenpunkten für PAL wesentlich einfacher ist als für CoT. Auch hier wird, wie bei den mathematischen Aufgaben, gezeigt, dass der Umgang mit mehr Datenpunkten für PAL wesentlich einfacher ist als für CoT.
Dieses Verhalten findet sich in allen Ergebnissen wieder. Dieses Verhalten findet sich in allen Ergebnissen wieder.
Die Stabilität von PAL gegenüber einer gesteigerten Komplexität ist wesentlich höher. Die Stabilität von PAL ist auch hier messbar höher, insbesondere bei gesteigerter Komplexität.
\begin{table}[H] \begin{table}[H]
\centering \centering