Eine Menge an Text wird hinzugefügt.
Some checks failed
Latex Build / LatexBuild (push) Failing after 13m35s
Some checks failed
Latex Build / LatexBuild (push) Failing after 13m35s
This commit is contained in:
@ -255,16 +255,28 @@ PAL & 72,0 & 61,2 & 79,4 & 79,6 & 96,1 & 94,6 & 92,5 &
|
||||
\label{tab:math-performance}
|
||||
\end{table*}
|
||||
|
||||
In Tabelle \ref{tab:math-performance} zeigt sich im Besonderen durch dem Unterschied von GSM-8 und GSM-HARD
|
||||
In Tabelle \ref{tab:math-performance} zeigt sich im Besonderen durch dem Unterschied von GSM8K und GSM-HARD
|
||||
wie groß die Schwierigkeiten von CoT und der und der Direkten berechnung in den Mathematischen operation ist.
|
||||
Gerade weil der einzige Unterschied die Größe der Zahlen ist.
|
||||
Die direkte Berechnung fällt von sowieso schon schlechten $19,7\%$ auf $5,0\%$ ($\Delta_{Direkt}=-74\%$).
|
||||
Ähnlich sieht es für die Berechnung mit CoT Prompts aus. Diese fallen von $65,6\%$ auf $23,1\%$ ($\Delta_{CoT}=-70\%$).
|
||||
Auch wenn die Qualität der Berechnungen für PAl fällt, tut sie es nur von $72,0\%$ auf $61,2\%$ ($\Delta_{PAL}=-14,3\%$).
|
||||
Das sehr viel Robustere verhalten gegenüber Komplexen Rechenoperationen macht sich mit einem Qualitätsunterschied von $1224\%$ zwischen der Direktberechnung und PAL bemerkbar.
|
||||
Das sehr viel Robustere verhalten gegenüber Komplexen Rechenoperationen macht sich mit einem Qualitätsunterschied von
|
||||
$1224\%$ zwischen der Direktberechnung und PAL bemerkbar.
|
||||
Auch das wesentlich bessere CoT hat immer noch einen Qualitätsunterschied $264\%$ zu PAL unter GSM-HARD.
|
||||
Aber auch mit allen anderen Datensätzen sind PAL Prompts CoT Prompts und direkten Anfragen überlegen.
|
||||
|
||||
\subsection{Ergebnisse der Aufgaben zum Abstrakten Denken}
|
||||
Eine manuelle Analyze der Prompts zeigt das das Vorgehen bei CoT und PAL Prompts in 16 aus 25 Fällen die Antworten annähernd gleich aufbaut.
|
||||
Welches wieder die "einfache" Mathematische Operation mit komplexeren Zahlen als Fehlerquelle aufzeigt.
|
||||
|
||||
Die Ergebnisqualität kann weiter gesteigert werden wenn man über die Majority geht und eine Aufgabe mit unterschiedlichen
|
||||
Beispielen im Prompt löst und dann die Mehrheitlich erhaltenen ergebnisse nutzt.
|
||||
Die Ergebnisse von PAL steigen von $72,0$ auf $80,4\%$ ($\Delta_{PAL-M}=11\%$) $65,6$ auf $78,4\%$ ($\Delta_{CoT-M}=19\%$).
|
||||
Die Qualitätsverbesserung durch Mehrheitsentscheide ist zwar für PAL nicht so stark wie für CoT.
|
||||
Dies ist allein schon durch das schon geringe Verbesserungspotenzial und den geringeren Zufallsanteil bei berechnungen via PAL zu erklären.
|
||||
Die Experimente zum Mehrheitsentscheid wurden nur auf GSM8K durchgeführt.
|
||||
|
||||
\subsection{Ergebnisse der Aufgaben zum Abstrakten Denken & Algorithmen}
|
||||
|
||||
\begin{table}[H]
|
||||
\centering
|
||||
@ -286,7 +298,7 @@ PAL & 95,1 & 93,3 & 76,2 & 90,6 & 96,7 \\
|
||||
\label{tab:algo-performance}
|
||||
\end{table}
|
||||
|
||||
\subsection{Ergebnisse zu Algorithmischen Aufgaben}
|
||||
\subsection{}
|
||||
|
||||
|
||||
|
||||
|
Reference in New Issue
Block a user