Eine Menge an Text wird hinzugefügt.

2023-12-09 18:50:59 +01:00
parent 72b301a2bd
commit 29b5404a6f
1 changed files with 16 additions and 4 deletions
--- a/pal-vorstellung.tex
+++ b/pal-vorstellung.tex
@@ -255,16 +255,28 @@ PAL       & 72,0    & 61,2      & 79,4  & 79,6  & 96,1     & 94,6     & 92,5   &
 \label{tab:math-performance}
 \end{table*}

-In Tabelle \ref{tab:math-performance} zeigt sich im Besonderen durch dem Unterschied von GSM-8 und GSM-HARD
+In Tabelle \ref{tab:math-performance} zeigt sich im Besonderen durch dem Unterschied von GSM8K und GSM-HARD
 wie groß die Schwierigkeiten von CoT und der und der Direkten berechnung in den Mathematischen operation ist.
 Gerade weil der einzige Unterschied die Größe der Zahlen ist.
 Die direkte Berechnung fällt von sowieso schon schlechten $19,7\%$ auf $5,0\%$ ($\Delta_{Direkt}=-74\%$).
 Ähnlich sieht es für die Berechnung mit CoT Prompts aus. Diese fallen von $65,6\%$ auf $23,1\%$ ($\Delta_{CoT}=-70\%$).
 Auch wenn die Qualität der Berechnungen für PAl fällt, tut sie es nur von $72,0\%$ auf $61,2\%$ ($\Delta_{PAL}=-14,3\%$).
-Das sehr viel Robustere verhalten gegenüber Komplexen Rechenoperationen macht sich mit einem Qualitätsunterschied von $1224\%$ zwischen der Direktberechnung und PAL bemerkbar.
+Das sehr viel Robustere verhalten gegenüber Komplexen Rechenoperationen macht sich mit einem Qualitätsunterschied von
+    $1224\%$ zwischen der Direktberechnung und PAL bemerkbar.
 Auch das wesentlich bessere CoT hat immer noch einen Qualitätsunterschied $264\%$ zu PAL unter GSM-HARD.
+Aber auch mit allen anderen Datensätzen sind PAL Prompts CoT Prompts und direkten Anfragen überlegen.

-\subsection{Ergebnisse der Aufgaben zum Abstrakten Denken}
+Eine manuelle Analyze der Prompts zeigt das das Vorgehen bei CoT und PAL Prompts in 16 aus 25 Fällen die Antworten annähernd gleich aufbaut.
+Welches wieder die "einfache" Mathematische Operation mit komplexeren Zahlen als Fehlerquelle aufzeigt.
+
+Die Ergebnisqualität kann weiter gesteigert werden wenn man über die Majority geht und eine Aufgabe mit unterschiedlichen
+    Beispielen im Prompt löst und dann die Mehrheitlich erhaltenen ergebnisse nutzt.
+Die Ergebnisse von PAL steigen von $72,0$ auf $80,4\%$ ($\Delta_{PAL-M}=11\%$) $65,6$ auf $78,4\%$ ($\Delta_{CoT-M}=19\%$).
+Die Qualitätsverbesserung durch Mehrheitsentscheide ist zwar für PAL nicht so stark wie für CoT.
+Dies ist allein schon durch das schon geringe Verbesserungspotenzial und den geringeren Zufallsanteil bei berechnungen via PAL zu erklären.
+Die Experimente zum Mehrheitsentscheid wurden nur auf GSM8K durchgeführt.
+
+\subsection{Ergebnisse der Aufgaben zum Abstrakten Denken & Algorithmen}

 \begin{table}[H]
 \centering
@@ -286,7 +298,7 @@ PAL     & 95,1  & 93,3  & 76,2  & 90,6  & 96,7 \\
 \label{tab:algo-performance}
 \end{table}

-\subsection{Ergebnisse zu Algorithmischen Aufgaben}
+\subsection{}