From 29b5404a6fd01368bad4d80229a6c34ec3ad2655 Mon Sep 17 00:00:00 2001 From: Philipp Horstenkamp Date: Sat, 9 Dec 2023 18:50:59 +0100 Subject: [PATCH] =?UTF-8?q?Eine=20Menge=20an=20Text=20wird=20hinzugef?= =?UTF-8?q?=C3=BCgt.?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- pal-vorstellung.tex | 20 ++++++++++++++++---- 1 file changed, 16 insertions(+), 4 deletions(-) diff --git a/pal-vorstellung.tex b/pal-vorstellung.tex index 18d42c0..bbed490 100644 --- a/pal-vorstellung.tex +++ b/pal-vorstellung.tex @@ -255,16 +255,28 @@ PAL & 72,0 & 61,2 & 79,4 & 79,6 & 96,1 & 94,6 & 92,5 & \label{tab:math-performance} \end{table*} -In Tabelle \ref{tab:math-performance} zeigt sich im Besonderen durch dem Unterschied von GSM-8 und GSM-HARD +In Tabelle \ref{tab:math-performance} zeigt sich im Besonderen durch dem Unterschied von GSM8K und GSM-HARD wie groß die Schwierigkeiten von CoT und der und der Direkten berechnung in den Mathematischen operation ist. Gerade weil der einzige Unterschied die Größe der Zahlen ist. Die direkte Berechnung fällt von sowieso schon schlechten $19,7\%$ auf $5,0\%$ ($\Delta_{Direkt}=-74\%$). Ähnlich sieht es für die Berechnung mit CoT Prompts aus. Diese fallen von $65,6\%$ auf $23,1\%$ ($\Delta_{CoT}=-70\%$). Auch wenn die Qualität der Berechnungen für PAl fällt, tut sie es nur von $72,0\%$ auf $61,2\%$ ($\Delta_{PAL}=-14,3\%$). -Das sehr viel Robustere verhalten gegenüber Komplexen Rechenoperationen macht sich mit einem Qualitätsunterschied von $1224\%$ zwischen der Direktberechnung und PAL bemerkbar. +Das sehr viel Robustere verhalten gegenüber Komplexen Rechenoperationen macht sich mit einem Qualitätsunterschied von + $1224\%$ zwischen der Direktberechnung und PAL bemerkbar. Auch das wesentlich bessere CoT hat immer noch einen Qualitätsunterschied $264\%$ zu PAL unter GSM-HARD. +Aber auch mit allen anderen Datensätzen sind PAL Prompts CoT Prompts und direkten Anfragen überlegen. -\subsection{Ergebnisse der Aufgaben zum Abstrakten Denken} +Eine manuelle Analyze der Prompts zeigt das das Vorgehen bei CoT und PAL Prompts in 16 aus 25 Fällen die Antworten annähernd gleich aufbaut. +Welches wieder die "einfache" Mathematische Operation mit komplexeren Zahlen als Fehlerquelle aufzeigt. + +Die Ergebnisqualität kann weiter gesteigert werden wenn man über die Majority geht und eine Aufgabe mit unterschiedlichen + Beispielen im Prompt löst und dann die Mehrheitlich erhaltenen ergebnisse nutzt. +Die Ergebnisse von PAL steigen von $72,0$ auf $80,4\%$ ($\Delta_{PAL-M}=11\%$) $65,6$ auf $78,4\%$ ($\Delta_{CoT-M}=19\%$). +Die Qualitätsverbesserung durch Mehrheitsentscheide ist zwar für PAL nicht so stark wie für CoT. +Dies ist allein schon durch das schon geringe Verbesserungspotenzial und den geringeren Zufallsanteil bei berechnungen via PAL zu erklären. +Die Experimente zum Mehrheitsentscheid wurden nur auf GSM8K durchgeführt. + +\subsection{Ergebnisse der Aufgaben zum Abstrakten Denken & Algorithmen} \begin{table}[H] \centering @@ -286,7 +298,7 @@ PAL & 95,1 & 93,3 & 76,2 & 90,6 & 96,7 \\ \label{tab:algo-performance} \end{table} -\subsection{Ergebnisse zu Algorithmischen Aufgaben} +\subsection{}