Ergebnisse
This commit is contained in:
parent
a459665080
commit
e260566fd8
@ -281,15 +281,15 @@ PAL & 72,0 & 61,2 & 79,4 & 79,6 & 96,1 & 94,6 & 92,5 &
|
|||||||
\end{tabular}
|
\end{tabular}
|
||||||
}
|
}
|
||||||
\caption[Mathematik prompt ergebnisse]{
|
\caption[Mathematik prompt ergebnisse]{
|
||||||
Ergebnisqualität von verschiedenen Prompt techniken gegenüber verschiedenen Datensätzen.\\
|
Ergebnisqualität von verschiedenen Prompttechniken gegenüber verschiedenen Datensätzen.\\
|
||||||
Ausgelassen wurden dabei Ergebnisse von abweichenden LLMs.
|
Ausgelassen wurden dabei Ergebnisse von abweichenden LLMs.
|
||||||
}
|
}
|
||||||
\label{tab:math-performance}
|
\label{tab:math-performance}
|
||||||
\end{table*}
|
\end{table*}
|
||||||
|
|
||||||
In Tabelle \ref{tab:math-performance} zeigt sich, besonders durch den Unterschied zwischen GSM8K und GSM-HARD,
|
In Tabelle \ref{tab:math-performance} zeigt sich, besonders durch den Unterschied zwischen GSM8K und GSM-HARD,
|
||||||
wie groß die Schwierigkeiten von CoT und der direkten Berechnung bei mathematischen Operationen sind,
|
wie groß die Schwierigkeiten von CoT und der direkten Berechnung bei mathematischen Operationen sind.
|
||||||
gerade weil der einzige Unterschied die Größe der Zahlen ist.
|
Die wird dadurch unterstrichen das der einzige Unterschied die Größe der Zahlen ist.
|
||||||
Die direkte Berechnung fällt von ohnehin schon schlechten $19,7\%$ auf $5,0\%$ ($\Delta_{Direkt}=-74\%$).
|
Die direkte Berechnung fällt von ohnehin schon schlechten $19,7\%$ auf $5,0\%$ ($\Delta_{Direkt}=-74\%$).
|
||||||
Ähnlich verhält es sich bei der Berechnung mit CoT-Prompts, die von $65,6\%$ auf $23,1\%$ fallen ($\Delta_{CoT}=-70$).
|
Ähnlich verhält es sich bei der Berechnung mit CoT-Prompts, die von $65,6\%$ auf $23,1\%$ fallen ($\Delta_{CoT}=-70$).
|
||||||
Auch wenn die Qualität der Berechnungen für PAL fällt, geschieht dies nur von $72,0\%$ auf $61,2\%$ ($\Delta_{PAL}=-14,3\%$).
|
Auch wenn die Qualität der Berechnungen für PAL fällt, geschieht dies nur von $72,0\%$ auf $61,2\%$ ($\Delta_{PAL}=-14,3\%$).
|
||||||
@ -299,10 +299,10 @@ Auch das wesentlich bessere CoT hat immer noch einen Qualitätsunterschied von $
|
|||||||
Aber auch mit allen anderen Datensätzen sind PAL-Prompts CoT-Prompts und direkten Anfragen überlegen.
|
Aber auch mit allen anderen Datensätzen sind PAL-Prompts CoT-Prompts und direkten Anfragen überlegen.
|
||||||
|
|
||||||
Eine manuelle Analyse der Prompts zeigt, dass das Vorgehen bei CoT- und PAL-Prompts in 16 von 25 Fällen die Antworten annähernd gleich aufbaut,
|
Eine manuelle Analyse der Prompts zeigt, dass das Vorgehen bei CoT- und PAL-Prompts in 16 von 25 Fällen die Antworten annähernd gleich aufbaut,
|
||||||
was wiederum die „einfache“ mathematische Operation mit komplexeren Zahlen als Fehlerquelle aufzeigt.
|
was wiederum die „einfache“ mathematische Operation mit komplexeren Zahlen als Fehlerquelle hinweist.
|
||||||
|
|
||||||
Die Ergebnisqualität kann weiter gesteigert werden,
|
Die Ergebnisqualität kann weiter gesteigert werden,
|
||||||
wenn man über die Mehrheitsentscheidung geht und eine Aufgabe mit unterschiedlichen Beispielen im Prompt löst und dann die mehrheitlich erhaltenen Ergebnisse nutzt.
|
wenn man die Qualität des Ergebnisses über einen Mehrheitsentscheidung gegenüber Fehlern stabilisiert.
|
||||||
Die Ergebnisse von PAL steigen von $72,0\%$ auf $80,4\%$ ($\Delta_{PAL-M}=11\%$),
|
Die Ergebnisse von PAL steigen von $72,0\%$ auf $80,4\%$ ($\Delta_{PAL-M}=11\%$),
|
||||||
die von CoT von $65,6\%$ auf $78,4\%$ ($\Delta_{CoT-M}=19\%$).
|
die von CoT von $65,6\%$ auf $78,4\%$ ($\Delta_{CoT-M}=19\%$).
|
||||||
Die Qualitätsverbesserung durch Mehrheitsentscheidungen ist zwar für PAL nicht so stark wie für CoT,
|
Die Qualitätsverbesserung durch Mehrheitsentscheidungen ist zwar für PAL nicht so stark wie für CoT,
|
||||||
@ -312,7 +312,7 @@ Die Experimente zum Mehrheitsentscheid wurden nur auf GSM8K durchgeführt.
|
|||||||
\subsection{Ergebnisse der Aufgaben zum Abstrakten Denken \& Algorithmen}
|
\subsection{Ergebnisse der Aufgaben zum Abstrakten Denken \& Algorithmen}
|
||||||
|
|
||||||
Die Ergebnisse zum abstrakten Denken und zu Algorithmen können in Tabelle \ref{tab:algo-performance} gefunden werden.
|
Die Ergebnisse zum abstrakten Denken und zu Algorithmen können in Tabelle \ref{tab:algo-performance} gefunden werden.
|
||||||
Auch hier wurden die Ergebnisse, die nicht mit dem Codex-Modell „code-davinci-002“ berechnet wurden, ausgelassen.
|
Auch hier wurden die Ergebnisse, die nicht mit dem Codex-Modell \DavinciCode berechnet wurden, ausgelassen.
|
||||||
|
|
||||||
So steigt das Lösen von Positionsaufgaben in Objektfolgen um $8,8\%$ (COLORED OBJECT).
|
So steigt das Lösen von Positionsaufgaben in Objektfolgen um $8,8\%$ (COLORED OBJECT).
|
||||||
Aussagen über tabellierte Daten steigen in ihrer Qualität um $14\%$ am Beispiel der Pinguin-Daten.
|
Aussagen über tabellierte Daten steigen in ihrer Qualität um $14\%$ am Beispiel der Pinguin-Daten.
|
||||||
@ -321,10 +321,10 @@ Das Zählen von Objekten, welches bei der direkten Verwendung von LLMs besonders
|
|||||||
erreicht mit PAL eine Erfolgsrate von $96,7\%$. CoT erreicht hier immerhin $73\%$.
|
erreicht mit PAL eine Erfolgsrate von $96,7\%$. CoT erreicht hier immerhin $73\%$.
|
||||||
|
|
||||||
Auch hier sind wieder deutliche Qualitätssteigerungen zu erkennen.
|
Auch hier sind wieder deutliche Qualitätssteigerungen zu erkennen.
|
||||||
Dabei ist wichtig zu erwähnen, dass die Ergebnisqualität bei bis zu 26 Ergebnissen bei PAL-Prompts stabil ist und bei CoT-Prompts annähernd stetig abnimmt.
|
Dabei ist wichtig zu erwähnen, dass die Ergebnisqualität beim Handeln von mehren Objekten bei PAL-Prompts stabil ist und bei CoT-Prompts annähernd stetig abnimmt.
|
||||||
Auch hier wird, wie bei den mathematischen Aufgaben, gezeigt, dass der Umgang mit mehr Datenpunkten für PAL wesentlich einfacher ist als für CoT.
|
Auch hier wird, wie bei den mathematischen Aufgaben, gezeigt, dass der Umgang mit mehr Datenpunkten für PAL wesentlich einfacher ist als für CoT.
|
||||||
Dieses Verhalten findet sich in allen Ergebnissen wieder.
|
Dieses Verhalten findet sich in allen Ergebnissen wieder.
|
||||||
Die Stabilität von PAL gegenüber einer gesteigerten Komplexität ist wesentlich höher.
|
Die Stabilität von PAL ist auch hier messbar höher, insbesondere bei gesteigerter Komplexität.
|
||||||
|
|
||||||
\begin{table}[H]
|
\begin{table}[H]
|
||||||
\centering
|
\centering
|
||||||
|
Loading…
x
Reference in New Issue
Block a user