Added a first draft of the analysis.
Some checks failed
Latex Build / LatexBuild (push) Failing after 14m48s
Some checks failed
Latex Build / LatexBuild (push) Failing after 14m48s
This commit is contained in:
@ -276,7 +276,20 @@ Die Qualitätsverbesserung durch Mehrheitsentscheide ist zwar für PAL nicht so
|
|||||||
Dies ist allein schon durch das schon geringe Verbesserungspotenzial und den geringeren Zufallsanteil bei berechnungen via PAL zu erklären.
|
Dies ist allein schon durch das schon geringe Verbesserungspotenzial und den geringeren Zufallsanteil bei berechnungen via PAL zu erklären.
|
||||||
Die Experimente zum Mehrheitsentscheid wurden nur auf GSM8K durchgeführt.
|
Die Experimente zum Mehrheitsentscheid wurden nur auf GSM8K durchgeführt.
|
||||||
|
|
||||||
\subsection{Ergebnisse der Aufgaben zum Abstrakten Denken & Algorithmen}
|
\subsection{Ergebnisse der Aufgaben zum Abstrakten Denken \& Algorithmen}
|
||||||
|
|
||||||
|
Die ergebnisse zum Abstrakten Denken und Algorithmen können in \ref{tab:algo-performance} gefunden werden.
|
||||||
|
Auch hier wurden wie der ergebnisse welche nicht mit dem codex model code\babelhyphen{nobreak}davinci\babelhyphen{nobreak}002 berechnet worden sind weggelassen.
|
||||||
|
|
||||||
|
So steigt das lösen von Positionen in Objektfolgen um $8,8\%$ (COLORED OBJECT).
|
||||||
|
Aussagen über Tabulierte Daten steigen in Ihrer Qualität um $14\%$ am Beispiel der Pinguin-Daten.
|
||||||
|
|
||||||
|
Das Zählen von Objekten welches bei der Direkten Verwendung von LLMs so besonders schwer ist erreich mit PAL $96,7\%$. CoT erreicht dort Immerhin $73\%$.
|
||||||
|
|
||||||
|
Auch hier sind wieder deutliche Qualitätssteigerungen zu finden. Dabei ist wichtig zu sagend das die Ergebnisqualität
|
||||||
|
bei bis zu 26 Ergebnissen bei PLA Prompts stabil ist und bei CoT Prompts annähernd stetig abnimmt.
|
||||||
|
Auch hier wird wie bei den Mathematischen aufgaben gezeigt das der Umgang mit mehr Datenpunkte wesentlich einfacher ist als für CoT.
|
||||||
|
Dieses verhalten findet sich wohl in allen ergebnissen wieder das die Stabilität von PAL gegenüber einer gesteigerten Komplexität wesentlich höher ist.
|
||||||
|
|
||||||
\begin{table}[H]
|
\begin{table}[H]
|
||||||
\centering
|
\centering
|
||||||
@ -298,8 +311,32 @@ PAL & 95,1 & 93,3 & 76,2 & 90,6 & 96,7 \\
|
|||||||
\label{tab:algo-performance}
|
\label{tab:algo-performance}
|
||||||
\end{table}
|
\end{table}
|
||||||
|
|
||||||
\subsection{}
|
\subsection{Analyseergebnisse}
|
||||||
|
|
||||||
|
Neben den oben beschriebenen Experimenten wurden noch einigen anderen Fragestellungen nachgegangen.
|
||||||
|
Hier die Ergebnisse.
|
||||||
|
|
||||||
|
\begin{itemize}
|
||||||
|
\item PAL funktioniert auch auf schwächeren LLMs. Die Benefits skalieren etwa mit der Qualität des Models.
|
||||||
|
\item Experimente die Code wie auch Text generierende Modelle vergleichen das diese nur eine Mindestqualität erfüllen müssen.
|
||||||
|
Funktionieren tut es mit beiden.
|
||||||
|
\item Experimente bei denen der Python syntax als Strukturierungshilfe für CoT genutzt wurde zeigten nur eine geringe Verbesserung gegenüber der direkten berechnung.
|
||||||
|
\item Experimente zur Quantifizierung ob und in wie weit Kommentare und gute Variablennamen eine Rolle spielen zeigen das
|
||||||
|
\begin{enumerate}
|
||||||
|
\item Kommentare die Qualität von PAL leicht verbessern.
|
||||||
|
\item Werden Variablennamen und Kommentare weggelassen erhält man Ergebnisse welche die Qualität von CoT Prompts of nicht erreichen.
|
||||||
|
\end{enumerate}
|
||||||
|
\end{itemize}
|
||||||
|
|
||||||
|
\section{Ähnliche Werke}
|
||||||
|
|
||||||
|
Few-shot prompting und CoT haben zu dem PAL paper geführt. Die Qualität der ergebnisse hier aber nicht erreicht.
|
||||||
|
Andere experimente haben die
|
||||||
|
|
||||||
|
\section{Darauf aufbauende Werke}
|
||||||
|
|
||||||
|
|
||||||
|
%PandasAI
|
||||||
|
|
||||||
|
|
||||||
\section{Ausblick}
|
\section{Ausblick}
|
||||||
|
Reference in New Issue
Block a user