Added a first draft of the analysis.
Some checks failed
Latex Build / LatexBuild (push) Failing after 14m48s

This commit is contained in:
2023-12-09 19:49:49 +01:00
parent 29b5404a6f
commit 081de5473e

View File

@ -276,7 +276,20 @@ Die Qualitätsverbesserung durch Mehrheitsentscheide ist zwar für PAL nicht so
Dies ist allein schon durch das schon geringe Verbesserungspotenzial und den geringeren Zufallsanteil bei berechnungen via PAL zu erklären. Dies ist allein schon durch das schon geringe Verbesserungspotenzial und den geringeren Zufallsanteil bei berechnungen via PAL zu erklären.
Die Experimente zum Mehrheitsentscheid wurden nur auf GSM8K durchgeführt. Die Experimente zum Mehrheitsentscheid wurden nur auf GSM8K durchgeführt.
\subsection{Ergebnisse der Aufgaben zum Abstrakten Denken & Algorithmen} \subsection{Ergebnisse der Aufgaben zum Abstrakten Denken \& Algorithmen}
Die ergebnisse zum Abstrakten Denken und Algorithmen können in \ref{tab:algo-performance} gefunden werden.
Auch hier wurden wie der ergebnisse welche nicht mit dem codex model code\babelhyphen{nobreak}davinci\babelhyphen{nobreak}002 berechnet worden sind weggelassen.
So steigt das lösen von Positionen in Objektfolgen um $8,8\%$ (COLORED OBJECT).
Aussagen über Tabulierte Daten steigen in Ihrer Qualität um $14\%$ am Beispiel der Pinguin-Daten.
Das Zählen von Objekten welches bei der Direkten Verwendung von LLMs so besonders schwer ist erreich mit PAL $96,7\%$. CoT erreicht dort Immerhin $73\%$.
Auch hier sind wieder deutliche Qualitätssteigerungen zu finden. Dabei ist wichtig zu sagend das die Ergebnisqualität
bei bis zu 26 Ergebnissen bei PLA Prompts stabil ist und bei CoT Prompts annähernd stetig abnimmt.
Auch hier wird wie bei den Mathematischen aufgaben gezeigt das der Umgang mit mehr Datenpunkte wesentlich einfacher ist als für CoT.
Dieses verhalten findet sich wohl in allen ergebnissen wieder das die Stabilität von PAL gegenüber einer gesteigerten Komplexität wesentlich höher ist.
\begin{table}[H] \begin{table}[H]
\centering \centering
@ -298,8 +311,32 @@ PAL & 95,1 & 93,3 & 76,2 & 90,6 & 96,7 \\
\label{tab:algo-performance} \label{tab:algo-performance}
\end{table} \end{table}
\subsection{} \subsection{Analyseergebnisse}
Neben den oben beschriebenen Experimenten wurden noch einigen anderen Fragestellungen nachgegangen.
Hier die Ergebnisse.
\begin{itemize}
\item PAL funktioniert auch auf schwächeren LLMs. Die Benefits skalieren etwa mit der Qualität des Models.
\item Experimente die Code wie auch Text generierende Modelle vergleichen das diese nur eine Mindestqualität erfüllen müssen.
Funktionieren tut es mit beiden.
\item Experimente bei denen der Python syntax als Strukturierungshilfe für CoT genutzt wurde zeigten nur eine geringe Verbesserung gegenüber der direkten berechnung.
\item Experimente zur Quantifizierung ob und in wie weit Kommentare und gute Variablennamen eine Rolle spielen zeigen das
\begin{enumerate}
\item Kommentare die Qualität von PAL leicht verbessern.
\item Werden Variablennamen und Kommentare weggelassen erhält man Ergebnisse welche die Qualität von CoT Prompts of nicht erreichen.
\end{enumerate}
\end{itemize}
\section{Ähnliche Werke}
Few-shot prompting und CoT haben zu dem PAL paper geführt. Die Qualität der ergebnisse hier aber nicht erreicht.
Andere experimente haben die
\section{Darauf aufbauende Werke}
%PandasAI
\section{Ausblick} \section{Ausblick}