Added lots of text
Some checks failed
Latex Build / LatexBuild (push) Failing after 12m23s

This commit is contained in:
2023-12-10 03:12:05 +01:00
parent 8fa2610fd6
commit a1ad640793

View File

@ -333,8 +333,35 @@ Funktionieren tut es mit beiden.
\section{Ähnliche Werke}
Few-shot prompting und CoT haben zu dem PAL paper geführt. Die Qualität der ergebnisse hier aber nicht erreicht.
Andere experimente haben die
Few-shot prompting ~\cite{few-shot2}~\cite{few-shot1} und CoT haben zu dem PAL-Paper geführt.
Die Qualität der durch PAL erreichten ergebnisse wurden dort wohl aber nicht erreicht.
Es gibt weitere Lösungsansätze welche über extra Tokens für daten und mathematische operationen arbeiten ~\cite{Demeter_Downey_2020}.
Diese ansätze sind aber Komplexer, weniger zuverlässig und weniger Allgemeingültig.
Es gibt auch LLM welche mit einem Fokus auf Mathematische Probleme und den Output von Code haben.
Dabei ist die Qualität der Ergebnisse natürlich besser als bei einem Standartmodel aber nur geringfügig ~\cite{pi2022reasoning}.
Diese können natürlich auch genutzt werden um Code zu generieren und in der Laufzeit durchzuführen.
Der dem PAL sehr ähnliche ansatz vom Program of Though (PoT) ~\cite{chen2023program} ist etwa zeitgleich erschienen und wird auch in PAL referenziert.
Der Fokus von PoT ist mehr auf Mathematischen problemen. Meiner meinung nach wird dort auch weniger die Promptgestaltung untersucht als hier.
Auch die vergleiche mit GSM-HARD die ich persönlich sehr Aussagekräftig finden nicht statt. Dafür sind andere datensätze verwendet worden.
Darauf aufbauend gibt es Prompt Techniken wie die "Automatic Model Selection with large Language Models for Reasoning" welche CoT und PAL parallel durchführen lässt und dann ein LLM entscheiden lässt welches der ergebnisse korrekt ist.
Damit lies sich die Qualität von ergebnissen von GSM8K auf $96.5\%$ steigern um $\Delta34\%$ ~\cite{zhao2023automatic}.
Die beliebte Python/JavaScript library LangChain hat PAL Prompts als Teil ihres Funktionsumfanges ~\cite{langchain}.
Auch aktuellere veröffentlichungen sagen deutlich aus das auch für neuere LLMs die Qualität von PAL besser ist als CoT ~\cite{kabra2023programaided}
Zeitgenössische Python LBRs wie zum Beispiel PandasAI verwenden ähnliche ansätze in den Code in der Laufzeit generiert wird und dann von einem Python Interpreter analysiert wird.
Dies ist die Logische fortführung von den Tabuarisieren Pinguin Daten in einer als LBR zur Verfügung stehenden Implementierung~\cite{Venturi}.
Dieser arbeitet aber nicht über Few-shot prompts sondern über zero shots.
Daneben gibt es andere ansätze die Automatic multi-step reasoning and tool-use for large language models ~\cite{paranjape2023art} welches anders als PAL nicht mit Few-shot Prompts arbeitet dafür aber das LLM einfriert wenn der Code ausgeführt wird und die ergebnisse direkt in den Fliestext einbetted und danach die ausführung des LLMs auf grundlage der ergebnisse fortführt.
Das in ChatGPT verwendete Analyze modul ist ein anderes beispiel wo schnell code generiert wird anstelle davon das Berechnungen gleich im code durchgeführt werden.
\section{Darauf aufbauende Werke}
@ -346,6 +373,8 @@ Andere experimente haben die
Prompts im Deutschen? Qualität?
Nicht ausführbarer Code bitte um verbesserung
Nicht quantifiziert wie oft der code nicht ausführbar war
% https://chat.openai.com/share/3a78d9db-9caa-4745-a417-0ef229bd7728
\printbibliography