Automatic Prompt Engineering (APE)

APE je technika, která považuje instrukci za „program“ a optimalizuje instrukci prohledáváním souboru kandidátů na instrukci navržených LLM. Kandidáti LLM jsou obodováni pomocí zvolené skórovací funkce a je vybrána instrukce s nejvyšším skóre. APE je inspirován klasickou syntézou programů a lidským přístupem k promptnímu inženýrství. Syntéza programu je úloha automatického generování kódu z popisu požadovaného chování v přirozeném jazyce. Lidský přístup je proces ručního vytváření instrukcí účinných při použití LLM k vytvoření požadovaných výstupů.

APE dosahuje výkonnosti na úrovni člověka při učení s nulovým počtem snímků s instrukcemi generovanými modelem ve 24/24 úlohách Indukce instrukcí a 17/21 úlohách Big-Bench. S modelem InstructGPT překonává lidský výkon a dosahuje IQM 0,810 ve srovnání s lidským IQM 0,749. Za tímto účelem je pomocí InstructGPT generován soubor dat s otázkami a kroky uvažování s výzvou „Přemýšlejme krok za krokem“. Poté byly odstraněny všechny datové body, které obsahovaly nesprávné odpovědi. Nakonec byla pomocí APE nalezena výzva začínající slovem „Pojďme“, která maximalizovala pravděpodobnost těchto správných kroků uvažování. APE vytvořil výzvu „Pojďme to vymyslet krok za krokem, abychom si byli jisti, že máme správnou odpověď“. Tato vygenerovaná výzva dále zlepšila výkon ve dvou úlohách: MultiArith ze 78,7 na 82,0 a GSM8K ze 40,7 na 43,0.

 

Auto-CoT

Auto-CoT je proces automatické konstrukce demonstrací s otázkami a argumentačními řetězci. Nejprve shlukuje otázky v souboru dat do několika shluků. Poté vybere reprezentativní otázku z každého shluku a vytvoří její argumentační řetězec pomocí Zero-Shot-CoT s jednoduchou heuristikou. Metoda Auto-CoT má oproti jiným metodám několik výhod. Je automatická, škálovatelná a efektivní, což znamená, že generuje ukázky, které jsou přesné a informativní.

Při porovnání přesnosti metody Auto-CoT se čtyřmi základními metodami na deseti souborech dat ze tří kategorií argumentačních úloh se metoda Auto-CoT konzistentně vyrovná nebo překoná výkonnost metody CoT, která vyžaduje manuální návrhy demonstrací. Důvodem je to, že Auto-CoT je schopen generovat demonstrace, které jsou přizpůsobené úloze. To znamená, že demonstrace jsou přizpůsobeny konkrétní datové sadě a úloze uvažování. Naproti tomu Manual-CoT může používat stejné demonstrace pro více datových sad, což může vést k nižší přesnosti.

Automatické vícekrokové uvažování a používání nástrojů (ART)

ART je rámec, který využívá rozsáhlé jazykové modely k automatickému generování mezikroků uvažování pro novou úlohu. Modely LLM jsou zmrazené, což znamená, že se během procesu uvažování neaktualizují. Díky tomu je ART efektivnější a škálovatelnější než rámce, které používají trénovatelné LLM. ART vybírá ukázky vícekrokového uvažování a použití nástrojů z knihovny úloh. Dekompozice je vysokoúrovňový popis kroků zapojených do řešení úlohy. ART pak vybírá a používá nástroje z knihovny nástrojů spolu s generováním LLM k dokončení mezikroků uvažování. V době testování ART plynule pozastaví generování, kdykoli jsou zavolány externí nástroje, a před pokračováním v generování integruje jejich výstup. Díky tomu může ART využívat možnosti externích nástrojů k řešení složitých úloh.

Bylo prokázáno, že ART je efektivní v řadě úloh, včetně odvozování z přirozeného jazyka, zodpovídání otázek a generování kódu. Překonává předchozí přístupy k usuzování na základě několika snímků a používání nástrojů a je schopen řešit úlohy, které byly dříve považovány za nemožné pro LLM. Lidé mohou volitelně upravovat dekompozice, aby zlepšili výkon. Mohou například opravit chyby v kódu nebo začlenit nové nástroje. ART je rozšiřitelný, což znamená, že jej lze snadno rozšířit o nové úlohy a nástroje.