Graf-of-Thought (GoT) (Myšlenkový graf)

S rostoucím využíváním rozsáhlých jazykových modelů v oblasti zpracování přirozeného jazyka objevili výzkumníci potenciál metody zvané „řetězec myšlení„, která umožňuje těmto modelům efektivněji zvládat složité úlohy tím, že generují mezikroky v procesu uvažování. Avšak lidské myšlení není přímočaré a často nesleduje jednoduchý lineární vzorec.

V roce 2023 Yao a jeho kolegové přišli s konceptem, který nazvali „Graf Myšlení“ (GoT). Tento přístup nejenže zachycuje myšlenky jako sekvence, ale reprezentuje je ve formě grafu, kde jednotlivé myšlenky jsou uzly a jejich vztahy jsou hrany. Tímto způsobem model lépe odráží skutečnou, nelineární povahu lidského myšlení, což vede k realističtějšímu zobrazení kognitivních procesů.

Podobně jako u víceúrovňových přístupů v modelování myšlení (například multimodální řetězec myšlení) GoT funguje ve dvou fázích: nejprve generuje zdůvodnění a poté vytváří finální odpověď. Tento proces využívá speciální kódovací systém pro grafy myšlenek, který se učí reprezentaci GoT a integruje ji s původními vstupy pomocí sofistikovaných fúzních technik.

Grafy myšlení také využívají principy řízených acyklických grafů (DAG), což jsou struktury umožňující modelovat komplexní vzory závislostí bez opakujících se smyček. Na rozdíl od jednoduchých stromů, DAG umožňují znázornit, jak se cesty mohou rozvětvovat a následně znovu sbíhat, což poskytuje modelu GoT výhodu oproti tradičním lineárním metodám.

Graf Myšlení překračuje základní organizaci dat tím, že představuje veškeré informace ve formě grafu. Uzly v grafu představují pojmy nebo entity a hrany definují vztahy mezi nimi. Tato struktura umožňuje modelu procházet a zkoumat vztahy mezi koncepty, což zjednodušuje hlubší porozumění vstupům a pomáhá vytvářet logičtější a koherentnější odpovědi, připomínající způsob, jakým lidský mozek zpracovává informace ve dvou různých režimech myšlení.

Obrázek ukazuje diagram systému pro zpracování informací v modelu, který kombinuje textové a vizuální vstupy za účelem generování odpovědí na otázky založené na UVAŽOVÁNÍ

Jak tento systém funguje v příkladu:

Otázka zní „Mají kapradiny semena?„.

K dispozici jsou dvě odpovědi na výběr: (A) Ano (B) Ne.

K otázce je přiložen obrázek, který ukazuje životní cyklus kapradiny

Krok 1: Vstup a příprava dat

  • Textový vstup: Systém dostane otázku a možné odpovědi. Text obsahuje také krátký popis obrázku.
  • Vizuální vstup: Obrázek ukazující různé fáze životního cyklu kapradiny.

Krok 2: Zpracování dat

  • Graf myšlenek: Systém vytvoří graf, kde uzly mohou zastupovat klíčové pojmy jako „kapradiny“, „semínka“, „spory“, a hrany mezi nimi ukazují vztahy, jako je „má“ nebo „nemá“.
  • Kodéry: Textový kodér zpracuje otázku a kontext, vizuální kodér analyzuje obrázek, a GoT kodér integruje tyto informace do grafu myšlenek.

Krok 3: Fúze vlastností

  • Křížová pozornost: Systém porovná informace z grafu, textu a obrazu, aby zjistil, zda kapradiny mají semena, nebo něco jiného (spory).

Krok 4: Generování odpovědi

  • Predikce zdůvodnění: Systém nejprve vysvětlí, že „kapradiny se rozmnožují asexuálně i sexuálně pomocí spor, nikoli semen“.
  • Predikce odpovědí: Na základě zdůvodnění systém rozhodne, že správná odpověď je (B) Ne, kapradiny semena nemají.

Výsledek: Systém poskytl nejen konkrétní odpověď na zadanou otázku, ale také zdůvodnění.

F.A.Q. k diagramu

Co znázorňují kolečka v grafu?

Kolečka v diagramu zastupují různé typy datových uzlů nebo vrstvy v neuronových sítích, které zpracovávají informace. Každé kolečko může reprezentovat jednotlivý neuron nebo jednotku v síti, která přijímá a zpracovává vstupy z předchozích vrstev. V tomto systému:

  • V kodéru reprezentují kolečka jednotlivé vrstvy neuronové sítě, které analyzují a kódují vstupy (text, graf, obraz).
  • V dekodéru představují vrstvy, které dekodují zpracované informace a vytvářejí odpovědi nebo zdůvodnění.

Co je v části „Výstup“?

Část „Výstup“ na diagramu je rozdělena do dvou stádií:

  1. Predikce zdůvodnění: Tady systém generuje textové zdůvodnění, které vysvětluje logiku za odpovědí. V tomto případě zdůvodňuje, proč kapradiny nemají semena, ale rozmnožují se spory.
  2. Predikce odpovědí: Po zdůvodnění systém poskytne konečnou odpověď na základě analyzovaných dat a vygenerovaného zdůvodnění, například odpověď (B) Ne.

Co je Kodér? Co je Dekodér?

Kodér

  • GoT Kodér: Používá techniky z grafických neuronových sítí, konkrétně grafickou síť pozornosti, k zakódování myšlenkového grafu. Tento kodér pomáhá reprezentovat a uchovávat komplexní myšlenkové vztahy mezi koncepty.
  • Textový kodér: Využívá transformační architekturu (obvykle model jako BERT nebo T5) k analýze a zakódování textových vstupů, což umožňuje pochopení jazyka a kontextu otázky.
  • Vizuální kodér: Extrahuje významné rysy z obrázků, což modelu umožňuje integrovat vizuální kontext do celkového uvažování.

Dekodér

  • Gated Fusion Layer: Tato vrstva integruje a optimalizuje kombinované informace z různých zdrojů (text, graf, obraz) pomocí mechanismů jako jsou vrátka, které regulují, kolik informací z každého zdroje projde do další fáze do dekodéru.
  • Transformační dekodér: Tento dekodér pak převede integrované informace na jazykový výstup, což může zahrnovat zdůvodnění nebo odpovědi na zadané otázky. Tento krok využívá principy transformační architektury, které se osvědčily v generování koherentního, relevantního a přesného textu založeného na předchozích analýzách a vstupních informacích.

Celý proces od kodéru po dekodér umožňuje systému efektivně zpracovávat a integrovat různorodé informace a poskytovat zdůvodněné, dobře podložené odpovědi. Tento sofistikovaný přístup reflektuje složité myšlenkové procesy, které se snaží napodobit lidský mozek při řešení komplexních úloh a dotazů, poskytující uživatelům nejen odpovědi, ale i kontext a pochopení, které stojí za těmito odpověďmi.