JAK JE MOžNé, žE SI S NáMI AI PíšE TAK LIDSKY? NENí TO žáDNá SAMOZřEJMOST. OPENAI VYSVěTLUJE, JAK TA ILUZE FUNGUJE

Surový naučený velký jazykový model jen doplňuje písmenka | Iluzi bytosti z něj dělá až lidské doučování a ohýbání | Je to ale stále složitější, člověk totiž přestává stačit

AI chatboti jsou opravdovým zázrakem počítačové vědy. Říkejte si co chcete, lámejte nad nimi hůl, ale pokud dokážou vyřešit vysoce komplexní prompt jako na obrázku níže, je to naprostá magie. Konec debaty.

Podívejte se, jak vypadá program v Pythonu s radarem v akci:

(do kódu jsem nijak nezasahoval, vše je práce ChatGPT a na první pokus)

Motorem každého takového chatbota je umělá inteligence typu velkého jazykového modelu (LLM), kterému jsme během učení předložili miliardy a miliardy po sobě jdoucích písmenek, aby si namodeloval jejich nejpravděpodobnější pokračování.

Surový velký jazykový model je idiot

Takže když začnu psát: „Živě.cz je,“ velký jazykový model by mohl jako statisticky nejvěrohodnější pokračování dopočítat třeba: „můj oblíbený web, který jsem nastavil jako homepage úplně všem v rodině.

Každý, kdo si na svém herním počítači pohrál s některým z těch menších a surových jazykových modelů, ale nejspíše sám zjistil, že až taková idylka to zpravidla není.

Hrubý LLM je totiž ještě poměrně tupý. Je to naprostý idiot, který sice umí tvořit smysluplný text, ale ještě to není ta téměř věrohodná kopie člověka. Prostě jen doplňuje písmenka, ale neumí vést dialog, nemá žádné zábrany, neřídí se povely, netuší, co je to dobro a co zlo, není ani moc dobrý programátor a stejně tak matematik.

ChatGPT se chová lidsky jen díky učitelům

Všechny tyto praktické dovednosti získá chatbot až v procesech, kterým říkáme alignment a fine-tuning. Teprve v této fázi experti z neopracované skály tesají umělecké dílo a surové umělé inteligenci vštěpují, jak se má vlastně chovat.

OpenAI i všichni ostatní k tomu dnes používají techniky z ranku RLHF (Reinforcement Learning from Human Feedback), ve kterých hraje naprosto klíčovou roli člověk.

K čemu je to dobré? Dejme tomu, že chceme, aby náš chatbot uměl programovat tak dobře jako v mé aplikaci z úvodu článku. Ne, opravdu nestačí, abychom mu prostě jen předložili celý GitHub, spustili superpočítač a stiskli nějaké zázračné tlačítko, které to všechno udělá za nás.

Vývoj těch nejpokročilejších chatbotů dneška je tak drahý a zdlouhavý mimo jiné právě proto, že se doučují s pomocí lidí.

Rozpálená plotna z dětství

Reinforcement learning (RL) znamená zpětnovazební učení a zná ho osobně každý, kdo se v dětství poprvé dotkl rozpálené plotny v kuchyni. Dostal totiž natolik silnou zpětnou vazbu, aby okamžitě pochopil, že už to nemá příště opakovat.

V algoritmech AI to funguje vlastně docela podobně pomocí tzv. reward funkce, která stroji říká, jestli při učení splnil úkol, anebo nikoliv (zpětná vazba). Zatímco funkce pro zpětnou vazbu u AI, která se jen učí třídit kostičky stavebnice Lego, může být relativně jednoduchá, u chatbotů je to astronomicky složitý problém.

Zpětná vazba je ohromně komplexní problém

Vraťme se k našemu programování. Pokud se má AI naučit kódovat v Pythonu, co bude zpětnou vazbou, že to opravdu umí? Vždyť v odpovědi musí být ideálně nejen funkční a spustitelný kód, ale také lidsky psaný komentář, který to všechno vysvětlí i naprostému zelenáči.

Suma sumárum, zhodnocení, jak dobrá byla odpověď, má hromadu rovin od syntaktické a sémantické bezchybnosti kódu a jeho kvality po dobře formulovaný, výstižný a snadno pochopitelný komentář. Něco takového jen těžko vyjádříte jakousi matematickou rovnicí.  

A tady už na scénu konečně přicházejí lidé. V angličtině jim říkáme labelers, trainers a tak dále.

Tito trenéři v procesu RLHF vytvářejí umělé dialogy, jak má vypadat nejpřirozenější lidská komunikace se strojem a zároveň hodnotí odpovědi velkého jazykového modelu a přidělují jim skóre. Tím pak nakrmí naši reward funkci a ta dodá učícímu se stroji mnohem kvalitnější zpětnou vazbu, jak vypadá rozhovor dvou lidí ideálně na libovolné téma.

Teprve v tomto okamžiku se z hloupého doplňovače písmenek stává iluze bytosti, se kterou si můžeme smysluplně povídat celou noc.

Vařený květák s cibulí

Dejme tomu, že je náš chatbot zatím poměrně tupý. Sice už má namodelováno, jak má ve své obecnosti vypadat a fungovat lidský dialog, ale na otázku:

Ahoj robote, jak se máš?

Tvrdohlavě odpovídá slovy:

Vařený květák s cibulí!

Během doučování proto této odpovědi nastavíme velmi nízké skóre a připravíme alternativní a vhodnější odpověď:

Ahoj, děkuji moc za optání. Mám se skvěle!

Zpětnovazební část pak bude při doučování velkého jazykového modelu vědět, že na pozdrav se má odpovídat také pozdravem, protože pozdravy mají v reward funkci (anebo lépe v reward modelu) mnohem vyšší skóre než „vařený květák s cibulí.“

Tímto způsobem si surový LLM teprve na vyšší abstraktní úrovni modeluje, jak vypadá lidská komunikace. Je to extrémně složité, extrémně drahé a přesně toto je ten alignment, kdy se ze surového AI generátoru stává kámoš, který nám odpovídá přesně tak, jak opravdu potřebujeme.

System prompt

Zpětnovazební učení mění samotný velký jazykový model, ohýbat lze ale i ten hotový. Jakmile totiž chápe, že se má řídit povely, jeho operátor mu může společně s naším dotazem předložit i nějaký skrytý.

Říkáme mu system prompt a OpenAI i dalším umožňuje dolaďovat chování AI až za běhu bez dalšího učení.  

Učitel musí být chytřejší než žák

Technika lidského doučování RHLF má ale jeden principiální nedostatek, o kterém všichni vědí celé roky a postupně se na něj připravují. Stručně řečeno, člověk může doučovat stroj jen do chvíle, dokud bude stroj zřetelně hloupější než on sám.

Vývoj v OpenAI i dalších laboratořích se nicméně v poslední době přiblížil k bodu zlomu. Pokud dokážou chatboti úspěšně dokončit přijímačky na kdejakou univerzitu, jejich školitelé z masa a kostí jim už přestávají stačit.

Jinými slovy, už prostě nedokážou zhodnotit, jak moc je jejich odpověď kvalitní. Bez toho přitom nedokážou vyrobit správnou reward funkci, protože aby se AI nadále zlepšovala, potřebuje stále kvalitnější a sofistikovanější zpětnou vazbu.

Empatický Williams a natvrdlý Matt Damon

Je to vlastě to stejné, jako byste měli doma zázračné dítě, kterému by ve škole nestačil jediný pedagog, aby jej mohl držet na správné cestě (alignment). Když takového génia zamkneme do univerzitní knihovny s pytlem sušenek a zahodíme klíč, po roce z něj vyleze buď nový Albert Einstein, anebo další Hitler, který to tady všechno definitivně ukončí.

Pokud stále tápete, co to ten alignment ve své podstatě vlastně je, vzpomeňte si na oskarový snímek Dobrý Will Hunting, ve kterém empatický Robin Williams (trenér) promění (alignment) superinteligentního idiota Matta Damona (surový LLM) v člověka, kterého s radostí pozvete na rodinnou oslavu (aligned AI).  

Chytrá AI umí psát sofistikované nesmysly

Robin Williams nám začíná scházet jako sůl, OpenAI totiž pomalu přiznává, že bychom mohli mít už brzy opravdu velký problém. ChatGPT a jemu podobní toho prostě už umí tolik, že si o to lépe také vymýšlejí a hodnocení toho, jestli odpovídají správně, nebo špatně, je pro experty stále složitější.

Reinforcement learning from human feedback (RLHF) is fundamentally limited by the capacity of humans to correctly evaluate model output.

OpenAI

Někteří trenéři jsou stálými zaměstnanci, jiní pak sezónními kontraktory. Hodnocení správnosti odpovědí se totiž netýká jen obecné zdvořilostní vaty a slušného vychování chatbota, ale opět i jeho oborových schopností.

Stručně řečeno, OpenAI a ostatní tvůrci základních AI musejí najímat stále lepší (a dražší) programátory a experty na další znalostní oblasti, aby dokázali zhodnotit, jestli LLM pouze nefantazíruje.

Když už člověk nestačí, pomůže mu CriticGPT

A protože zvláště programování je už dnes téměř nepřekonatelný problém, povolalo OpenAI do boje CriticGPT, se kterým se čerstvě pochlubilo ve stručné studii (PDF) a článku na blogu.

Jak už název napovídá, CriticGPT kritizuje (tedy hodnotí) výstupy ChatGPT podobně jako člověk a přiděluje jim skóre, kterým se pak nakrmí zpětnovazební doučování. Jak je možné, že jedna AI kontroluje druhou AI, když si tu celou dobu povídáme, že si roboti občas naprosto vymýšlejí?

Inu, CriticGPT prošel také doučováním (alignmentem), které ale bylo úzce specializované právě na hledání chyb. A ke všemu jen v jedné dílčí znalostní doméně – právě v našem programování. Inženýři tedy modelu předložili hromadu zdrojových kódů s chybami a vysvětlovali mu, kde přesně jsou.

Jak nevyrobit křemíkového Hitlera

Během experimentu CriticGPT pomáhal hledat chyby lidským učitelům a společně se jim to dařilo o více než 60 % lépe, než kdyby tuto práci vykonával zkušený expert. CriticGPT byl velice úspěšný v hledání pokročilých chyb a člověk zase poznal, když začíná fantazírovat a označuje problémy tam, kde žádné nejsou.

I když se OpenAI ve zprávě chlubí, že CriticGPT kupodivu velmi dobře nacházel problémy i v jiných oborech, zatím na něj není absolutní spolehnutí a sám si vymýšlí.

Podle věhlasně laboratoře to ale budou právě tito specializovaní AI agenti, kteří budou lidem v nejbližších letech pomáhat dohlížet na to, aby z té myšlenkové univerzitní knihovny skutečně jednou nevzešel superinteligentní křemíkový Hitler.

Přečtěte si také:

2024-06-29T12:11:18Z dg43tfdfdgfd