Mi az ihlet? – 3. Lehet ihletett a mesterséges intelligencia?

Balaskó Ákossal Ágoston Enikő Anna beszélget

Ágoston Enikő Anna: A harmadik verseskötetedet, A perceptron gyermekeit a mesterséges intelligenciával együtt írtad, 16,74%-ához járult hozzá a számítógép. Izgalmassá teszi ezt a kérdéskört az is, hogy te nemcsak költő vagy, hanem programtervező matematikus is. Szerinted milyen programokat érdemes használnia egy költőnek, ha az MI-t is be szeretné vonni az alkotásba? Te milyen programokat használtál, és milyen gyakorlati lépései voltak a közös munkának?

Balaskó Ákos: A kötet születésekor még nem volt olyan, széles tömegek számára elérhető és letisztult mesterséges intelligencia szolgáltatás, mint a ChatGPT. A versek zöme a hatalmas AI-hype előtti időszakból származik, de ez nem azt jelenti, hogy nem használtam mesterséges intelligenciát, csak nem olyan módon, ahogy azt most – jóval egyszerűbben – meg lehet tenni. A programozási interfészeken keresztül ugyanis számos nagy nyelvi modell (large language model – LLM) béta verziója már elérhető volt. Emlékszem a coPilotra, a ChatGPT motorjaként funkcionáló LLM is érdekes tapasztalatot jelentett, illetve mintha a Facebook, a Google és az IBM akkori modelljeivel is játszottam volna. De ez több éve volt, ami egy ilyen hatalmas technológiai árhullám során rengeteg időt és változást jelent. Mai szemmel kőkorszakinak tűnnek a két-hároméves „megoldások”, pedig az alapvető technológia nem nagyon változott, csak a tanításra használt adatok mennyisége nőtt meg, és azok minősége finomodott. Illetve, ahogy az az innovációk esetében lenni szokott, fokozatosan elkezdte megtalálni a helyét a technológia, kezd kiderülni, hogy milyen specializált feladattípusok esetén lehet leginkább kihasználni az AI-ban rejlő lehetőségeket. Az OpenAI bejelentését követően (2022 novemberében) mindenki elalélt, hogy egy gép ténylegesen és gyorsan képes értelmezni egy természetes nyelven feltett kérdést. Mi több: elfogadható szinten képes érdemben válaszolni, még ha – és itt volt a nagy bökkenő – maga a válasz, bár nyelvileg helyes, de sok esetben tévedés volt. Idővel megnőtt a rendszer nyelvi ereje, ráadásul a nyitott API-n keresztül a fél világ elkezdte beépíteni az alkalmazásaikba. De a helyes válasz megadása csak valószínűségi alapon történik: mivel statisztikai alapon válaszol, sok esetben igaza van, de a butaságot is ugyanolyan magabiztossággal válaszolja, mint a tényleges igazságot. Emiatt az utólagos tényellenőrzés valódi problémát jelent, ami – csak hogy a kérdésedre is válaszoljak –, behatárolja a szépirodalomban való felhasználás lehetőségeit. Szem előtt kell tartani, hogy az AI mint szöveggyár nem garantálja a minőséget, pont azért, mert amin tanították, az nem szépirodalom. A „tanítása” során felhasznált szövegkorpusz ugyanis meghatározza, hogy milyen minőségben tud szöveget generálni, a mostani mesterséges intelligenciák pedig jóval nagyobb adatmennyiséget igényeltek, hogy átlagos szinten megértsék az angol nyelvet, mint amit a szépirodalom önmagában biztosított volna. Ráadásul itt jönnek azok a jogi és etikai aggályok, amelyeket már sokan felvetettek korábban.

Viszont bármilyen szövegalkotáskor hasznos lehet – legalábbis én hasznosnak érzem –, hogy ha elakadunk, amikor valamiért nem kezd el „működni” a szöveg vagy kifogyunk az ötletekből, akkor legyen egy „tanácsadó”, aminek kikérhetem a javaslatait, és ötletekkel szolgál. Ezek viszont átlagos megoldások lesznek, egy társadalom múlt időben lezajlott eszmecseréin és dokumentumain alapuló tanult és átlagolt reakciók. A zömük nem használható, egyszerűen azért, mert nem működik, de engem mint szerzőt ez triggerelhet, és így újraindíthatja az elakadt alkotói folyamatot. A kötet megírása során ezt az aspektust is továbbgondoltam, az az ötletem támadt, hogy az alkotótársi játék és dinamika újabb narratívateret nyithatna meg a kötet számára, tematizálva az alkotói folyamat szükségszerű átdefiniálódását a technológiai fejlődés során.

Ágoston Enikő Anna: Milyen fejlődésen ment keresztül a mesterséges intelligencia az utóbbi időben, ha a költői alkotás szempontjából nézzük? Alkalmasabb lett arra, hogy verseket vagy versrészleteket generáljon valaki?

Balaskó Ákos: Nem hinném, hogy valaha cél volt az AI képzése során, hogy nagyon jó költő legyen, szimplán azért sem, mert a szöveggenerálás technológiája olyan általános, hogy számos sokkal nagyobb üzleti értékű területet is letarolhat. Ráadásul ehhez nem kell egy speciálisabb gondolkodásmódot elsajátíttatni vele, mint ami mondjuk egy költői nyelv használatakor felszínre kerül. Bár már nem nagyon használom így a meglévő AI-szolgáltatásokat, úgy gondolom, hogy egyrészt finomodhattak a régebben felkínált lehetőségek, ahogyan sok más területen is hatalmas lépésekkel fejlődött a technológia. Ezen olyan körülményeket értek, mint például a kontextusablak bővülése. Régebben nem is volt nagyon lehetőség arra, hogy úgy beszélgessünk az AI-jal, ahogy egy emberi eszmecserétől elvárjuk, mert kevés karakterig „emlékezett” a bevitt szövegre és az általa meghatározott kontextusra. Akkor még körülbelül egy-két prompt (egy-két bemeneti szöveg, maga a kérdés, amit felteszel az AI-nak, kiegészítve a kontextusul szolgáló plusz információkkal) és az arra adott válasz volt a kapacitása. Mostanra ez jelentős mértékben bővült, és akár teljes dialógusokat folytathatunk vele, promptonként árnyalva az előzőek alapján feltérképezett kontextust.

Arról már nem is beszélve, hogy ezzel párhuzamosan a kép- illetve zenegeneráló szolgáltatások is szárba szökkentek, amelyek tekintetében még nyilvánvalóbb, hogy az MI az egyes stílusjegyeket milyen mértékben képes nemcsak utánozni, de vegyíteni is. De mindennek megvan a maga árnyoldala is, továbbra sem gondolom, hogy egy generált vers önnön magában működhet. Illetve nagyon kicsi a valószínűsége annak, hogy egy emberi olvasó számára minőségi szöveg érkezzen egyetlen prompt hatására. Másrészről, ha meg működik, úgy nekem mindegy, hogy generált, részben generált vagy teljesen emberi, a fő, hogy mozduljon meg a nyelv. Úgy gondolom, hogy az MI-megoldások szerepe az alkotói folyamat részeként értelmezendőek, és mindenképp az alkotó felügyelete mellett. Én személy szerint ott hagytam generált vagy nyomokban generált részeket a szövegben, ahol úgy éreztem, hogy az ott lévő nyelvi struktúra működik legalább annak a narratívának a mentén, amit meg akartam ragadni. Ráadásul a generált szövegek önmagukban való felmutatása nem is lenne mai találmány, gondolhatunk itt a Papp Tibor által készített Disztichon Alfára 1994-ből, vagy akár az analóg érából Raymond Queneau Százezer milliárd költemény című kötetével kapcsolatban felmerülő kombinatorikus költészeti megoldásaira.

Ágoston Enikő Anna: A mesterséges intelligencia hogyan kezeli a nyelvet? Arra vagyok kíváncsi, hogy például egy-egy szó esetében a fogalmi jelentések, kapcsolások hogyan jönnek létre. Szerb Antal írja Berzsenyi Dániel ihletéről, hogy a nyelvnek új fajta jelentésrétegei tárultak fel előtte: felbontotta a nyelv megszokott grammatikáját, felülírta a fogalmi jelentéseit, és inkább hangulati, ritmikai és érzéki szempontok szerint alakított ki kapcsolási lehetőségeket a nyelvi elemek között, így sajátos lírai logikával látta el a verseket. Milyen nyelvhasználó rendszerre lehet programozni az MI-t a kapcsolások szempontjából? Képes kitalálni egy befogadásban mozgásba hozható lírai logikát?

Balaskó Ákos: A ma ismert mesterséges intelligencia végső soron a biológiai neuron absztrakt matematikai modelljén alapul. Az idegsejt működését ebben az esetben egy, a beérkező impulzusokat reprezentáló bemeneti paraméterek feldolgozását végző matematikai függvény kiértékelésével szimuláljuk, és a kimenet dönti el, hogy a neuron tüzel-e vagy sem. A tüzelés a neuronnal kapcsolatban lévő más neuronokhoz impulzust, vagyis bemeneti paramétert küld. Ez egy darab neuron, ebből kell elképzelni több milliárdot egymás mellett, majd e kapcsolatok mentén rétegekbe rendezve kapjuk meg a mesterséges neuronháló végső formáját.

Az utolsó réteg kimeneti impulzusai adják meg a választ. Maga a technológia sok mindenre alkalmazható, és igen sok minden függ attól, hogy mire és hogy mi alapján tanítjuk az AI-t. A nagy nyelvi modellek esetében speciálisan arra vagyunk kíváncsiak, hogy hogyan folytatná a bemenetként kapott szöveget, mi lenne a legvalószínűbb folytatás. A tanítás során felhasznált szövegkorpuszt az első lépésben tokenizáljuk, vagyis egyrészt felszeleteljük, másrészt egy számreprezentációt kapunk. Innentől kezdve már nem a konkrét szövegként olvasta ezt a gép, hanem számok, vektorok sokaságáról van szó, ami viszont feldolgozható módon még mindig tartalmazza a nyelvben rejlő szintaktikai és szemantikai struktúrákat. Egy tanulási fázis a neuronok közötti kapcsolatokra épített, úgynevezett súlyok átállításával végződik, ezek azok a számok, amelyek a kapcsolat mentén való tüzelés valószínűségét tárolják, ezen súlyok összessége tárolja végső soron a nyelvről elsajátított tudást. Ráadásul ebben benne foglaltatik egy nyelvek alatti mélystruktúra is, ezt abból tudjuk, hogy habár az angol és a magyar nyelvű korpusz között nagyságrendi különbség volt például az OpenAI LLM-je esetén, mégis átlagos magyarsággal képes válaszolni a rendszer, pont azért, mert az angol nyelvből desztillált általános nyelvi „tapasztalatok” a magyar nyelv esetén is hasznosulni tudtak.

További aspektus, hogy a ChatGPT által nyilvánossá tett felületen keresztül egy finomhangolt LLM-el társaloghatunk, vagyis nem fog nagyon elborult, vagyis szintaktikailag helyes, de logikailag képtelen válaszokat adni a feltett kérdésekre, de cserébe nem is lesz túl „kreatív” a szó klasszikus értelmében. Ez utóbbi viszont csak beállítás kérdése: régebben kódból megszólítva megadhattuk, hogy milyen mértékben legyen kreatív a válasza. Ugyanakkor ez a fajta hangvétel pusztán annyit jelent, hogy kevésbé valószínű válaszokat is elfogad helyes folytatásnak, ez nem egy nézőpontváltás során fellépő felismerés nyoma, csak statisztika, és ez érződik is. Ugyanakkor sokkal könnyebb ilyen módon triggerelni az alkotó valódi kreatív folyamatát. Ez végül is lehet ihlet.

Ágoston Enikő Anna: Amikor arról beszélsz, hogy valaki ihletként azonosít egyes részeket, amelyeket generál az MI, akkor mit értesz ihlet alatt? Ez a verseskötetedben is folyamatosan visszatérő kérdés, hogy a gép és az ember értelmezési lehetőségei hogyan különböznek, akárcsak, ha példaként említjük a gráfot, amely a köteted tartalomjegyzéke: a versek a te értelmezésedben vannak összekapcsolva, a sajátos logikád, asszociációid vezérlik, amelyeket talán az MI nem lenne képes egyedül is létrehozni, vagy egyáltalán bármilyen értelmezési struktúrát előállítani, amelyet egy emberi, érzékekkel rendelkező ember képes. Gyakran reflektálsz is az MI logikájára például azzal, hogy a programozásban használt kapcsos zárójelekkel, linkekkel teszed olvashatóvá a gép számára, hogy melyik vers kapcsolódik melyikkel. Vagy a Hal 9000 éji énekében a nullák és egyesek váltakozásával alakítasz ki olvasási lehetőséget. Közben pedig nagyon erős a differencia abban is, hogy például hogyan értelmezi az MI a „véletlen erdőt”, a „valószínűségi mezőt” vagy a „döntési fát”, amelyek informatikai kifejezések, és nyilvánvalóan benne vannak az MI fogalomkészletében, de egy emberi befogadóban – főleg, ha nem ismeri a szakzsargont – elindul egyfajta megfejtési játék, nem is említve, hogy a vers kontextusában megváltoznak a fogalmak.

Balaskó Ákos: A kötet írása során azután, hogy az alkotói folyamatba bevontam az MI-t, óhatatlanul is felmerült a kérdés, hogy mi a helyzet a befogadói oldallal. Vajon azon túl, hogy van egy sejtésem az emberi olvasók felől, az MI miként értelmezné a kialakult szövegtestet, vajon helyesen, minden kívánt referenciát és asszociációs láncot tudna-e értelmezni, és hogyan tudnám rávezetni az egyes nem kimondott mélyrétegekben felderengő kapcsolatokra? Vajon megőrizhető ez valahogyan? Az erre a célra használt kettős zárójelek és hash-értékek (amelyek kvázi egyéni azonosítók) pedig a humán olvasók számára sem csak egy-egy értéktelen kódsort jelentenének, hanem egy más sorrendű, az alkotói gondolatmenetet tükröző olvashatóságot tennének lehetővé.

Az ihleten a befogadó által ihletként értelmezhető szövegrészletet értem. Fontosnak tartom kiemelni, hogy itt, habár az MI generálja a szöveget, nem szándéka szerint ad ihletet az alkotónak. Ha levesszük az mesterséges intelligencia és a generált szöveg véletlenszerűségének mázát, úgy is elképzelhetjük, mint amikor elakadtunk egy szöveg írásában, és valahogy nem akar működni semmi. Olvasni kezdünk. Ekkor óhatatlanul is a bosszantó elakadás felől olvasunk, az elménk a problémával küzd, és a másik szöveg olvasása során is arra a problémára keresi a megoldást. Kiélesednek az érzékek a problémára vonatkozóan. Ebből a szempontból az, hogy generált szöveget olvasok, vagy egy random könyvet bármilyen témában, végül is irreleváns.

Amúgy nem nyilvánvaló, hogy a matematikai és az informatikai fogalmak benne vannak az MI fogalomkészletében, kizárólag arról van fogalma, amilyen korpusz alapján tanították.

Ágoston Enikő Anna: Szerinted mi a különbség az MI által generált szövegrész és a más költők által írt versrészletek felhasználása között intertextuális szempontból?

Balaskó Ákos: Ha más költők által írt versek részleteit beemelem egy versbe, azzal egyrészt referenciapontokat is adok az olvasónak, arra számítva, hogy összekacsinthatunk, mondván, hogy mindketten felismertük, hogy az új szöveg által létrehozott új kontextus milyen viszonyban áll a régi szöveg kontextusával. Ez az eszköz egyrészt tettestárssá avatja az olvasót, másrészről megrajzolhatja az új szöveg narratívaképzési lehetőségeit is. A mesterséges intelligencia által generált szövegek esetében viszont semmiben nem lehetsz biztos. Volt olyan, hogy olyan jól hangzott, amit generált, hogy nem hittem el, hogy a statisztika ilyen véletleneknek is helyet ad (pedig hát hogyne!), és rákerestem a neten, hogy ugyan ki írta „valójában” azt a szövegrészt, s nem találtam semmit. De még ha olyan szöveg is jönne létre, amely már megjelent máshol, a régi szöveg kontextusa és értelmezési mezője már odaveszne.
Ugyanakkor ez odafigyelést is igényel, mert végeredményben az alkotó nyomja rá a pecsétet a szövegre, ő vállal felelősséget a szövegért, ő hisz benne, hogy ami megszületett, az az, aminek szerinte meg kellett születnie.

Ágoston Enikő Anna: Egy korábbi interjúdban említetted, hogy amikor olvastad a Szepes Erika által írt Verstant, akkor hasonlóságot láttál a líra és a matematika között. Miben hasonlít a kettő?

Balaskó Ákos: Szepes Erika Verstan című könyvét a szigorúsága miatt szeretem, már csak a tartalomjegyzékben megjelenő kategorizálás is vagy tíz oldal. Illetve mindkét tárgyalt fő verstani irányzat, az időmértékes és az ütemhangsúlyos esetén is a lecsupaszított logikai rend uralkodik, ez szabja meg egy-egy verstani egység helyességét vagy helytelenségét. Ugyanez a (sokak számára) rigorózus szabálykövetés fellelhető a matematikában is. De ezen az aspektuson túl van egy mélyebb kapcsolat is, amely inkább a matematika szépségére mutat rá. Ahogy egy verssel is egy struktúrát, a nyelv többrétegű struktúráit hozzuk működésbe, ugyanez történik a matematikában is: matematikai struktúrák természetét veszik górcső alá, vizsgálják működés közben a különböző körülmények között.

Ágoston Enikő Anna: Szerinted valaha is képesek leszünk olyan szintre fejleszteni a mesterséges intelligenciát, hogy legyen ihlete?

Balaskó Ákos: Úgy gondolom, hogy az ihlet kérdése szorosan kapcsolódik az öntudat problémájához, csak valakinek (sic!) lehet késztetése, igénye az önkifejezésre, és ezáltal ihletettsége. Egy tárgy, egy eszköz híján van ennek. Amikor egy ChatGPT a válaszában szabadkozik és helyesbít, ha megvádoljuk, hogy nem jól tudja a választ a kérdésünkre, az egy élő interakció tanult reakciója, de a mesterséges intelligenciának valójában mindegy, hogy az a válasz helyes-e, illetve önmagától nem kezd el latolgatni még fel nem tett kérdéseket. Nincs igénye rá. Legjobb tudomásom szerint – de majd a neurobiológusok kiigazítanak –, az uralkodó irányzat úgy tartja, hogy az öntudat a neuronhálózat kellő mértékű komplexitásából ered, nincs egy elkülönített agyterület, amely az öntudatért felelne. Ha ez a feltevés helyes, akkor okkal feltételezhető, hogy a komplexitás növelésével létrejöhetne valamilyen öntudat.

Ugyanakkor filozófiai értelemben ez episztemológiai kérdés, pontosabban a másik tudat problémája, még ha létre is jönne egy ilyen ihlettel rendelkező intelligencia, mi emberek nem tudnánk minden kétséget kizáróan bebizonyítani, hogy valóban rendelkezik tudattal, és nem csak imitálja. Ahogy amúgy egymásról se tudjuk, és a világ mégsem dől össze, de ez már egy másik kérdés.

A köztudatban élő ihlet fogalom többnyire még mindig a romantikából vagy az ókorból ismert jelentéseket mozgatja meg, miközben már a késő modern alkotók is sok tekintetben újradefiniálták azt. Ágoston Enikő Anna irodalomtudományi PhD-kutatásában arra vállalkozik, hogy megértse a késő modern lírai ihlet jelentését és poétikai működését. Ez az öt éve tartó munka alapozta meg az Ihletforrás projekt elindítását, melynek része a Mi az ihlet? című interjúsorozat. A projekt célja, hogy alkotókkal és kutatókkal közösen korszerűsítsék a fogalmat, és ezzel érthetőbbé és elérhetőbbé tegyék az ihletet. Az Alföld felületén és az Ihletforrás YouTube-csatornán követhető a folyamatosan frissülő beszélgetéssorozat.

A sorozat első részében Závada Péterrel, a második részében Szabó Imola Juliannával beszélgetett Ágoston Enikő Anna.

Balaskó Ákossal Ágoston Enikő Anna beszélget

Hozzászólások

Kapcsolódó bejegyzések