Ültél már ott, vakargattad a fejed, hogy… honnan is jönnek ezek az anyagok ? Úgy értem, a mesterséges intelligencia nem turkál a poros könyvtári könyvek között, vagy nem nézeget YouTube-rövidfilmeket titokban. Mégis valahogy mindenre választ ad – a lasagne trükköktől a fekete lyukak fizikájáig –, mintha valami feneketlen irattartó szekrény lenne a belsejében. A valóság furcsább, és talán érdekesebb, mint gondolnád. Bontsuk ki egy kicsit (és igen, talán cáfoljunk meg néhány mítoszt útközben).
Ez varázslat? 🌐
Ez nem varázslat, bár néha annak tűnik. Ami a motorháztető alatt történik, az alapvetően mintaelőrejelzés . A nagy nyelvi modellek (LLM-ek) nem úgy tárolják a tényeket , ahogy az agyunk a nagymamánk sütireceptjét őrzi; ehelyett arra vannak képezve, hogy a következő szót (token) az előzőek alapján találják ki [2]. A gyakorlatban ez azt jelenti, hogy a kapcsolatokhoz kapcsolódnak: mely szavak tartoznak össze, hogyan alakulnak általában a mondatok, hogyan épülnek fel az egész ötletek állványzatként. Ezért hangzik helyesen a kimenet, annak ellenére, hogy – teljes őszinteséggel – statisztikai utánzás, nem megértés [4].
Szóval, mi teszi valójában hasznossá ? Íme néhány dolog:
-
Adatdiverzitás – számtalan forrásból származnak, nem egyetlen szűk folyamból.
-
Frissítések – frissítési ciklusok nélkül gyorsan elavul.
-
Szűrés – ideális esetben a szemét beszivárgása előtti kiszűrése (bár legyünk őszinték, a hálónak lyukai vannak).
-
Keresztellenőrzés – tekintélyes forrásokra támaszkodunk (gondoljunk a NASA-ra, a WHO-ra, nagyobb egyetemekre), ami a legtöbb MI-irányítási kézikönyvben kötelező elem [3].
Mégis, néha magabiztosan kitalál dolgokat. Azok az úgynevezett hallucinációk ? Alapvetően csiszolt ostobaságok, komoly arccal előadva [2][3].
Cikkek, amiket esetleg ezután érdemes elolvasnod:
🔗 Meg tudja jósolni a mesterséges intelligencia a lottószámokat?
Mítoszok és tények feltárása a mesterséges intelligencia által fejlesztett lottójóslatokról.
🔗 Mit jelent a mesterséges intelligencia holisztikus megközelítése?
A mesterséges intelligencia megértése kiegyensúlyozott etikai és hatásbeli perspektívákkal.
🔗 Mit mond a Biblia a mesterséges intelligenciáról
A bibliai nézőpontok vizsgálata a technológiáról és az emberi teremtésről.
Gyors összehasonlítás: Honnan merít a mesterséges intelligencia 📊
Nem minden forrás egyforma, de mindegyiknek megvan a maga szerepe. Íme egy pillanatkép.
| Forrás típusa | Ki használja (MI) | Költség/Érték | Miért működik (vagy miért nem...) |
|---|---|---|---|
| Könyvek és cikkek | Nagy nyelvi modellek | Felbecsülhetetlen (körülbelül) | A sűrű, strukturált tudás gyorsan elavul. |
| Weboldalak és blogok | Gyakorlatilag az összes mesterséges intelligencia | Ingyenes (zajjal) | Vad változatosság; a zsenialitás és a teljes szemét keveréke. |
| Akadémiai dolgozatok | Kutatás-központú mesterséges intelligenciák | Néha fizetős falak | Szigorúság + hitelesség, de erős szakzsargonban megfogalmazva. |
| Felhasználói adatok | Személyre szabott mesterséges intelligenciák | Rendkívül érzékeny ⚠️ | Elegáns szabás, de a magánélettel kapcsolatos fejfájást tömkelege van. |
| Valós idejű web | Kereséshez kapcsolt mesterséges intelligenciák | Ingyenes (ha online van) | Frissen tartja az információkat; hátránya a pletykák felerősödésének kockázata. |
Az edzésadatok univerzuma 🌌
Ez a „gyermekkori tanulás” fázisa. Képzeljük el, hogy egyszerre több millió nyilvánosan elérhető adatokat, licencelt forrásokat és oktatók által generált szöveget [2].
Felül rétegezve: válogatott emberi példák – jó válaszok, rossz válaszok, a helyes irányba tett nógatások –, mielőtt még elkezdődne a megerősítés [1].
Átláthatósági kikötés: a vállalatok nem hoznak nyilvánosságra minden részletet. Néhány védőkorlát titkos (szellemi tulajdon, biztonsági aggályok), így csak részleges betekintést nyerhetünk a tényleges helyzetbe [2].
Valós idejű keresés: Az extra feltét 🍒
Néhány modell most már képes kikukucskálni a betanítási buborékból. Ez a visszakereséssel kiegészített generálás (RAG) – alapvetően egy élő indexből vagy dokumentumtárból vesz ki adatokat, majd beilleszti azokat a válaszba [5]. Tökéletes a gyorsan változó dolgokhoz, például a hírcímekhez vagy a részvényárfolyamokhoz.
A bökkenő? Az internet egyszerre zseniális és szemétlerakó. Ha a szűrők vagy az eredetellenőrzések gyengék, fennáll a veszélye annak, hogy szemétadatok kerülnek vissza – pontosan erre figyelmeztetnek a kockázati keretrendszerek [3].
Egy gyakori megoldás: a vállalatok a modelleket a saját belső adatbázisaikhoz csatolják, így a válaszok a jelenlegi HR-politikára vagy a frissített termékdokumentációra hivatkoznak ahelyett, hogy csak úgy kapkodnának. Gondoljon csak bele: kevesebb „ó, de” pillanat, több megbízható válasz.
Finomhangolás: A mesterséges intelligencia csiszolási lépése 🧪
A nyers, előre betanított modellek nehézkesek. Ezért finomhangoljuk őket :
-
Segítőkészség, ártalmatlanság és őszinteség megtanítása (emberi visszajelzésekből származó megerősítéses tanulás, RLHF) révén [1].
-
Veszélyes vagy mérgező élek lecsiszolása (illesztés) [1].
-
Hangnemhez igazodva – legyen az barátságos, hivatalos vagy játékosan szarkasztikus.
Nem annyira egy gyémánt csiszolásáról van szó, mint inkább egy statisztikai lavináról, aminek következtében az ember inkább beszélgetőpartnerként viselkedik.
A buktatók és kudarcok 🚧
Ne tegyünk úgy, mintha hibátlan lenne:
-
Hallucinációk – éles válaszok, amelyek egyértelműen tévesek [2][3].
-
Torzítás – az adatokba beépített mintákat tükrözi; ellenőrizetlenül akár fel is erősítheti azokat [3][4].
-
Nincs első kézből származó tapasztalat levesreceptekről tud beszélni
-
Túlzott önbizalom – a szöveg úgy árad, mintha tudná, még akkor is, ha nem. A kockázatelemzési keretrendszerek hangsúlyozzák a jelző feltételezéseket [3].
Miért érzés tudni 🧠
Nincsenek hiedelmei, nincsenek emberi értelemben vett memóriái, és biztosan nincs énje. Mégis, mivel simán fűzi össze a mondatokat, az agyad úgy olvassa, mintha értené . Ami történik, az nem más, mint hatalmas léptékű következő-token jóslás : trilliónyi valószínűséget dolgoz fel másodpercek alatt [2].
Az „intelligencia” hangulata egy emergens viselkedés – a kutatók kissé ironikusan „sztochasztikus papagáj” -effektusnak nevezik [4].
Gyerekbarát analógia 🎨
Képzelj el egy papagájt, amelyik már elolvasta a könyvtár összes könyvét. Nem érti a történeteket, de képes a szavakat bölcsnek tűnővé alakítani. Néha találó, néha ostobaság – de kellő érzékkel nem mindig lehet megkülönböztetni őket.
Összefoglalás: Honnan származik a mesterséges intelligencia információja 📌
Egyszerűen fogalmazva:
-
Tömeges betanítási adatok (nyilvános + licencelt + oktató által generált) [2].
-
finomhangolása a hangnem/viselkedés alakítása érdekében [1].
-
Élő adatfolyamokhoz csatlakoztatott visszakereső rendszerek
A mesterséges intelligencia nem „tud” dolgokat – szöveget jósol . Ez egyben a szuperereje és egyben az Achilles-sarka is. A lényeg? Mindig ellenőrizd a fontos információkat egy megbízható forrással [3].
Referenciák
-
Ouyang, L. et al. (2022). Nyelvi modellek betanítása utasítások követésére emberi visszajelzéssel (InstructGPT) . arXiv .
-
OpenAI (2023). GPT-4 Műszaki Jelentés - licencelt, nyilvános és ember által létrehozott adatok keveréke; a következő token előrejelzésének célja és korlátai. arXiv .
-
NIST (2023). AI kockázatkezelési keretrendszer (AI RMF 1.0) - eredet, megbízhatóság és kockázatellenőrzések. PDF .
-
Bender, EM, Gebru, T., McMillan-Major, A., Mitchell, S. (2021). A sztochasztikus papagájok veszélyeiről: Lehetnek-e a nyelvi modellek túl nagyok? PDF .
-
Lewis, P. és munkatársai (2020). Visszakereséssel kiterjesztett generálás tudásintenzív NLP-hez . arXiv .