honnan szerzi az információkat a mesterséges intelligencia

Honnan szerzi az információit a mesterséges intelligencia?

Ültél már ott, vakargattad a fejed, hogy… honnan is jönnek ezek az anyagok ? Úgy értem, a mesterséges intelligencia nem turkál a poros könyvtári könyvek között, vagy nem nézeget YouTube-rövidfilmeket titokban. Mégis valahogy mindenre választ ad – a lasagne trükköktől a fekete lyukak fizikájáig –, mintha valami feneketlen irattartó szekrény lenne a belsejében. A valóság furcsább, és talán érdekesebb, mint gondolnád. Bontsuk ki egy kicsit (és igen, talán cáfoljunk meg néhány mítoszt útközben).


Ez varázslat? 🌐

Ez nem varázslat, bár néha annak tűnik. Ami a motorháztető alatt történik, az alapvetően mintaelőrejelzés . A nagy nyelvi modellek (LLM-ek) nem úgy tárolják a tényeket , ahogy az agyunk a nagymamánk sütireceptjét őrzi; ehelyett arra vannak képezve, hogy a következő szót (token) az előzőek alapján találják ki [2]. A gyakorlatban ez azt jelenti, hogy a kapcsolatokhoz kapcsolódnak: mely szavak tartoznak össze, hogyan alakulnak általában a mondatok, hogyan épülnek fel az egész ötletek állványzatként. Ezért hangzik helyesen a kimenet, annak ellenére, hogy – teljes őszinteséggel – statisztikai utánzás, nem megértés [4].

Szóval, mi teszi valójában hasznossá ? Íme néhány dolog:

  • Adatdiverzitás – számtalan forrásból származnak, nem egyetlen szűk folyamból.

  • Frissítések – frissítési ciklusok nélkül gyorsan elavul.

  • Szűrés – ideális esetben a szemét beszivárgása előtti kiszűrése (bár legyünk őszinték, a hálónak lyukai vannak).

  • Keresztellenőrzés – tekintélyes forrásokra támaszkodunk (gondoljunk a NASA-ra, a WHO-ra, nagyobb egyetemekre), ami a legtöbb MI-irányítási kézikönyvben kötelező elem [3].

Mégis, néha magabiztosan kitalál dolgokat. Azok az úgynevezett hallucinációk ? Alapvetően csiszolt ostobaságok, komoly arccal előadva [2][3].

Cikkek, amiket esetleg ezután érdemes elolvasnod:

🔗 Meg tudja jósolni a mesterséges intelligencia a lottószámokat?
Mítoszok és tények feltárása a mesterséges intelligencia által fejlesztett lottójóslatokról.

🔗 Mit jelent a mesterséges intelligencia holisztikus megközelítése?
A mesterséges intelligencia megértése kiegyensúlyozott etikai és hatásbeli perspektívákkal.

🔗 Mit mond a Biblia a mesterséges intelligenciáról
A bibliai nézőpontok vizsgálata a technológiáról és az emberi teremtésről.


Gyors összehasonlítás: Honnan merít a mesterséges intelligencia 📊

Nem minden forrás egyforma, de mindegyiknek megvan a maga szerepe. Íme egy pillanatkép.

Forrás típusa Ki használja (MI) Költség/Érték Miért működik (vagy miért nem...)
Könyvek és cikkek Nagy nyelvi modellek Felbecsülhetetlen (körülbelül) A sűrű, strukturált tudás gyorsan elavul.
Weboldalak és blogok Gyakorlatilag az összes mesterséges intelligencia Ingyenes (zajjal) Vad változatosság; a zsenialitás és a teljes szemét keveréke.
Akadémiai dolgozatok Kutatás-központú mesterséges intelligenciák Néha fizetős falak Szigorúság + hitelesség, de erős szakzsargonban megfogalmazva.
Felhasználói adatok Személyre szabott mesterséges intelligenciák Rendkívül érzékeny ⚠️ Elegáns szabás, de a magánélettel kapcsolatos fejfájást tömkelege van.
Valós idejű web Kereséshez kapcsolt mesterséges intelligenciák Ingyenes (ha online van) Frissen tartja az információkat; hátránya a pletykák felerősödésének kockázata.

Az edzésadatok univerzuma 🌌

Ez a „gyermekkori tanulás” fázisa. Képzeljük el, hogy egyszerre több millió nyilvánosan elérhető adatokat, licencelt forrásokat és oktatók által generált szöveget [2].

Felül rétegezve: válogatott emberi példák – jó válaszok, rossz válaszok, a helyes irányba tett nógatások –, mielőtt még elkezdődne a megerősítés [1].

Átláthatósági kikötés: a vállalatok nem hoznak nyilvánosságra minden részletet. Néhány védőkorlát titkos (szellemi tulajdon, biztonsági aggályok), így csak részleges betekintést nyerhetünk a tényleges helyzetbe [2].


Valós idejű keresés: Az extra feltét 🍒

Néhány modell most már képes kikukucskálni a betanítási buborékból. Ez a visszakereséssel kiegészített generálás (RAG) – alapvetően egy élő indexből vagy dokumentumtárból vesz ki adatokat, majd beilleszti azokat a válaszba [5]. Tökéletes a gyorsan változó dolgokhoz, például a hírcímekhez vagy a részvényárfolyamokhoz.

A bökkenő? Az internet egyszerre zseniális és szemétlerakó. Ha a szűrők vagy az eredetellenőrzések gyengék, fennáll a veszélye annak, hogy szemétadatok kerülnek vissza – pontosan erre figyelmeztetnek a kockázati keretrendszerek [3].

Egy gyakori megoldás: a vállalatok a modelleket a saját belső adatbázisaikhoz csatolják, így a válaszok a jelenlegi HR-politikára vagy a frissített termékdokumentációra hivatkoznak ahelyett, hogy csak úgy kapkodnának. Gondoljon csak bele: kevesebb „ó, de” pillanat, több megbízható válasz.


Finomhangolás: A mesterséges intelligencia csiszolási lépése 🧪

A nyers, előre betanított modellek nehézkesek. Ezért finomhangoljuk őket :

  • Segítőkészség, ártalmatlanság és őszinteség megtanítása (emberi visszajelzésekből származó megerősítéses tanulás, RLHF) révén [1].

  • Veszélyes vagy mérgező élek lecsiszolása (illesztés) [1].

  • Hangnemhez igazodva – legyen az barátságos, hivatalos vagy játékosan szarkasztikus.

Nem annyira egy gyémánt csiszolásáról van szó, mint inkább egy statisztikai lavináról, aminek következtében az ember inkább beszélgetőpartnerként viselkedik.


A buktatók és kudarcok 🚧

Ne tegyünk úgy, mintha hibátlan lenne:

  • Hallucinációk – éles válaszok, amelyek egyértelműen tévesek [2][3].

  • Torzítás – az adatokba beépített mintákat tükrözi; ellenőrizetlenül akár fel is erősítheti azokat [3][4].

  • Nincs első kézből származó tapasztalat levesreceptekről tud beszélni

  • Túlzott önbizalom – a szöveg úgy árad, mintha tudná, még akkor is, ha nem. A kockázatelemzési keretrendszerek hangsúlyozzák a jelző feltételezéseket [3].


Miért érzés tudni 🧠

Nincsenek hiedelmei, nincsenek emberi értelemben vett memóriái, és biztosan nincs énje. Mégis, mivel simán fűzi össze a mondatokat, az agyad úgy olvassa, mintha értené . Ami történik, az nem más, mint hatalmas léptékű következő-token jóslás : trilliónyi valószínűséget dolgoz fel másodpercek alatt [2].

Az „intelligencia” hangulata egy emergens viselkedés – a kutatók kissé ironikusan „sztochasztikus papagáj” -effektusnak nevezik [4].


Gyerekbarát analógia 🎨

Képzelj el egy papagájt, amelyik már elolvasta a könyvtár összes könyvét. Nem érti a történeteket, de képes a szavakat bölcsnek tűnővé alakítani. Néha találó, néha ostobaság – de kellő érzékkel nem mindig lehet megkülönböztetni őket.


Összefoglalás: Honnan származik a mesterséges intelligencia információja 📌

Egyszerűen fogalmazva:

  • Tömeges betanítási adatok (nyilvános + licencelt + oktató által generált) [2].

  • finomhangolása a hangnem/viselkedés alakítása érdekében [1].

  • Élő adatfolyamokhoz csatlakoztatott visszakereső rendszerek

A mesterséges intelligencia nem „tud” dolgokat – szöveget jósol . Ez egyben a szuperereje és egyben az Achilles-sarka is. A lényeg? Mindig ellenőrizd a fontos információkat egy megbízható forrással [3].


Referenciák

  1. Ouyang, L. et al. (2022). Nyelvi modellek betanítása utasítások követésére emberi visszajelzéssel (InstructGPT) . arXiv .

  2. OpenAI (2023). GPT-4 Műszaki Jelentés - licencelt, nyilvános és ember által létrehozott adatok keveréke; a következő token előrejelzésének célja és korlátai. arXiv .

  3. NIST (2023). AI kockázatkezelési keretrendszer (AI RMF 1.0) - eredet, megbízhatóság és kockázatellenőrzések. PDF .

  4. Bender, EM, Gebru, T., McMillan-Major, A., Mitchell, S. (2021). A sztochasztikus papagájok veszélyeiről: Lehetnek-e a nyelvi modellek túl nagyok? PDF .

  5. Lewis, P. és munkatársai (2020). Visszakereséssel kiterjesztett generálás tudásintenzív NLP-hez . arXiv .


Találd meg a legújabb mesterséges intelligenciát a hivatalos AI Assistant áruházban

Rólunk

Vissza a bloghoz