Hogyan telepítsünk MI-modelleket

Hogyan telepítsünk MI-modelleket

Rövid válasz: Egy MI-modell telepítése azt jelenti, hogy kiválasztunk egy kiszolgálási mintát (valós idejű, kötegelt, streamelt vagy peremhálózati), majd a teljes útvonalat reprodukálhatóvá, megfigyelhetővé, biztonságossá és visszafordíthatóvá tesszük. Ha mindent verziózunk, és összehasonlítjuk a p95/p99 késleltetést éles környezetben használt hasznos adatokon, akkor elkerülhetjük a legtöbb „működik a laptopomon” típusú hibát.

Főbb tanulságok:

Telepítési minták: Válasszon valós idejű, kötegelt, streamelt vagy peremhálózati telepítést, mielőtt véglegesíti az eszközöket.

Reprodukálhatóság: A modell, a funkciók, a kód és a környezet verziózásával megelőzhető az eltolódás.

Megfigyelhetőség: Folyamatosan figyelje a késleltetési széleket, hibákat, telítettséget, valamint az adatok vagy kimeneti eloszlásokat.

Biztonságos bevezetések: Használjon kanári, kék-zöld vagy árnyéktesztelést automatikus visszagörgetési küszöbértékekkel.

Biztonság és adatvédelem: Hitelesítés, sebességkorlátozások és titkos kódok kezelése, valamint a naplókban található személyazonosításra alkalmas adatok minimalizálása.

Hogyan telepítsünk MI-modelleket? Infografika

Cikkek, amiket esetleg ezután érdemes elolvasnod: 

🔗 Hogyan mérjük a mesterséges intelligencia teljesítményét?
Tanuljon meg metrikák, referenciaértékek és valós ellenőrzések használatát a megbízható mesterséges intelligencia eredmények érdekében.

🔗 Hogyan automatizáljunk feladatokat mesterséges intelligenciával
Alakítsa az ismétlődő munkákat munkafolyamatokká promptok, eszközök és integrációk segítségével.

🔗 Hogyan teszteljünk mesterséges intelligencia modelleket
Tervezzen értékeléseket, adatkészleteket és pontozást a modellek objektív összehasonlítása érdekében.

🔗 Hogyan beszéljünk a mesterséges intelligenciával
Tegyél fel jobb kérdéseket, adj meg kontextust, és kapj gyorsabban világosabb válaszokat.


1) Mit jelent valójában a „telepítés” (és miért nem csak egy API) 🧩

Amikor az emberek azt mondják, hogy „telepítse a modellt”, akkor a következőkre gondolhatnak:

Tehát a telepítés kevésbé a „modell hozzáférhetővé tételét” jelenti, és inkább a következőt:

  • csomagolás + kiszolgálás + skálázás + monitorozás + irányítás + visszagörgetés ( kék-zöld telepítés )

Ez olyan, mint egy étterem megnyitása. Fontos, hogy nagyszerű ételeket készítsünk, persze. De ehhez még mindig kell az épület, a személyzet, a hűtés, az étlapok, az ellátási lánc, és egy módja annak, hogy kezeljük a vacsora rohanást anélkül, hogy a mélyhűtőben sírnánk. Nem tökéletes metafora... de érted. 🍝


2) Mitől lesz jó egy „Hogyan telepítsünk mesterséges intelligencia modelleket” című könyv ✅

Egy „jó bevetés” a legjobb értelemben unalmas. Nyomás alatt kiszámíthatóan viselkedik, és ha nem, azt gyorsan diagnosztizálni lehet.

Így néz ki általában a „jó”:

  • Reprodukálható buildek
    Ugyanaz a kód + ugyanazok a függőségek = ugyanaz a viselkedés. Nincsenek hátborzongató „működik a laptopomon” hangulatok 👻 ( Docker: Mi az a konténer? )

  • Egyértelmű interfész szerződés
    A bemenetek, kimenetek, sémák és szélső esetek definiáltak. Nincsenek meglepetéstípusok hajnali 2-kor. ( OpenAPI: Mi az OpenAPI?, JSON séma )

  • Valóságnak megfelelő teljesítmény.
    A késleltetést és az átviteli sebességet éles környezetben használt hardvereken és valósághű hasznos terheléseken mérték.

  • Fogas monitorozás
    Metrikák, naplók, nyomkövetések és eltolódási ellenőrzések, amelyek műveleteket indítanak el (nem csak olyan irányítópultokat, amelyeket senki sem nyit meg). ( SRE könyv: Elosztott rendszerek monitorozása )

  • Biztonságos bevezetési stratégia
    Canary vagy kék-zöld, egyszerű visszagörgetés, imádkozást nem igénylő verziózás. ( Canary kiadás , kék-zöld telepítés )

  • Költségtudatosság A
    „gyors” funkció addig jó, amíg a számla telefonszámra nem hasonlít 📞💸

  • Biztonság és adatvédelem
    a titkosításkezelésben, hozzáférés-vezérlésben, személyazonosításra alkalmas adatok kezelésében és auditálhatóságban. ( Kubernetes Secrets , NIST SP 800-122 )

Ha ezeket következetesen tudod csinálni, akkor már a legtöbb csapat előtt jársz. Legyünk őszinték.


3) Válassza ki a megfelelő telepítési mintát (mielőtt eszközöket választana) 🧠

Valós idejű API-következtetés ⚡

Legjobb, ha:

  • a felhasználóknak azonnali eredményekre van szükségük (ajánlások, csalásellenőrzések, csevegés, személyre szabás)

  • a döntéseknek egy kérés során kell megszületniük

Figyelmeztetések:

Kötegelt pontozás 📦

Legjobb, ha:

  • az előrejelzések késleltethetők (egynapos kockázatértékelés, ügyfél-elvándorlás előrejelzése, ETL-dúsítás) ( Amazon SageMaker Batch Transform )

  • költséghatékonyságot és egyszerűbb működést szeretnél

Figyelmeztetések:

  • adatfrissesség és háttérkitöltések

  • a funkciók logikájának a betanítással való konzisztenciája

Streamelési következtetés 🌊

Legjobb, ha:

  • folyamatosan feldolgozod az eseményeket (IoT, kattintásfolyamok, monitoring rendszerek)

  • közel valós idejű döntéseket szeretne szigorú kérés-válasz nélkül

Figyelmeztetések:

Edge telepítés 📱

Legjobb, ha:

Figyelmeztetések:

Először a mintát válaszd ki, majd a verem modellt. Különben egy négyzet alakú modellt kényszerítesz egy kerek futási környezetbe. Vagy valami hasonló. 😬


4) A modell becsomagolása úgy, hogy kibírja a gyártással való érintkezést 📦🧯

Itt hal meg csendben a legtöbb „könnyű telepítés”.

Minden verzió (igen, minden)

  • Modell-artefaktum (súlyok, gráf, tokenizer, címketérképek)

  • Jellemzőlogika (transzformációk, normalizálás, kódolók)

  • Következtető kód (előfeldolgozás/utófeldolgozás)

  • Környezet (Python, CUDA, rendszerkönyvtárak)

Egy egyszerű, de működő megközelítés:

  • a modellt kiadási műtermékként kezeljük

  • tárolja egy verziócímkével

  • modellkártya-szerű metaadatfájlra van szükség: séma, metrikák, betanítási adatok pillanatkép-megjegyzései, ismert korlátozások ( Modellkártyák modelljelentésekhez )

A konténerek segítenek, de ne imádd őket 🐳

A konténerek nagyszerűek, mert:

  • függőségek befagyasztása ( Docker: Mi az a konténer? )

  • szabványosítani a buildeket

  • egyszerűsítse a telepítési célokat

De még mindig kezelnie kell:

  • alapkép frissítései

  • GPU-illesztőprogramok kompatibilitása

  • biztonsági szkennelés

  • képméret (senki sem szereti a 9 GB-os „hello world”-öt) ( Docker build bevált gyakorlatok )

Szabványosítsa a felhasználói felületet

Korán döntsd el a bemeneti/kimeneti formátumot:

És kérlek, ellenőrizd a bemeneteket. Az érvénytelen bemenetek a „miért ad vissza értelmetlen adatokat” jegyek legfőbb okai. ( OpenAPI: Mi az OpenAPI?, JSON séma )


5) Kiszolgálási lehetőségek - az „egyszerű API”-tól a teljes modellkiszolgálókig 🧰

Két gyakori útvonal létezik:

A. lehetőség: Alkalmazáskiszolgáló + következtetési kód (FastAPI-stílusú megközelítés) 🧪

Írsz egy API-t, amely betölti a modellt és előrejelzéseket ad vissza. ( FastAPI )

Előnyök:

  • könnyen testreszabható

  • nagyszerű egyszerűbb modellekhez vagy korai fázisú termékekhez

  • egyszerű hitelesítés, útvonaltervezés és integráció

Hátrányok:

  • saját teljesítményhangolás (kötegelés, szálkezelés, GPU-kihasználtság)

  • Újra feltalálsz majd néhány kereket, eleinte talán rosszul is

B. lehetőség: Modellkiszolgáló (TorchServe / Triton stílusú megközelítés) 🏎️

Speciális szerverek, amelyek a következőket kezelik:

Előnyök:

  • jobb teljesítményminták azonnal

  • tisztább elkülönítés a kiszolgálás és az üzleti logika között

Hátrányok:

  • extra működési bonyolultság

  • a konfiguráció… aprólékosnak tűnhet, mint egy zuhany hőmérsékletének beállítása

A hibrid minta nagyon gyakori:


6) Összehasonlító táblázat - népszerű telepítési módok (őszinte hangulattal) 📊😌

Az alábbiakban egy gyakorlati áttekintést láthatunk azokról a lehetőségekről, amelyeket az emberek valójában használnak, amikor kitalálják, hogyan telepítsenek MI-modelleket .

Eszköz / Megközelítés Közönség Ár Miért működik
Docker + FastAPI (vagy hasonló) Kis csapatok, startupok Szabad-szerű Egyszerű, rugalmas, gyorsan szállítható - minden skálázási problémát "érezni" fogsz ( Docker , FastAPI )
Kubernetes (DIY) Platformcsapatok Infravörös függőség Vezérlés + skálázhatóság… valamint rengeteg gomb, némelyik elátkozott ( Kubernetes HPA )
Felügyelt ML platform (felhőalapú ML szolgáltatás) Csapatok, amelyek kevesebb műveletet szeretnének Fizessen használat szerint Beépített telepítési munkafolyamatok, monitorozási hookok - néha drágák az állandóan bekapcsolt végpontok esetében ( Vertex AI telepítés , SageMaker valós idejű következtetés )
Kiszolgáló nélküli függvények (könnyű következtetéshez) Eseményvezérelt alkalmazások Fizetés használatonként Nagyszerű a tüskés forgalomhoz - de a hidegindítások és a modell mérete elronthatja a napodat 😬 ( AWS Lambda hidegindítások )
NVIDIA Triton következtetési szerver Teljesítményorientált csapatok Ingyenes szoftver, infrastruktúra költség Kiváló GPU-kihasználtság, kötegelt feldolgozás, több modell - a konfiguráció türelmet igényel ( Triton: Dinamikus kötegelt feldolgozás )
TorchServe PyTorch-igényes csapatok Ingyenes szoftver Megfelelő alapértelmezett kiszolgálási minták - nagy léptékű megjelenítéshez finomhangolásra lehet szükség ( TorchServe dokumentáció )
BentoML (csomagolás + tálalás) ML mérnökök Ingyenes alapcsomag, az extrák változhatnak Sima csomagolás, kellemes fejlesztői élmény - továbbra is szükség van infrastrukturális választási lehetőségekre ( BentoML csomagolás a telepítéshez )
Ray Serve Elosztott rendszerekért felelős emberek Infravörös függőség Vízszintesen skálázható, jó a pipeline-okhoz - apró projektekhez „nagynak” tűnik ( Ray Serve dokumentáció )

Táblázathoz fűzött megjegyzés: Az „ingyenes” szó a való életben is így van. Mert sosem ingyenes. Mindig van valahol számla, még akkor is, ha az alvásodról van szó. 😴


7) Teljesítmény és skálázás - késleltetés, átviteli sebesség és az igazság 🏁

A teljesítményhangolás az, ahol a telepítés kézművességgé válik. A cél nem a „gyorsaság”. A cél az, hogy következetesen elég gyors legyen .

Fontos mutatók

Gyakori húzókarok

  • Kötegelt feldolgozás
    A kérések kombinálása a GPU-használat maximalizálása érdekében. Nagyszerű az átviteli sebesség szempontjából, de a túlzásba vitt feldolgozás ronthatja a késleltetést. ( Triton: Dinamikus kötegelt feldolgozás )

  • Kvantálás
    Az alacsonyabb pontosság (mint az INT8) felgyorsíthatja a következtetést és csökkentheti a memóriát. Kissé ronthatja a pontosságot. Meglepő módon néha nem. ( Tanítás utáni kvantálás )

  • fordítása / optimalizálása
    , gráfoptimalizálók, TensorRT-szerű folyamatok. Hatékony, de a hibakeresés bonyolulttá válhat 🌶️ ( ONNX , ONNX futásidejű modell optimalizálások )

  • Gyorsítótárazás
    Ha a bemenetek ismétlődnek (vagy gyorsítótárazhatja a beágyazásokat), sokat spórolhat.

  • Automatikus
    skálázás Méretezés CPU/GPU kihasználtság, várólista mélysége vagy kérési gyakoriság alapján. A várólista mélysége alulértékelt. ( Kubernetes HPA )

Egy furcsa, de igaz tipp: mérj éles környezetben használt hasznos adatméretekkel. Az apró tesztadatok hazudnak neked. Udvariasan mosolyognak, majd később elárulnak.


8) Megfigyelés és megfigyelhetőség - ne repülj vakon 👀📈

A modellmonitorozás nem csak az üzemidő monitorozását jelenti. Tudni szeretné, hogy:

Mit kell monitorozni (minimálisan megvalósítható készlet)

Szolgáltatás állapota

Modell viselkedése

  • bemeneti jellemzők eloszlása ​​(alap statisztikák)

  • beágyazási normák (beágyazási modellekhez)

  • kimeneti eloszlások (konfidencia, osztálymix, pontszámtartományok)

  • anomáliadetektálás bemeneteken (garbage in, garbage out)

Adateltolódás és koncepcióeltolódás

Naplózás, de nem a „mindent naplózzunk örökre” megközelítés 🪵

Napló:

  • kérésazonosítók

  • modell verzió

  • sémaérvényesítési eredmények ( OpenAPI: Mi az OpenAPI? )

  • minimális strukturált hasznos adat metaadatok (nem nyers személyazonosításra alkalmas adatok) ( NIST SP 800-122 )

Vigyázz az adatvédelemmel. Nem akarod, hogy a naplóid adatszivárgássá váljanak. ( NIST SP 800-122 )


9) CI/CD és bevezetési stratégiák – a modelleket úgy kezeld, mint a valódi kiadásokat 🧱🚦

Ha megbízható telepítéseket szeretnél, építs egy folyamatot. Akár egy egyszerűt is.

Szilárd áramlás

  • Egységtesztek előfeldolgozáshoz és utófeldolgozáshoz

  • Integrációs teszt ismert bemeneti-kimeneti „aranyhalmazzal”

  • Terhelési teszt alapvonala (akár könnyű verzió esetén is)

  • Összeállítási műtermék (konténer + modell) ( Docker építési bevált gyakorlatok )

  • Telepítés az átmeneti zónába

  • Canary kiadás a forgalom egy kis szeletére ( Canary Release )

  • Fokozatosan növelje

  • Automatikus visszagörgetés a kulcsfontosságú küszöbértékeknél ( kék-zöld telepítés )

Kigurulási minták, amelyek megmentik az ép eszedet

  • Canary : először 1-5%-os forgalomra való megjelenés ( Canary Release )

  • Kék-zöld : az új verzió futtatása a régi mellett, megfordítás, amikor készen áll ( kék-zöld telepítés )

  • Árnyéktesztelés : valós forgalmat küldj az új modellnek, de ne használd az eredményeket (nagyszerű az értékeléshez) ( Microsoft: Árnyéktesztelés )

És verziózd a végpontjaidat vagy az útvonaladat modellverzió szerint. A jövőben is hálás leszel. A jelenlegiben is hálás leszel, de csendben.


10) Biztonság, adatvédelem és a „kérlek ne szivárogtass ki dolgokat” 🔐🙃

A biztonságiak hajlamosak későn érkezni, mint egy hívatlan vendég. Jobb korán meghívni őket.

Gyakorlati ellenőrzőlista

  • Hitelesítés és engedélyezés (ki hívhatja meg a modellt?)

  • Sebességkorlátozás (védelem a visszaélések és a véletlen viharok ellen) ( API Gateway throttling )

  • Titkos kulcsok kezelése (nincsenek kulcsok a kódban, nincsenek kulcsok a konfigurációs fájlokban sem…) ( AWS Secrets Manager , Kubernetes Secrets )

  • Hálózati vezérlők (privát alhálózatok, szolgáltatás-szolgáltatás közötti szabályzatok)

  • Naplófájlok (különösen az érzékeny előrejelzések esetében)

  • Adatminimalizálás (csak azt tárold, amit feltétlenül muszáj) ( NIST SP 800-122 )

Ha a modell személyes adatokat érint:

  • kitakart vagy hash azonosítók

  • nyers hasznos adatok naplózásának elkerülése ( NIST SP 800-122 )

  • megőrzési szabályok meghatározása

  • dokumentum adatfolyam (unalmas, de védelmet nyújt)

A generatív modellek esetében a gyors injektálás és a kimenettel való visszaélés is számíthat. Hozzáadás: ( OWASP Top 10 LLM alkalmazásokhoz , OWASP: Gyors injektálás )

  • bemeneti fertőtlenítési szabályok

  • kimeneti szűrés, ahol szükséges

  • védőkorlátok eszközhívásokhoz vagy adatbázis-műveletekhez

Egyik rendszer sem tökéletes, de lehet kevésbé törékennyé tenni.


11) Gyakori buktatók (más néven a szokásos csapdák) 🪤

Íme a klasszikusok:

Ha ezt olvasod és arra gondolsz, hogy „igen, kettőt is csinálunk ebből”, akkor üdv a klubban. A klubban vannak nassolnivalók és enyhe stresszoldó. 🍪


12) Összefoglalás - Hogyan telepítsünk MI-modelleket anélkül, hogy elveszítenénk az eszünket 😄✅

A telepítés során válik a mesterséges intelligencia valódi termékké. Nem csillogó, de itt lehet kiérdemelni a bizalmat.

Gyors összefoglaló

És igen, az MI-modellek telepítése eleinte olyan lehet, mint lángoló bowlinggolyókkal zsonglőrködni. De amint a folyamat stabilizálódik, furcsán kielégítővé válik. Olyan, mintha végre rendszereznénk egy zsúfolt fiókot… csak a fiókban van az éles forgalom. 🔥🎳

GYIK

Mit jelent egy AI-modell éles környezetben történő telepítése?

Egy MI-modell telepítése általában sokkal többet foglal magában, mint egy predikciós API közzététele. A gyakorlatban magában foglalja a modell és függőségeinek becsomagolását, egy kiszolgálási minta kiválasztását (valós idejű, kötegelt, streamelt vagy peremhálózati), a megbízhatósággal való skálázást, az állapot és az eltérés monitorozását, valamint a biztonságos bevezetési és visszagörgetési útvonalak beállítását. A stabil telepítés terhelés alatt is kiszámíthatóan stabil marad, és diagnosztizálható, ha valami rosszul megy.

Hogyan válasszunk valós idejű, kötegelt, streamelt vagy peremhálózati telepítés között?

Válassza ki a telepítési mintát az alapján, hogy mikor van szükség előrejelzésekre, és milyen korlátok között működik. A valós idejű API-k olyan interaktív élményekhez illeszkednek, ahol a késleltetés számít. A kötegelt pontozás akkor működik a legjobban, ha a késések elfogadhatóak, és a költséghatékonyság vezet eredményre. A streamelés a folyamatos eseményfeldolgozáshoz illik, különösen akkor, ha a kézbesítési szemantika bonyolulttá válik. A peremhálózati telepítés ideális offline működéshez, adatvédelemhez vagy ultra alacsony késleltetésű követelményekhez, bár a frissítések és a hardvervariációk kezelése nehezebbé válik.

Milyen verziókat kell elkerülni a „működik a laptopomon” telepítési hibák elkerülése érdekében

A modell súlyozásán túlmutató verziózásra van szükség. Általában egy verziózott modell-artifaktumra (beleértve a tokenizereket vagy a címketérképeket), előfeldolgozásra és funkciólogikára, következtetési kódra és a teljes futásidejű környezetre (Python/CUDA/rendszerkönyvtárak) van szükség. A modellt kiadási artifaktumként kell kezelni, címkézett verziókkal és könnyű metaadatokkal, amelyek leírják a séma elvárásait, az értékelési megjegyzéseket és az ismert korlátozásokat.

Akár egyszerű FastAPI-stílusú szolgáltatással, akár egy dedikált modellkiszolgálóval telepítjük

Egy egyszerű alkalmazáskiszolgáló (FastAPI-stílusú megközelítés) jól működik korai termékek vagy egyszerű modellek esetén, mivel megtarthatod az irányítást az útválasztás, a hitelesítés és az integráció felett. Egy modellkiszolgáló (TorchServe vagy NVIDIA Triton-stílusú) erősebb kötegelt feldolgozást, párhuzamos működést és GPU-hatékonyságot biztosíthat alapból. Sok csapat hibrid megoldásra pályázik: egy modellkiszolgáló a következtetéshez, plusz egy vékony API-réteg a hitelesítéshez, a kérések alakításához és a sebességkorlátokhoz.

Hogyan javítható a késleltetés és az átviteli sebesség a pontosság feláldozása nélkül

Kezdjük a p95/p99 késleltetés mérésével éles környezethez hasonló hardvereken, realisztikus hasznos terheléssel, mivel a kis tesztek félrevezetőek lehetnek. A gyakori eszközök közé tartozik a kötegelt feldolgozás (jobb átviteli sebesség, potenciálisan rosszabb késleltetés), a kvantálás (kisebb és gyorsabb, néha szerény pontossági kompromisszumokkal), a fordítási és optimalizálási folyamatok (ONNX/TensorRT-szerű), valamint az ismétlődő bemenetek vagy beágyazások gyorsítótárazása. A várólista mélységén alapuló automatikus skálázás megakadályozhatja a farok késleltetésének felfelé kúszását is.

Milyen monitorozásra van szükség a „végpont elérhetősége” túl?

Az üzemidő önmagában nem elég, mert egy szolgáltatás egészségesnek tűnhet, miközben az előrejelzés minősége romlik. Legalább a kérések mennyiségét, a hibaszázalékot és a késleltetés eloszlását, valamint a telítettségi jeleket, például a CPU/GPU/memória és a várakozási idő eloszlását kell figyelni. A modell viselkedése esetén a bemeneti és kimeneti eloszlásokat kell követni az alapvető anomáliajelekkel együtt. A zajos riasztások helyett műveletet kiváltó eltolódási ellenőrzéseket kell hozzáadni, valamint naplózni kell a kérésazonosítókat, a modellverziókat és a sémaérvényesítési eredményeket.

Hogyan lehet biztonságosan bevezetni az új modellverziókat, és gyorsan helyreállítani azokat?

A modelleket teljes kiadásként kell kezelni egy CI/CD folyamattal, amely teszteli az előfeldolgozást és az utófeldolgozást, integrációs ellenőrzéseket futtat egy „aranykészlettel” szemben, és meghatároz egy terhelési alapvonalat. Kiadások esetén a canary fokozatosan növeli a forgalmat, míg a kék-zöld egy régebbi verziót tart életben azonnali tartalékként. Az árnyéktesztelés segít egy új modell kiértékelésében valós forgalomban anélkül, hogy befolyásolná a felhasználókat. A visszagörgetésnek első osztályú mechanizmusnak kell lennie, nem pedig utólagos gondolatnak.

A leggyakoribb buktatók az AI-modellek telepítésének elsajátításakor

A betanítás-kiszolgálás torzítása a klasszikus eset: az előfeldolgozás eltér a betanítás és az éles környezet között, és a teljesítmény észrevétlenül romlik. Egy másik gyakori probléma a hiányzó sémavalidáció, ahol egy upstream változás finoman rontja a bemeneti értékeket. A csapatok alábecsülik a késleltetést, és túlságosan az átlagokra koncentrálnak, figyelmen kívül hagyják a költségeket (az üresjárati GPU-k gyorsan összeadódnak), és kihagyják a visszagörgetés tervezését. Az üzemidő monitorozása különösen kockázatos, mert a „felpörgetés, de rossz” rosszabb lehet, mint a leállás.

Referenciák

  1. Amazon Web Services (AWS) - Amazon SageMaker: Valós idejű következtetés - docs.aws.amazon.com

  2. Amazon Web Services (AWS) - Amazon SageMaker kötegelt átalakítás - docs.aws.amazon.com

  3. Amazon Web Services (AWS) - Amazon SageMaker modellfigyelő - docs.aws.amazon.com

  4. Amazon Web Services (AWS) - API Gateway kérések szabályozása - docs.aws.amazon.com

  5. Amazon Web Services (AWS) - AWS Secrets Manager: Bevezetés - docs.aws.amazon.com

  6. Amazon Web Services (AWS) - AWS Lambda végrehajtási környezet életciklusa - docs.aws.amazon.com

  7. Google Cloud - Vertex AI: Modell telepítése végpontra - docs.cloud.google.com

  8. Google CloudVertex AI modellmonitorozás áttekintésedocs.cloud.google.com

  9. Google Cloud - Vertex AI: Jellemzők ferdeségének és eltolódásának monitorozása - docs.cloud.google.com

  10. Google Cloud Blog - Adatfolyam: pontosan egyszeri vs. legalább egyszeri streamelési módok - cloud.google.com

  11. Google CloudCloud Dataflow streamelési módokdocs.cloud.google.com

  12. Google SRE könyv - Elosztott rendszerek monitorozása - sre.google

  13. Google Kutatás - A nagyszabású kutatás - research.google

  14. LiteRT (Google AI)A LiteRT áttekintéseai.google.dev

  15. LiteRT (Google AI)LiteRT következtetés az eszközönai.google.dev

  16. Docker - Mi az a konténer? - docs.docker.com

  17. Docker - Docker build bevált gyakorlatok - docs.docker.com

  18. KubernetesKubernetes titkaikubernetes.io

  19. Kubernetes - Vízszintes Pod automatikus skálázás - kubernetes.io

  20. Martin Fowler - Kanári-szabadítás - martinfowler.com

  21. Martin Fowler - Kék-zöld bevetés - martinfowler.com

  22. OpenAPI Kezdeményezés - Mi az OpenAPI? - openapis.org

  23. JSON séma - (hivatkozott oldal) - json-schema.org

  24. Protokollpufferek - Protokollpufferek áttekintése - protobuf.dev

  25. FastAPI - (hivatkozott oldal) - fastapi.tiangolo.com

  26. NVIDIA - Triton: Dinamikus kötegelés és egyidejű modellvégrehajtás - docs.nvidia.com

  27. NVIDIA - Triton: Egyidejű modellvégrehajtás - docs.nvidia.com

  28. NVIDIA - Triton Inference Server dokumentáció - docs.nvidia.com

  29. PyTorch - TorchServe dokumentációk - docs.pytorch.org

  30. BentoML - Csomagolás telepítéshez - docs.bentoml.com

  31. Ray - Ray Serve dokumentációk - docs.ray.io

  32. TensorFlow - Tanítás utáni kvantálás (TensorFlow modelloptimalizálás) - tensorflow.org

  33. TensorFlow - TensorFlow adatellenőrzés: betanítás-kiszolgálási torzítás észlelése - tensorflow.org

  34. ONNX - (hivatkozott oldal) - onnx.ai

  35. ONNX RuntimeModelloptimalizálásonnxruntime.ai

  36. NIST (Nemzeti Szabványügyi és Technológiai Intézet) - NIST SP 800-122 - csrc.nist.gov

  37. arXiv - Modellkártyák modelljelentésekhez - arxiv.org

  38. Microsoft - Árnyéktesztelés - microsoft.github.io

  39. OWASP - OWASP top 10 LLM jelentkezéshez - owasp.org

  40. OWASP GenAI biztonsági projekt - OWASP: Azonnali injekciózás - genai.owasp.org

Találd meg a legújabb mesterséges intelligenciát a hivatalos AI Assistant áruházban

Rólunk

Vissza a bloghoz