Hogyan fogja a mesterséges intelligencia befolyásolni az adatmérnökök szerepét?

A mesterséges intelligencia várhatóan átalakítja az adatmérnöki szerepköröket az olyan ismétlődő feladatok automatizálásával, mint az SQL-tervezés és -dokumentáció. Azonban a magas szintű felelősségvállalás, mint például az adatszerződések meghatározása és az adatminőség kezelése, továbbra is emberi szakértelmet igényel.

Az adatmérnökség mely részeit automatizálhatja a mesterséges intelligencia?

A mesterséges intelligencia kiválóan automatizál olyan feladatokat, mint az SQL-kód generálása, a DBT-modellvázlatok létrehozása és a dokumentációvázlatok megírása. Ez segít a mérnököknek hatékonyabban elindítani a projekteket, de az emberi validáció továbbra is szükséges a pontosság biztosításához.

Vajon az adatmérnökök elavulnak a mesterséges intelligencia térnyerésével?

Bár bizonyos feladatok automatizálhatók, az adatmérnökök szerepe inkább fejlődik, mint eltűnik. A mérnökök inkább a rendszertervezésre, az elszámoltathatóságra és az irányításra fognak összpontosítani, ami értékesebbé teszi őket, mivel a mesterséges intelligencia segít az alapvető feladatok egyszerűsítésében.

Miért fontos továbbra is az emberi felügyelet a mesterséges intelligencia használatakor az adatmérnökségben?

Az emberi felügyelet kulcsfontosságú, mivel az adatmérnökség gyakran kétértelmű üzleti logikát és az eredményekért való elszámoltathatóságot foglal magában. A mesterséges intelligencia segíthet a megoldások kidolgozásában, de nem tudja teljes mértékben kezelni az adatkezelés és a megfelelés összetettségét.

Milyen készségek lesznek elengedhetetlenek az adatmérnökök számára, ahogy a mesterséges intelligencia eszközök fejlődnek?

A kulcskompetenciák közé tartozik a rendszertervezés, az adatminőség-tervezés, az adatszerződések meghatározása és a hatékony kommunikáció. Ezek a területek kritikus fontosságúak a megbízhatóság és a megfelelőség biztosításához, mivel a mesterséges intelligencia több rutinfeladatot kezel.

Hogyan javíthatja a mesterséges intelligencia az adatmérnökök és más csapatok közötti együttműködést?

A mesterséges intelligencia leegyszerűsítheti a technikai kimeneteket, lehetővé téve az adatmérnökök számára, hogy hatékonyabban működjenek együtt a termék-, biztonsági és pénzügyi csapatokkal. Ez a váltás lehetővé teszi az adatmérnökök számára, hogy a minőségi szabványok és elvárások megvitatására összpontosítsanak a pusztán a kódolás helyett.

Milyen kihívásokkal néz szembe a mesterséges intelligencia az adatmérnökségben?

A mesterséges intelligencia nehezen kezeli a kétértelmű definíciókat és kezeli az üzleti logikában rejlő összetett kapcsolatokat. A kritikai gondolkodásra vagy a definíciók egyeztetésére való képtelensége miatt az emberi mérnökök továbbra is nélkülözhetetlenek.

Hogyan kellene az adatmérnököknek a GitHub Copilothoz hasonló mesterséges intelligencia eszközök használatához hozzáállniuk?

Az adatmérnököknek mesterséges intelligencia eszközöket kell használniuk vázlatként munkájuk javítása érdekében, miközben szigorú validációs és irányítási konvenciókat kell betartaniuk. Ez magában foglalja annak biztosítását is, hogy a kimenetek megfeleljenek a minőségi szabványoknak és összhangban legyenek a szervezeti szabályzatokkal.

Vajon a mesterséges intelligencia felváltja az adatmérnököket? [Videó és kvíz]

Rövid válasz: A mesterséges intelligencia nem fogja közvetlenül lecserélni az adatmérnököket; automatizálni fogja az ismétlődő munkákat, mint például az SQL-tervezést, a folyamat-scaffolge-olást, a teszteket és a dokumentációt. Ha a szerepköröd többnyire alacsony felelősségvállalási szintű, ticket-vezérelt munka, akkor jobban ki van téve a kockázatoknak; ha a megbízhatóságért, a definíciókért, az irányításért és az incidensekre való reagálásért felelsz, a mesterséges intelligencia főként gyorsabbá tesz.

Főbb tanulságok:

Felelősségvállalás: Az eredményekért való felelősségvállalást helyezd előtérbe, ne csak a kód gyors előállítását.

Minőség: Építsen teszteket, megfigyelhetőséget és szerződéseket, hogy a folyamatok megbízhatóak maradjanak.

Irányítás: Az adatvédelem, a hozzáférés-vezérlés, a megőrzés és az auditnaplók emberi tulajdonban maradjanak.

Visszaélés-megelőzés: A mesterséges intelligencia kimeneteit vázlatként kell kezelni; ellenőrizni kell őket a magabiztos tévedések elkerülése érdekében.

Szerepkörváltás: Töltsön kevesebb időt sablonos rendszerek gépelésével, és több időt tartós rendszerek tervezésével.

Vajon a mesterséges intelligencia felváltja az adatmérnököket? Infografika

Ha több mint öt percet töltöttél már adatcsapatok közelében, hallottad már a refrént – néha suttogva, néha egy megbeszélés közben elhangozva, mint egy csavar a történetben: Vajon a mesterséges intelligencia felváltja az adatmérnököket?

És… értem. A mesterséges intelligencia SQL-t generálhat, folyamatokat építhet, stack trace-eket magyarázhat, adatgyűjtő modelleket rajzolhat, sőt raktári sémákat is javasolhat nyugtalanító magabiztossággal. GitHub Copilot SQL-hez A adatgyűjtő modellekről GitHub Copilot
Olyan érzés, mintha egy targoncát néznénk, amint zsonglőrködni tanul. Lenyűgöző, kissé riasztó, és nem vagy teljesen biztos benne, hogy mit jelent ez a munkád szempontjából 😅

De az igazság kevésbé egyértelmű, mint a címsor. A mesterséges intelligencia gyökeresen megváltoztatja az adatmérnökséget. Automatizálja az unalmas, ismétlődő részeket. Felgyorsítja a „tudom, mit akarok, de nem emlékszem a szintaxisra” pillanatokat. Emellett vadonatúj káoszt is szül.

Szóval, fektessük le rendesen, gúnyos optimizmus vagy végzetet gerjedtető pánik nélkül.

Cikkek, amiket esetleg ezután érdemes elolvasnod:

🔗 Vajon a mesterséges intelligencia felváltja a radiológusokat?
Hogyan változtatja meg a képalkotási mesterséges intelligencia a munkafolyamatot, a pontosságot és a jövőbeli szerepköröket.

🔗 Vajon a mesterséges intelligencia felváltja a könyvelőket?
Nézze meg, mely könyvelési feladatokat automatizálja a mesterséges intelligencia, és melyek maradnak emberi felügyelet alatt.

🔗 Vajon a mesterséges intelligencia felváltja a befektetési bankárokat?
Értse meg a mesterséges intelligencia hatását az üzletekre, a kutatásra és az ügyfélkapcsolatokra.

🔗 Vajon a mesterséges intelligencia felváltja a biztosítási ügynököket?
Ismerje meg, hogyan alakítja át a mesterséges intelligencia a kockázatértékelést, az értékesítést és az ügyfélszolgálatot.

Miért merül fel újra és újra az a kérdés, hogy „a mesterséges intelligencia felváltja az adatmérnököket” 😬

A félelem egy nagyon konkrét helyről származik: az adatmérnökségben sok ismétlődő munka van.

SQL írása és refaktorálása
Feldolgozási szkriptek létrehozása
Mezők leképezése egyik sémából a másikba
Tesztek és alapvető dokumentációk létrehozása
A csővezeték-hibák hibakeresése, amelyek… valahogy előre láthatóak

A mesterséges intelligencia szokatlanul jó az ismételhető mintákban. Az adatmérnökség egy része pedig pontosan ez – mintákra halmozott minták. GitHub Copilot kódjavaslatok

Az eszközökoszisztéma már „elrejti” a bonyolultságot:

Felügyelt ELT-összekötők Fivetran dokumentáció
Kiszolgáló nélküli számítás AWS Lambda (kiszolgáló nélküli számítás)
Egy kattintásos raktárkiépítés
Automatikus skálázási vezénylés Apache Airflow dokumentáció
Deklaratív transzformációs keretrendszerek Mi a dbt?

Szóval, amikor megjelenik a mesterséges intelligencia, úgy tűnhet, mintha az utolsó darab lenne. Ha a verem már absztrakt, és a mesterséges intelligencia meg tudja írni a kötőkódot… mi marad? 🤷

De van egy dolog, amit az emberek kihagynak: az adatmérnökség nem elsősorban gépelésből áll. A gépelés a könnyű része. A nehéz az, hogy a zavaros, politikai, változó üzleti valóságot megbízható rendszerként viselkedtesse.

És a mesterséges intelligencia továbbra is küzd ezzel a homályossággal. Az emberek is küzdenek – egyszerűen jobban improvizálnak.

Amit az adatmérnökök valójában egész nap csinálnak (a gusztustalan igazság) 🧱

Legyünk őszinték – az „adatmérnök” munkakör megnevezése olyan, mintha puszta matematika alapján rakétahajtóműveket építenél. A gyakorlatban bizalmat.

Egy tipikus nap kevesebb „új algoritmusok kitalálásából” és többből áll:

Tárgyalás az upstream csapatokkal az adatdefiníciókról (fájdalmas, de szükséges)
Annak kivizsgálása, hogy egy mutató miért változott (és hogy valós-e)
A sémaeltolódás és a „valaki éjfélkor hozzáadott egy oszlopot” jellegű meglepetések kezelése
A csővezetékek idempotens, helyreállítható és megfigyelhetővé tételének biztosítása
Védőkorlátok létrehozása, hogy a downstream elemzők ne építsenek véletlenül értelmetlen irányítópultokat
Költségkezelés, hogy a raktárad ne váljon pénzégető máglyává 🔥
Hozzáférés biztosítása, auditálás, megfelelőség, adatmegőrzési szabályzatok GDPR-elvek (Európai Bizottság) Tárolási korlátozás (ICO)
Olyan adattermékeket építünk, amelyeket az emberek ténylegesen használhatnak anélkül, hogy DM-et küldenének neked 20 kérdéssel

A munka nagy része társadalmi és operatív jellegű:

„Kié ez az asztal?”
„Ez a definíció még mindig érvényes?”
„Miért exportálja a CRM a duplikált adatokat?”
„Elküldhetjük ezt a mutatót a vezetőknek zavar nélkül?” 😭

A mesterséges intelligencia persze segíthet ebben. De a teljes helyettesítése… már nehézkes lenne.

Mitől lesz valaki erős egy adatmérnöki szerepkörben? ✅

Ez a rész azért fontos, mert a helyettesítésről szóló beszéd általában azt feltételezi, hogy az adatmérnökök főként „folyamatépítők”. Ez olyan, mintha azt feltételeznénk, hogy a szakácsok főként „zöldségeket aprítanak”. Ez a munka része, de nem maga a munka.

Egy adatmérnök erős változata általában azt jelenti, hogy a legtöbb ilyen feladatot el tudja végezni:

Változásra tervezve
Az adatok változnak. A csapatok változnak. Az eszközök változnak. Egy jó mérnök olyan rendszereket épít, amelyek nem omlanak össze minden alkalommal, amikor a valóság tüsszent. 🤧
Szerződések és elvárások meghatározása
Mit jelent az „ügyfél”? Mit jelent az „aktív”? Mi történik, ha egy sor késve érkezik? A szerződések jobban megelőzik a káoszt, mint a bonyolult kód. Nyílt Adatszerződési Szabvány (ODCS) ODCS (GitHub)
Építsen be megfigyelhetőséget mindenbe.
Ne csak a „lefutott”, hanem a „helyesen futott”. Frissesség, mennyiségi anomáliák, nullrobbanások, eloszlásbeli eltolódások. Adatmegfigyelhetőség (Dynatrace) Mi az adatmegfigyelhetőség?
Köss kompromisszumokat, mint egy felnőtt:
Sebesség vs. helyesség, költség vs. késleltetés, rugalmasság vs. egyszerűség. Nincs tökéletes folyamat, csak olyan folyamatok, amelyekkel együtt tudsz élni.
Az üzleti igények tartós rendszerekké alakítása
Az emberek mérőszámokat kérnek, de amire szükségük van, az egy adattermék. A mesterséges intelligencia meg tudja fogalmazni a kódot, de nem ismerheti varázsütésre az üzleti taposóaknákat.
Tartsd csendben az adatokat.
Egy adatplatform legnagyobb elismerése, hogy senki sem beszél róluk. Az eseménytelen adatok jó adatok. Mint a vízvezeték-szerelés. Csak akkor veszed észre, ha elromlik. 🚽

Ha ezeket a dolgokat csinálod, a „Vajon a mesterséges intelligencia felváltja-e az adatmérnököket?” kérdés kissé… furcsán hangzik. A mesterséges intelligencia a feladatokat helyettesítheti, a tulajdonlást nem .

Ahol a mesterséges intelligencia már segíti az adatmérnököket (és ez valóban nagyszerű) 🤖✨

A mesterséges intelligencia nem csak marketing. Jól használva legitim erőszorzó.

1) Gyorsabb SQL és transzformációs munka

Komplex illesztések rajzolása
Ablakfüggvények írása, amelyekre inkább nem is gondolnál
Egyszerű nyelvi logika lekérdezésvázakká alakítása
Csúnya lekérdezések refaktorálása olvasható CTE-kké GitHub Copilot for SQL

Ez óriási jelentőségű, mert csökkenti az „üres lap” effektust. Továbbra is érvényesíteni kell az adatokat, de 70%-ról indulunk a 0% helyett.

2) Hibakeresés és a kiváltó ok feltárása

A mesterséges intelligencia a következőkben elég jó:

A hibaüzenetek magyarázata
Javaslatok, hol érdemes keresgélni
„Check schema mismatch” típusú lépések ajánlása GitHub Copilot
Olyan, mintha lenne egy fáradhatatlan junior mérnököd, aki soha nem alszik, és néha magabiztosan hazudik 😅

3) Dokumentáció és adatkatalógus-gazdagítás

Automatikusan generált:

Oszlopleírások
Modell-összefoglalók
leszármazási magyarázatok
„Mire használják ezt a táblázatot?” DBT dokumentáció

Nem tökéletes, de megtöri a dokumentálatlan csővezetékek átkát.

4) Állványzat tesztelése és ellenőrzése

A mesterséges intelligencia a következőket javasolhatja:

Alapvető nulltesztek
Egyediségellenőrzések
Referenciális integritási elképzelések
„Ennek a mutatónak soha nem szabad csökkennie” stílusú állítások DBT adattesztek Nagy várakozások: Elvárások

Ismétlem – továbbra is te döntöd el, mi számít, de ez felgyorsítja a rutinszerű részeket.

5) Csővezeték „ragasztó” kód

Konfigurációs sablonok, YAML scaffoldok, orkestrációs DAG vázlatok. Ezek ismétlődő dolgok, és a mesterséges intelligencia ismétlődő dolgokat eszik reggelire 🥣 Apache Airflow DAG-ok

Ahol a mesterséges intelligencia még mindig küzd (és ez a lényege) 🧠🧩

Ez a legfontosabb rész, mert valódi textúrával válaszol a csere kérdésére.

1) Kétértelműség és változó definíciók

Az üzleti logika ritkán egyértelmű. Az emberek mondat közben meggondolják magukat. Az „aktív felhasználó”-ból „aktív fizető felhasználó” lesz, majd „aktív fizető felhasználó, a visszatérítéseket kivéve, néha”... tudod, hogy van ez.

A mesterséges intelligencia nem vállalhatja ezt a kétértelműséget. Csak találgathat.

2) Elszámoltathatóság és kockázat

Amikor egy folyamat megszakad, és a végrehajtó panel képtelenséget mutat, valakinek a következőket kell tennie:

triázs
hatás kommunikálása
javítsd meg
kiújulás megelőzése
írd meg a boncolás utáni elemzést
eldönteni, hogy a vállalkozás továbbra is megbízhat-e a múlt heti számokban

A mesterséges intelligencia segíthet, de nem vállalhat érdemi elszámoltathatóságot. A szervezetek nem hangulatok, hanem felelősség alapján működnek.

3) Rendszerszemléletű gondolkodás

Az adatplatformok ökoszisztémák: betöltés, tárolás, átalakítások, vezénylés, irányítás, költségellenőrzés, SLA-k. Az egyrétegű változás hullámokat okoz. Apache Airflow koncepciók

A mesterséges intelligencia olyan lokális optimalizálásokat javasolhat, amelyek globális fájdalmat okoznak. Olyan ez, mintha egy nyikorgó ajtót úgy javítanánk meg, hogy eltávolítjuk az ajtót 😬

4) Biztonság, adatvédelem, megfelelőség

Itt halnak el a helyettesítési fantáziák.

Hozzáférés-vezérlés
Sorszintű biztonság Snowflake sorhozzáférési szabályzatok BigQuery sorszintű biztonság
Személyazonosításra alkalmas adatok kezelése NIST adatvédelmi keretrendszerben
Megőrzési szabályok Tárolási korlátozás (ICO) EU útmutató a megőrzéshez
Auditnaplók NIST SP 800-92 (naplókezelés) CIS Control 8 (Auditnapló-kezelés)
Adattárolási korlátozások

A mesterséges intelligencia képes szabályzatokat megfogalmazni, de azok biztonságos megvalósítása valódi mérnöki munka.

5) Az „ismeretlen ismeretlenek”

Az adatvédelmi incidensek gyakran kiszámíthatatlanok:

Egy szállítói API csendben megváltoztatja a szemantikát
Egy időzóna-feltevés megfordul
Egy háttérkitöltés duplikálja a partíciót
Az újrapróbálkozási mechanizmus dupla írást okoz
Egy új termékfunkció új eseménymintákat vezet be

A mesterséges intelligencia gyengébb, ha a helyzet nem egy ismert minta.

Összehasonlító táblázat: mi mit csökkent a gyakorlatban 🧾🤔

Az alábbiakban egy gyakorlatias nézőpontot láthatunk. Nem „embereket helyettesítő eszközökről”, hanem olyan eszközökről és megközelítésekről, amelyek bizonyos feladatokat zsugorítanak.

Eszköz / megközelítés	Közönség	Árhangulat	Miért működik
AI kód másodpilóták (SQL + Python segítők) GitHub másodpilóta	Mérnökök, akik sok kódot írnak	Ingyenestől fizetősig	Nagyszerű az állványozásban, refaktorálásban, szintaxisban… néha nagyon sajátos módon önelégült
Felügyelt ELT csatlakozók Fivetran	A csapatok belefáradtak az adatgyűjtésbe	Előfizetéses	Eltávolítja az egyéni lenyelés okozta fájdalmat, de szórakoztató, új módokon működik
Adatmegfigyelési platformok Adatmegfigyelhetőség (Dynatrace)	Bárki, aki SLA-kkal rendelkezik	Közép- és nagyvállalati	Korán észleli a rendellenességeket – például a csővezetékek füstjelzőit 🔔
Transzformációs keretrendszerek (deklaratív modellezés) dbt	Analytics + DE hibridek	Általában eszköz + számítás	Moduláris és tesztelhető logikát eredményez, kevesebb spagettit
Adatkatalógusok + szemantikai rétegek dbt Szemantikus réteg	Metrikazavarral küzdő szervezetek	Attól függ, a gyakorlatban	Egyszer definiálja az „igazságot” – ezzel csökkenti a végtelen metrikus vitákat
Sablonokkal történő vezénylés Apache Airflow-n	Platform-alapú csapatok	Megnyitás + műveleti költség	Szabványosítja a munkafolyamatokat; kevesebb hópehely alakú DAG
Mesterséges intelligencia által támogatott dokumentáció , dbt dokumentumok generálása	Csapatok, akik utálnak dokumentumokat írni	Olcsó vagy mérsékelt	„Elég jó” dokumentumokat készít, hogy a tudás ne vesszen el
Automatizált irányítási szabályzatok NIST adatvédelmi keretrendszer	Szabályozott környezetek	Vállalati	Segít betartatni a szabályokat – de továbbra is emberekre van szükség a szabályok megtervezéséhez

Figyeld meg, mi hiányzik: egy sor, amelyen az áll, hogy „nyomd meg a gombot az adatmérnökök eltávolításához”. Igen… ez a sor nem létezik 🙃

Szóval… vajon a mesterséges intelligencia felváltja az adatmérnököket, vagy csak a szerepük változik? 🛠️

Íme a nem drámai válasz: a mesterséges intelligencia a munkafolyamat egyes részeit fogja felváltani, nem a szakmát.

De ez fogja alakítani a szerepet. És ha ezt figyelmen kívül hagyod, érezni fogod a szorítást.

Ami változik:

Kevesebb idő sablonírásra
Kevesebb idő a dokumentumok keresésére
Több idő az ellenőrzésre, validálásra és tervezésre
Több idő a szerződések és a minőségi elvárások meghatározására Nyílt Adatszerződési Szabvány (ODCS)
Több idő a termék-, biztonsági és pénzügyi partnerségekre

Ez a finom eltolódás: az adatmérnökség kevésbé a „folyamatok építéséről” és inkább a „megbízható adattermék-rendszer felépítéséről” szól

És egy csendes csavarral élve, ez értékesebb, nem kevesebb.

Továbbá – és ezt akkor is el fogom mondani, ha drámaian hangzik – a mesterséges intelligencia növeli az adatelemeket előállító emberek számát, ami növeli annak szükségességét, hogy valaki épeszűként tartsa az egészet. Több kimenet több potenciális zavart jelent. GitHub Copilot

Olyan ez, mintha mindenkinek adnál egy fúrót. Nagyszerű! Most már valakinek be kellene tartatnia a „kérlek, ne fúrj a vízvezetékbe” szabályt 🪠

Az új képességcsomag, ami értékes marad (még akkor is, ha mindenhol jelen van a mesterséges intelligencia) 🧠⚙️

Ha egy praktikus, „jövőbiztos” ellenőrzőlistát szeretne, az így néz ki:

Rendszertervezési gondolkodásmód

Változásokon átívelő adatmodellezés
Kötegelt és streamelt feldolgozás közötti különbségek
Késleltetés, költség, megbízhatóság gondolkodásmód

Adatminőség-tervezés

Szerződések, validációk, anomáliadetektálás Nyílt Adatszerződési Szabvány (ODCS) Adatmegfigyelhetőség (Dynatrace)
SLA-k, SLO-k, incidensekre adott válaszok
Ok-okozati elemzés fegyelemmel (nem megérzésekkel)

Irányítási és bizalmi architektúra

Hozzáférési minták
Auditálhatóság NIST SP 800-92 (naplókezelés)
Beépített adatvédelem NIST adatvédelmi keretrendszer
Az adatok életciklus-kezelése EU-s iránymutatást nyújt az adatmegőrzésről

Platform gondolkodás

Újrafelhasználható sablonok, arany ösvények
Szabványosított minták a Fivetran DBT adattesztek betöltéséhez, átalakításához és teszteléséhez
Önkiszolgáló szerszámok, amelyek nem olvadnak el

Kommunikáció (igen, tényleg)

Világos dokumentumok írása
Definíciók összehangolása
Udvariasan, de határozottan nemet mondva
Kompromisszumok magyarázata anélkül, hogy robotként hangzana 🤖

Ha ezeket meg tudod tenni, a „Vajon a mesterséges intelligencia felváltja-e az adatmérnököket?” kérdés kevésbé fenyegetővé válik. A mesterséges intelligencia a külső vázaddá válik, nem pedig a helyettesítőddé.

Reális forgatókönyvek, ahol egyes adatmérnöki szerepkörök zsugorodnak 📉

Oké, gyors valóságpróba, mert nem csak napsütés és emoji konfetti van 🎉

Néhány szerep jobban ki van téve a dolgoknak:

Kizárólag betöltésre szánt szerepkörök, ahol minden szabványos csatlakozókkal történik Fivetran csatlakozók
Csapatok, amelyek többnyire ismétlődő jelentési folyamatokat végeznek minimális szakterületi árnyaltsággal
Olyan szervezetek, ahol az adatmérnökséget „SQL majomként” kezelik (kemény, de igaz)
Alacsony tulajdonjogú szerepkörök, ahol a munka csak jegyek kiadásából és másolásból-beillesztésből áll

A mesterséges intelligencia és a felügyelt eszközök együttes alkalmazása csökkentheti ezeket az igényeket.

De még ott is a csere általában így néz ki:

Kevesebb ember végzi ugyanazt az ismétlődő munkát
Nagyobb hangsúly a platform tulajdonjogán és megbízhatóságán
Elmozdulás az „egy ember több csővezetéket is támogathat” felé

Tehát igen – a létszámminták változhatnak. A szerepkörök fejlődnek. A beosztások is átalakulnak. Ez a rész valós.

A szerepkör magas szintű tulajdonlást és bizalmat igénylő változata azonban továbbra is fennmaradt.

Záró összefoglaló 🧾✅

Vajon a mesterséges intelligencia felváltja majd az adatmérnököket? Nem abban a letisztult, átfogó módon, ahogy az emberek elképzelik.

A mesterséges intelligencia a következőket fogja tenni:

automatizálja az ismétlődő feladatokat
kódolás, hibakeresés és dokumentáció felgyorsítása GitHub Copilot SQL- hez dbt dokumentáció
csökkenteni a csővezetékek gyártási költségeit

De az adatmérnökség alapvetően a következőkről szól:

elszámoltathatóság
rendszertervezés
bizalom, minőség és irányítás Nyílt Adatszerződési Szabvány (ODCS) NIST Adatvédelmi Keretrendszer
a zavaros üzleti valóság megbízható adattermékekké alakítása

A mesterséges intelligencia segíthet ebben... de nem „birtokolja” azt.

Ha adatmérnök vagy, a lépés egyszerű (nem könnyű, de egyszerű):
összpontosíts a felelősségvállalásra, a minőségre, a platformalapú gondolkodásra és a kommunikációra. Hagyd, hogy a mesterséges intelligencia kezelje a sablonos dolgokat, amíg te a fontos részeket kezeled.

És igen - néha ez azt jelenti, hogy felnőttnek kell lennem a szobában. Nem elbűvölőnek. De csendesen erőteljesnek 😄

Vajon a mesterséges intelligencia felváltja az adatmérnököket?
Felvált majd bizonyos feladatokat, átrendezi a ranglétrát, és a legjobb adatmérnököket még értékesebbé teszi. Ez a valódi történet.

Valós példa: Mesterséges intelligencia által támogatott adatfolyam-felülvizsgálati munkafolyamat létrehozása 🛠️

Forgatókönyv

Képzelj el egy kis e-kereskedelmi céget egy adatmérnökkel, két elemzővel és egy nagyon ismerős problémával: a pénzügyi irányítópult folyamatosan összeomlik, valahányszor a fizetési szolgáltató megváltoztat egy mező nevét.

A csapat nem akarja, hogy a mesterséges intelligencia „uralja” a folyamatot. Ez kockázatos lenne. Ehelyett a mesterséges intelligenciát első vázlatok asszisztenseként használják rutinszerű, de fontos munkákhoz: a DBT modellvázak írásához, tesztek javaslatához, dokumentáció készítéséhez és ellenőrzőlista létrehozásához a kódellenőrzéshez.

Az emberi adatmérnök továbbra is a végső terv, az adatdefiníciók, a hozzáférési szabályok és az éles telepítés tulajdonosa. A mesterséges intelligencia egyszerűen felgyorsítja a bonyolult középső szakaszt.

Amire a munkafolyamatnak szüksége van

A mesterséges intelligencia használata előtt a csapat elegendő kontextust ad ahhoz, hogy hasznos legyen:

A meglévő fizetési tábla sémája
A célzott pénzügyi mutatók definíciói, például a „nettó bevétel”, a „visszatérítés összege” és a „kiegyenlített fizetés”
DBT modellek elnevezési konvenciói
Jóváhagyott tesztek példái
Rövid adatmegállapodás a fizetési hírcsatornához
Személyazonosításra alkalmas adatok, sikertelen fizetések, duplikált példányok és késedelmesen érkező adatok kezelésére vonatkozó szabályok
Egy példa a korábbi incidensekre, beleértve azt is, hogy mi romlott el és hogyan javították ki

A kulcs nem az, hogy „kérjük meg a mesterséges intelligenciát egy folyamat kiépítésére”. Ez túl homályos.

Az erősebb megközelítés a következő: „Itt vannak a szabályaink, itt a séma, itt az elvárt viselkedés. Tervezzen valamit, amit áttekinthetünk.”

Példa utasítás

Segítesz egy DBT modell kidolgozásában a fizetési adatainkhoz. Az alábbi sémát és szabályokat használd egy első menetes modell, a javasolt DBT tesztek és a dokumentációs megjegyzések létrehozásához.

A modellnek a napi rendezett bevételt order_id és payment_provider alapján kell kiszámítania. A sikertelen fizetéseket és a teszttranzakciókat ki kell zárnia, és a visszatérítéseket csak akkor kell levonnia, ha a refund_status = „confirmed”.

Ne találj ki új oszlopokat. Ha egy kötelező oszlop hiányzik, a találgatás helyett a „Kérdések emberi ellenőrzésre” részben tüntesd fel.

Javasoljon egyediségi, nullérték-, elfogadott érték- és bevétel-észszerűségi teszteket is. Jelöljön meg minden olyan logikát, amely befolyásolhatja a pénzügyi jelentéstételt.

Hogyan teszteljük

Egy értelmes teszt kicsi és szándékosan hétköznapi:

Adj meg a mesterséges intelligenciának egy ismert, jó fizetési sémát, és ellenőrizd, hogy az elkerüli-e a mezők feltalálását.
Adj neki egy hiányzó refund_status oszloppal rendelkező sémát, és nézd meg, hogy kérdést tesz-e fel találgatás helyett.
Futtassa a generált SQL-t egy átmeneti adatkészleten, ne éles környezetben.
Hasonlítsa össze a kimenetet 20 manuálisan ellenőrzött fizetési rekorddal.
Kérj meg egy elemzőt és egy adatmérnököt, hogy tekintsék át a definíciókat az egyesítés előtt.
Adja hozzá az elfogadott teszteket a CI-hez, hogy a folyamat a telepítés után is ellenőrizze magát.

A lényeg az, hogy a mesterséges intelligenciát a leginkább féltett hibamódokon teszteljük: kitalált oszlopok, rossz bevételi logika, hiányzó visszatérítéskezelés és csendes ismétlődő sorok.

Eredmény

Szemléltető eredmény: három minta munkafolyamat-módosítási feladat időzítésén alapul a munkafolyamat használata előtt és után.

A mesterséges intelligencia használata előtt a mérnök körülbelül 5 óra 30 percet töltött változtatásonként: nagyjából 2 órát SQL írásával, 1 órát tesztek létrehozásával, 45 percet dokumentációk írásával, a fennmaradó időt pedig a pénzügyi részleggel való peremhelyzet-ellenőrzéssel.

Mivel a mesterséges intelligenciát csak az első vázlatokhoz használták, ugyanaz a típusú változtatás körülbelül 2 óra 10 percet vett igénybe. A legnagyobb megtakarítást a tesztvázlatok és a dokumentációs vázlatok eredményezték, amelyek 1 óra 45 percről körülbelül 25 percre csökkentek.

Az emberi felülvizsgálati lépés így is körülbelül 45 percig tartott, ezért nem szabad eltávolítani.

A háromfeladatos tesztben a mesterséges intelligencia 18 ellenőrzést javasolt. A mérnök 11-et elfogadott, 5-öt szerkesztett, és 2-t elutasított, mert olyan üzleti szabályokat feltételeztek, amelyek nem igazak. Az elutasítások száma számít: azt bizonyítja, hogy a munkafolyamatot kell felülvizsgálni, nem pedig vak bizalmat.

Mi romolhat el

A mesterséges intelligencia segítségével egy folyamat teljesebbnek tűnhet, mint amilyen valójában.

Gyakori meghibásodási pontok a következők:

Hihetőnek tűnő oszlopok kitalálása
A visszatérítések, visszaterhelések és sikertelen fizetések egyazon dologként való kezelése
Hiányzó időzóna problémák a napi bevételben
Általános tesztek javaslata, amelyek nem mutatják ki a pénzügyi hibákat
Magabiztosnak tűnő, de bizonytalanságot elrejtő dokumentáció írása
Adatvédelmi szabályok elfelejtése, ha a mintaadatok ügyféladatokat tartalmaznak

Egy jó szabály: a mesterséges intelligencia elkészítheti a modell vázlatát, de egy embernek kell jóváhagynia a definíciókat, a pénzügyi logikát, a hozzáférés-vezérlést és a gyártási verziót.

Gyakorlati elvitel

Az adatmérnökségben a mesterséges intelligencia értékes változata nem az, hogy „lecseréljük az adatmérnököt”, hanem az, hogy „eltávolítjuk az üres lapot, majd alaposan átnézzük”.

Ez gyorsabb SQL-t, gyorsabb teszteket és jobb első menetes dokumentációt jelent, miközben a mérnök továbbra is a legfontosabb részért felel: hogy az adatok helyesek, megbízhatóak, biztonságosak és magyarázhatók-e.

GYIK

Vajon a mesterséges intelligencia teljesen felváltja az adatmérnököket?

A legtöbb szervezetben a mesterséges intelligencia inkább átvesz bizonyos feladatokat, mintsem hogy teljesen eltörölje a szerepkört. Felgyorsíthatja az SQL-szerkesztést, a folyamat-scaffoldingot, a dokumentáció első menetét és az alapvető tesztek létrehozását. Az adatmérnökség azonban felelősségvállalással és elszámoltathatósággal is jár, valamint azzal a nem túl vonzó munkával, hogy a kusza üzleti valóságot megbízható rendszerként működtesse. Ezekhez a részekhez továbbra is emberekre van szükség ahhoz, hogy eldöntsék, mi a „helyes”, és hogy felelősséget vállaljanak, ha valami elromlik.

Az adatmérnökség mely részeit automatizálja már a mesterséges intelligencia?

A mesterséges intelligencia a megismételhető munkáknál teljesít a legjobban: SQL-kódok szerkesztése és refaktorálása, adathalmaz-modellvázak generálása, gyakori hibák magyarázata és dokumentációs vázlatok készítése. Emellett képes olyan teszteket is scaffoldolni, mint a null- vagy egyediségi ellenőrzések, és sablon „ragasztó” kódot generálni az orchestrációs eszközökhöz. A győzelem a lendület – közelebb kerülsz egy működő megoldáshoz –, de továbbra is ellenőrizned kell a helyességet, és biztosítanod kell, hogy az illeszkedjen a környezetedhez.

Ha a mesterséges intelligencia képes SQL-t és pipeline-okat írni, mi marad az adatmérnököknek?

Sok mindenről van szó: az adatszerződések definiálásáról, a sémaeltolódás kezeléséről, valamint a folyamatok idempotens, megfigyelhető és helyreállítható jellegének biztosításáról. Az adatmérnökök időt töltenek a metrikaváltozások vizsgálatával, a későbbi felhasználók számára védőkorlátok építésével, valamint a költségek és megbízhatóság közötti kompromisszumok kezelésével. A feladat gyakran a bizalom kiépítéséről és az adatplatform „csendes” tartásáról szól, ami azt jelenti, hogy senkinek sem kell nap mint nap ezen gondolkodnia.

Hogyan változtatja meg a mesterséges intelligencia egy adatmérnök mindennapi munkáját?

Ez jellemzően lerövidíti a sablonos és „keresési időt”, így kevesebb időt kell gépeléssel, és több időt az ellenőrzéssel, validálással és tervezéssel tölteni. Ez a váltás az elvárások, a minőségi szabványok és az újrafelhasználható minták meghatározása felé tolja el a szerepet, ahelyett, hogy mindent kézzel kódolna. A gyakorlatban valószínűleg több partnerségi munkát fog végezni a termékkel, a biztonsággal és a pénzügyekkel – mivel a műszaki kimenet könnyebben létrehozható, de nehezebben irányítható.

Miért küzd a mesterséges intelligencia a kétértelmű üzleti definíciókkal, mint például az „aktív felhasználó”?

Mivel az üzleti logika nem statikus vagy precíz – a projekt közben változik, és érdekelt félenként eltérő. A mesterséges intelligencia képes értelmezést megfogalmazni, de nem birtokolhatja a döntéseket, amikor a definíciók fejlődnek, vagy konfliktusok merülnek fel. Az adatmérnökség gyakran tárgyalást, feltételezések dokumentálását és a homályos követelmények tartós szerződésekké alakítását igényli. Ez az „emberi összehangolási” munka az egyik fő oka annak, hogy ez a szerepkör nem tűnik el még az eszközök fejlődésével sem.

Biztonságosan tudja-e kezelni a mesterséges intelligencia az adatkezelést, az adatvédelmet és a megfelelőséget?

A mesterséges intelligencia segíthet a szabályzatok kidolgozásában vagy a megközelítések javaslatában, de a biztonságos megvalósítás továbbra is valódi mérnöki munkát és gondos felügyeletet igényel. Az irányítás magában foglalja a hozzáférés-vezérlést, a személyazonosításra alkalmas adatok kezelését, a megőrzési szabályokat, az auditnaplókat és néha a tartózkodási helyre vonatkozó korlátozásokat. Ezek olyan magas kockázatú területek, ahol a „majdnem tökéletes” nem elfogadható. Az embereknek kell megtervezniük a szabályokat, ellenőrizniük a betartatást, és továbbra is felelősségre vonhatóknak kell maradniuk a megfelelőségi eredményekért.

Milyen készségek maradnak értékesek az adatmérnökök számára a mesterséges intelligencia fejlődésével?

A rendszereket rugalmassá tevő készségek: rendszertervezési gondolkodás, adatminőség-tervezés és platformalapú szabványosítás. A szerződések, a megfigyelhetőség, az incidensekre adott válaszok szokásai és a fegyelmezett kiváltó ok-elemzés még fontosabbá válik, ha több ember képes gyorsan adatelemeket generálni. A kommunikáció is megkülönböztető tényezővé válik – a definíciók összehangolása, a világos dokumentumok írása és a kompromisszumok drámamentes magyarázata fontos része az adatok megbízhatóságának megőrzésében.

Mely adatmérnöki szerepkörök vannak a leginkább kitéve a mesterséges intelligencia és a felügyelt eszközök veszélyének?

Az ismétlődő adatfeldolgozásra vagy a szabványos jelentéskészítési folyamatokra szűken összpontosító szerepkörök jobban ki vannak téve a veszélynek, különösen akkor, ha a felügyelt ELT-összekötők lefedik a legtöbb forrást. Az alacsony tulajdonlású, jegyvezérelt munka csökkenthető, mivel a mesterséges intelligencia és az absztrakció csökkenti a folyamatonkénti erőfeszítést. Ez azonban általában azt jelenti, hogy kevesebb ember végez ismétlődő feladatokat, nem pedig azt, hogy „nincsenek adatmérnökök”. A megbízhatóságra, minőségre és bizalomra összpontosító, magas tulajdonlású szerepkörök tartósak maradnak.

Hogyan használjam a GitHub Copilothoz vagy a dbt-hez hasonló eszközöket mesterséges intelligenciával anélkül, hogy káoszt okozzak?

A mesterséges intelligencia kimenetét tervezetként, ne döntésként kezeld. Használd lekérdezésvázak generálására, olvashatóság javítására, vagy adatelemző tesztek és dokumentációk összeállítására, majd validáld valós adatokkal és peremhelyzetekkel szemben. Párosítsd erős konvenciókkal: szerződésekkel, elnevezési szabványokkal, megfigyelhetőségi ellenőrzésekkel és felülvizsgálati gyakorlatokkal. A cél a gyorsabb szállítás a megbízhatóság, a költségellenőrzés vagy az irányítás feláldozása nélkül.

Referenciák

Európai Bizottság – Adatvédelmi magyarázat: GDPR-elvek – commission.europa.eu
Információbiztosi Hivatal (ICO) - Tárolási korlátozás - ico.org.uk
Európai Bizottság - Mennyi ideig tárolhatók az adatok, és szükséges-e azokat frissíteni? - commission.europa.eu
Nemzeti Szabványügyi és Technológiai Intézet (NIST) - Adatvédelmi Keretrendszer - nist.gov
NIST Számítógép-biztonsági Erőforrásközpont (CSRC) - SP 800-92: Útmutató a számítógépes biztonsági naplókezeléshez - csrc.nist.gov
Internetbiztonsági Központ (CIS) - Auditnapló-kezelés (CIS-vezérlők) - cisecurity.org
Snowflake dokumentáció - Sorhozzáférési szabályzatok - docs.snowflake.com
Google Cloud dokumentáció - BigQuery sorszintű biztonság - docs.cloud.google.com
BITOL - Nyílt Adat Szerződési Szabvány (ODCS) v3.1.0 - bitol-io.github.io
BITOL (GitHub) - Nyílt Adatok Szerződési Szabványa - github.com
Apache Airflow - Dokumentáció (stabil) - airflow.apache.org
Apache Airflow - DAG-ok (alapfogalmak) - airflow.apache.org
dbt Labs dokumentáció - Mi a dbt? - docs.getdbt.com
dbt Labs dokumentáció - A dbt modellekről - docs.getdbt.com
dbt Labs dokumentáció - Dokumentáció - docs.getdbt.com
dbt Labs dokumentáció - Adattesztek - docs.getdbt.com
dbt Labs dokumentáció - dbt szemantikai réteg - docs.getdbt.com
Fivetran dokumentáció - Első lépések - fivetran.com
Fivetran - Csatlakozók - fivetran.com
AWS dokumentáció - AWS Lambda fejlesztői útmutató - docs.aws.amazon.com
GitHub - GitHub másodpilóta - github.com
GitHub dokumentáció - Kódjavaslatok beszerzése az IDE-ben a GitHub Copilot segítségével - docs.github.com
Microsoft Learn - GitHub Copilot SQL-hez (VS Code bővítmény) - learn.microsoft.com
Dynatrace dokumentáció - Adatmegfigyelhetőség - docs.dynatrace.com
DataGalaxy - Mi az adatmegfigyelhetőség? - datagalaxy.com
Nagy Elvárások Dokumentáció - Elvárások áttekintése - docs.greatexpectations.io

Találd meg a legújabb mesterséges intelligenciát a hivatalos AI Assistant áruházban

Rólunk

Vissza a bloghoz