Mitä on tekoälyn esikäsittely?

Mitä on tekoälyn esikäsittely?

Lyhyt vastaus: Tekoälyn esikäsittely on joukko toistettavia vaiheita, jotka muuttavat raakadatan, jossa on paljon varianssia, yhdenmukaisiksi mallin syötteiksi. Näitä vaiheita ovat muun muassa puhdistus, koodaus, skaalaus, tokenisointi ja kuvamuunnokset. Tällä on merkitystä, koska jos harjoitus- ja tuotantosyötteet eroavat toisistaan, mallit voivat epäonnistua hiljaa. Jos vaihe "oppii" parametreja, sovita se vain harjoitusdataan vuotojen välttämiseksi.

Tekoälyn esikäsittely on kaikkea, mitä teet raakadatalle ennen (ja joskus myös sen aikana) koulutusta tai päättelyä, jotta malli voi todella oppia siitä. Ei pelkkää "puhdistamista". Se on datan puhdistamista, muokkaamista, skaalaamista, koodaamista, täydentämistä ja pakkaamista yhtenäiseksi esitykseksi, joka ei myöhemmin hiljaa kaada malliasi. [1]

Keskeiset tiedot:

Määritelmä : Esikäsittely muuntaa raakataulukot, tekstin, kuvat ja lokit mallinnusvalmiiksi ominaisuuksiksi.

Johdonmukaisuus : Käytä samoja muunnoksia koulutuksen ja päättelyn aikana, jotta vältetään epäsuhtavirheet.

Vuoto : Asenna skaalaimet, enkooderit ja tokenisoijat vain harjoitusdataan.

Toistettavuus : Rakenna putkia tarkastettavien tilastojen avulla, äläkä muistikirjan ad-hoc-solusarjoja.

Tuotannon seuranta : Seuraa vääristymiä ja ajautumista, jotta syötteet eivät vähitellen heikennä suorituskykyä.

Artikkelit, joita saatat haluta lukea tämän jälkeen:

🔗 Kuinka testata tekoälymallien suorituskykyä tosielämässä
Käytännön menetelmiä tarkkuuden, luotettavuuden ja harhan nopeaan arviointiin.

🔗 Onko tekstistä puheeksi tekoäly ja miten se toimii
Selittää TTS:n perusteet, tärkeimmät käyttötarkoitukset ja yleisimmät rajoitukset nykyään.

🔗 Voiko tekoäly lukea kaunokirjoitusta tarkasti tänään?
Kattaa tunnistushaasteet, parhaat työkalut ja tarkkuusvinkit.

🔗 Kuinka tarkka tekoäly on yleisissä tehtävissä
Erittelee tarkkuustekijät, vertailuarvot ja todellisen maailman luotettavuuden.


Tekoälyn esikäsittely selkokielellä (ja mitä se ei ole) 🤝

Tekoälyn esikäsittely on raakadatan (taulukoiden, tekstin, kuvien, lokien) muuntamista mallinnusvalmiiksi ominaisuuksiksi. Jos raakadata on sotkuinen autotalli, esikäsittely on laatikoiden nimeämistä, rikkoutuneen romun heittämistä pois ja tavaroiden pinoamista, jotta voit kävellä niiden läpi loukkaantumatta.

Kyse ei ole mallista itsestään, vaan siitä, mikä tekee mallin mahdolliseksi:

  • luokkien muuttaminen numeroiksi (yksi-hot, ordinaali jne.) [1]

  • suurten numeeristen alueiden skaalaaminen järkeviksi alueiksi (standardointi, min-max jne.) [1]

  • tekstin tokenisointi syötetunnisteiksi (ja yleensä huomiomaskiksi) [3]

  • kuvien koon muuttaminen/rajaaminen ja determinististen vs. satunnaisten muunnosten asianmukainen soveltaminen [4]

  • toistettavien prosessien rakentaminen, jotta koulutuksen ja "tosielämän" syötteet eivät poikkea toisistaan ​​hienovaraisesti [2]

Yksi pieni käytännön huomautus: "esikäsittely" sisältää kaiken, mikä tapahtuu johdonmukaisesti ennen kuin malli näkee syötteen . Jotkut tiimit jakavat tämän "ominaisuuksien suunnitteluun" ja "tiedon puhdistukseen", mutta käytännössä nämä rajat hämärtyvät.

 

Tekoälyn esikäsittely

Miksi tekoälyn esikäsittelyllä on enemmän merkitystä kuin ihmiset myöntävät 😬

Malli on hahmojen yhteensovittaja, ei ajatustenlukija. Jos syötteesi ovat epäjohdonmukaisia, malli oppii epäjohdonmukaisia ​​sääntöjä. Se ei ole filosofista, vaan tuskallisen kirjaimellista.

Esikäsittely auttaa sinua:

  • Paranna oppimisen vakautta sijoittamalla ominaisuuksia esityksiin, joita estimaattorit voivat käyttää luotettavasti (etenkin skaalauksen/koodauksen yhteydessä). [1]

  • Vähennä kohinaa tekemällä sekavasta todellisuudesta sellaista, mistä malli voi yleistää (sen sijaan, että muistaisit omituisia artefakteja).

  • Estää hiljaiset vikaantumistilat, kuten vuodot ja koulutus-/palveluvirheet (sellaiset, jotka näyttävät "hämmästyttäviltä" validoinnissa ja sitten tuotannossa tapahtuvissa esiasennuksissa). [2]

  • Nopeuta iteraatiota, koska toistettavat muunnokset päihittävät muistikirjan spagetin joka päivä.

Myös suuri osa "mallin suorituskyvystä" tulee siitä. Yllättävän paljon. Joskus se tuntuu epäreilulta, mutta se on todellisuutta 🙃


Mikä tekee tekoälyn esikäsittelyputkesta hyvän ✅

Esikäsittelyn "hyvällä versiolla" on yleensä seuraavat ominaisuudet:

  • Toistettavissa : sama syöte → sama tuloste (ei mysteeristä satunnaisuutta, ellei kyseessä ole tarkoituksellinen lisäys).

  • Junan palvelemisen johdonmukaisuus : kaikki, mitä teet harjoitusvaiheessa, sovelletaan samalla tavalla päättelyvaiheessa (samat sovitusparametrit, samat kategoriakartat, sama tokenisaattorin konfiguraatio jne.). [2]

  • Vuototurvallinen : mikään arvioinnissa/testissä ei vaikuta mihinkään sovitusvaiheeseen . (Lisää tästä ansasta hetken kuluttua.) [2]

  • Havaittavissa : voit tarkastella, mikä muuttui (ominaisuustilastot, puuttuvat tiedot, luokkien määrät), joten virheenkorjaus ei ole vibraääniin perustuvaa suunnittelua.

Jos esikäsittelysi on pino muistikirjan soluja nimeltä final_v7_really_final_ok … tiedäthän miten se menee. Se toimii, kunnes se ei enää toimi 😬


Tekoälyn esikäsittelyn ydinosakkeet 🧱

Ajattele esikäsittelyä rakennuspalikoiden joukkona, jotka yhdistät putkeksi.

1) Puhdistus ja validointi 🧼

Tyypillisiä tehtäviä:

  • poista kaksoiskappaleet

  • käsittele puuttuvia arvoja (poista, imputoi tai edusta puuttuvaa arvoa eksplisiittisesti)

  • pakota tyypit, yksiköt ja alueet

  • havaita väärin muodostetut syötteet

  • standardoida tekstimuotoilut (tyhjätila, kirjainkokosäännöt, Unicode-oikkuudet)

Tämä osa ei ole hohdokas, mutta se estää äärimmäisen tyhmiä virheitä. Sanon tämän rakkaudella.

2) Kategorisen datan koodaus 🔤

Useimmat mallit eivät voi käyttää suoraan raakamerkkejä, kuten "red" tai "premium_user" .

Yleisiä lähestymistapoja:

  • Yhden hot-koodaus (kategoria → binäärisarakkeet) [1]

  • Järjestyskoodaus (kategoria → kokonaisluku-ID) [1]

Olennaista ei ole se, minkä enkooderin valitset, vaan se, että kartoitus pysyy yhtenäisenä eikä "muuta muotoaan" koulutuksen ja päättelyn välillä. Näin saat mallin, joka näyttää hyvältä offline-tilassa ja toimii kuin kummitteleva verkkoympäristössä. [2]

3) Ominaisuuksien skaalaus ja normalisointi 📏

Skaalauksella on merkitystä, kun ominaisuudet sijaitsevat hyvin eri alueilla.

Kaksi klassikkoa:

  • Standardointi : poista keskiarvo ja skaalaa yksikkövarianssiin [1]

  • Min-max-skaalaus : skaalaa jokainen ominaisuus tietylle alueelle [1]

Vaikka käyttäisit malleja, jotka "enimmäkseen selviytyvät", skaalaus usein helpottaa prosessien perusteluja – ja vaikeuttaa niiden vahingossa tapahtuvaa katkaisemista.

4) Ominaisuussuunnittelu (eli hyödyllinen huijaaminen) 🧪

Tässä kohtaa teet mallin työstä helpompaa luomalla parempia signaaleja:

  • suhteet (klikkaukset / näyttökerrat)

  • rullaavat ikkunat (viimeiset N päivää)

  • määrät (tapahtumia käyttäjää kohden)

  • logaritmimuunnokset raskashäntäisille jakaumille

Tässä on taidetta. Joskus luot piirteen, olet ylpeä… eikä se tee mitään. Tai pahempaa, se sattuu. Se on normaalia. Älä kiintymy emotionaalisesti piirteisiin – ne eivät rakasta sinua takaisin 😅

5) Datan jakaminen oikealla tavalla ✂️

Tämä kuulostaa itsestään selvältä, kunnes se ei olekaan:

  • satunnaiset jaot iid-datalle

  • aikaperusteiset osiot aikasarjoille

  • ryhmitellyt jaot, kun yksiköt toistuvat (käyttäjät, laitteet, potilaat)

Ja ratkaisevasti: jaa ennen sovitusta esikäsittely, joka oppii datasta . Jos esikäsittelyvaiheesi "oppii" parametreja (kuten keskiarvoja, sanastoja, kategoriakarttoja), sen on opittava ne vain harjoittelusta. [2]


Tekoälyn esikäsittely tietotyypin mukaan: taulukko, teksti, kuvat 🎛️

Esikäsittely muuttaa muotoaan riippuen siitä, mitä malliin syötetään.

Taulukkomuotoiset tiedot (laskentataulukot, lokit, tietokannat) 📊

Yleisiä vaiheita:

  • puuttuvan arvon strategia

  • kategorinen koodaus [1]

  • numeeristen sarakkeiden skaalaus [1]

  • poikkeavien arvojen käsittely (verkkotunnussäännöt voittavat useimmiten "satunnaisen leikkauksen")

  • johdetut ominaisuudet (aggregaatiot, viiveet, liukuvat tilastot)

Käytännön vinkki: määrittele sarakeryhmät yksiselitteisesti (numeeriset vs. kategoriset vs. tunnisteet). Tulevaisuuden minäsi kiittää sinua.

Tekstidata (NLP) 📝

Tekstin esikäsittelyyn kuuluu usein:

  • tokenisointi tokeneiksi/alisanoiksi

  • muuntaminen syöte-ID:ksi

  • täyttö/katkaisu

  • huomiomaskien rakentaminen eräkäsittelyä varten [3]

Pieni sääntö, joka säästää vaivaa: transformer-pohjaisissa asetelmissa noudata mallin odotettuja tokenisointiasetuksia äläkä freestyle-harjoituksia, ellei sinulla ole syytä. Freestyle-harjoitukset ovat tapa, jolla päädyt tilanteeseen, jossa "se harjoittelee, mutta on outoa"

Kuvat (konenäkö) 🖼️

Tyypillinen esikäsittely:

  • muuta kokoa / rajaa yhtenäisiin muotoihin

  • deterministiset muunnokset arviointia varten

  • satunnaismuunnokset koulutuksen tehostamiseen (esim. satunnainen rajaus) [4]

Yksi yksityiskohta, jonka ihmiset unohtavat: "satunnaiset muunnokset" eivät ole vain fiilis – ne kirjaimellisesti ottavat näytteitä parametreista joka kerta, kun niitä kutsutaan. Loistava vaihtoehto monimuotoisuuden kouluttamiseen, mutta huono arviointiin, jos unohdat kytkeä satunnaisuuden pois päältä. [4]


Ansa, johon kaikki lankeavat: tietovuoto 🕳️🐍

Vuoto tarkoittaa sitä, että arviointidatasta peräisin olevaa tietoa pääsee hiipimään koulutukseen – usein esikäsittelyn kautta. Se voi saada mallisi näyttämään taianomaiselta validoinnin aikana, mutta sitten se voi tuottaa pettymyksen käytännössä.

Yleisiä vuotomalleja:

  • skaalaus käyttämällä koko datajoukon tilastoja (pelkän koulutuksen sijaan) [2]

  • luokkikarttojen rakentaminen käyttämällä yhdessä junaa ja testiä [2]

  • mikä tahansa fit()- tai fit_transform() -vaihe, joka "näkee" testijoukon [2]

Nyrkkisääntö (yksinkertainen, raaka, tehokas):

  • Kaiken, missä on sopiva askel, tulisi olla sopiva vain harjoittelussa.

  • Sitten muunnosvalidointi /testaus käyttämällä sovitettua muuntajaa. [2]

Ja jos haluat perusteellisen arvion siitä, kuinka paha se voi olla: scikit-learnin omat dokumentit näyttävät vuotosimerkin, jossa väärä esikäsittelyjärjestys tuottaa noin 0,76 satunnaisissa kohteissa – ja laskee sitten takaisin noin 0,5:een , kun vuoto on korjattu. Näin vakuuttavalta väärä vuoto voi näyttää. [2]


Esikäsittelyn vieminen tuotantoon ilman kaaosta 🏗️

Monet mallit epäonnistuvat tuotannossa, ei siksi, että malli olisi "huono", vaan koska lähtötilanne muuttuu – tai tuotantoputkesi muuttuu.

Tuotantopainotteinen esikäsittely sisältää yleensä:

  • Tallennetut artefaktit (enkooderin määritykset, skaalausparametrit, tokenizer-konfiguraatio), jotta päättely käyttää täsmälleen samoja opittuja muunnoksia [2]

  • Tiukat syöttösopimukset (odotetut sarakkeet/tyypit/alueet)

  • Vinouman ja ajautumisen seuranta , koska tuotantodata vaeltelee [5]

Jos haluat konkreettisia määritelmiä: Googlen Vertex AI Model Monitoring erottaa harjoittelua palvelevan vinouden (tuotantojakauma poikkeaa harjoittelusta) ja päättelyn ajautumisen (tuotantojakauma muuttuu ajan myötä) ja tukee sekä kategoristen että numeeristen ominaisuuksien seurantaa. [5]

Koska yllätykset ovat kalliita. Eivätkä hauskoja.


Vertailutaulukko: yleiset esikäsittely- ja valvontatyökalut (ja kenelle ne on tarkoitettu) 🧰

Työkalu / kirjasto Paras Hinta Miksi se toimii (ja pieni ripaus rehellisyyttä)
scikit-learn-esikäsittely Taulukkomuotoiset koneoppimisputket Ilmainen Kiinteät enkooderit + skaalaimet (OneHotEncoder, StandardScaler jne.) ja ennustettava käyttäytyminen [1]
Halaavia kasvoja käyttävät tokenisaattorit NLP-syötteen valmistelu Ilmainen Tuottaa syöte-ID:t ja huomiomaskit johdonmukaisesti eri ajoissa/malleissa [3]
torchvision-muunnokset Näön muutokset + tehostaminen Ilmainen Puhdas tapa yhdistää deterministisiä ja satunnaisia ​​muunnoksia samassa prosessissa [4]
Vertex AI -mallin valvonta Drift/skew-tunnistus tuotteessa Maksettu (pilvi) Näytöissä on vinouma/ajautuminen ja ne hälyttävät, kun kynnysarvot ylittyvät [5]

(Kyllä, pöydällä on edelleen mielipiteitä. Mutta ainakin ne ovat rehellisiä mielipiteitä 😅)


Käytännöllinen esikäsittelyn tarkistuslista, jota voit oikeasti hyödyntää 📌

Ennen harjoittelua

  • Määritä syöttökaavio (tyypit, yksiköt, sallitut alueet)

  • Puuttuvien arvojen ja kaksoiskappaleiden tarkastaminen

  • Jaa tiedot oikealla tavalla (satunnainen / aikaan perustuva / ryhmitelty)

  • Sovitusprosessointi vain harjoitusvaiheessa ( fit / fit_transform pysyy junassa) [2]

  • Tallenna esikäsittelyyn liittyvät artefaktit, jotta päättely voi käyttää niitä uudelleen [2]

Harjoittelun aikana

  • Käytä satunnaista lisäystä vain tarvittaessa (yleensä vain harjoitusjakoa) [4]

  • Pidä arvioinnin esikäsittely deterministisenä [4]

  • Seuraa esikäsittelyn muutoksia kuten mallimuutoksia (koska ne ovat)

Ennen käyttöönottoa

  • Varmista, että päättely käyttää identtistä esikäsittelypolkua ja artefakteja [2]

  • Määritä ajautumisen/vinouman valvonta (jopa perusominaisuuksien jakautumisen tarkistukset riittävät pitkälle) [5]


Syväsukellus: yleisiä esikäsittelyvirheitä (ja kuinka niitä voi välttää) 🧯

Virhe 1: "Normalisoin kaiken nopeasti" 😵

Jos lasket skaalausparametreja koko datajoukolle, vuodat arviointitietoja. Sovita junaan, muunna loput. [2]

Virhe 2: kategoriat ajautuvat kaaokseen 🧩

Jos kategoriakartoituksesi vaihtelee koulutuksen ja päättelyn välillä, mallisi voi hiljaa tulkita maailmaa väärin. Pidä kartoitukset korjattuina tallennettujen artefaktien avulla. [2]

Virhe 3: satunnainen lisäys hiipii arviointiin 🎲

Satunnaiset muunnokset ovat mahtavia harjoittelussa, mutta niitä ei pitäisi käyttää "salaa" suorituskykyä mitattaessa. (Satunnainen tarkoittaa satunnaista.) [4]


Loppusanat 🧠✨

Tekoälyn esikäsittely on kurinalaista taitoa, jolla sekava todellisuus muutetaan yhtenäisiksi mallisyötteiksi. Se kattaa puhdistuksen, koodauksen, skaalauksen, tokenisoinnin, kuvamuunnokset ja – mikä tärkeintä – toistettavat prosessit ja artefaktit.

  • Tee esikäsittely tarkoituksella, älä rennosti. [2]

  • Jaa ensin, sovitusmuunnokset vain harjoittelun aikana, vältä vuotoja. [2]

  • Käytä modaliteettikohtaista esikäsittelyä (tokenizereita tekstille, muunnoksia kuville). [3][4]

  • Seuraa tuotannon vinoumaa/ajautumista, jotta mallisi ei ajaudu hitaasti järjettömyyteen. [5]

Ja jos joskus olet jumissa, kysy itseltäsi:
"Olisiko tämä esikäsittelyvaihe edelleen järkevä, jos suorittaisin sen huomenna upouudella datalla?"
Jos vastaus on "öö... ehkä?", se on vihjeesi 😬


Usein kysytyt kysymykset

Mitä on tekoälyn esikäsittely yksinkertaisesti sanottuna?

Tekoälyn esikäsittely on toistettavissa oleva joukko vaiheita, jotka muuttavat kohinaisen ja suuren varianssin omaavan raakadatan yhdenmukaisiksi syötteiksi, joista malli voi oppia. Se voi sisältää puhdistuksen, validoinnin, luokkien koodauksen, numeeristen arvojen skaalauksen, tekstin tokenisoinnin ja kuvamuunnosten soveltamisen. Tavoitteena on varmistaa, että koulutus- ja tuotantopäättelyt näkevät "samanlaista" syötettä, jotta malli ei ajaudu myöhemmin arvaamattomaan toimintaan.

Miksi tekoälyn esikäsittelyllä on niin suuri merkitys tuotannossa?

Esikäsittely on tärkeää, koska mallit ovat herkkiä syötteen esitystavalle. Jos harjoitusdataa skaalataan, koodataan, tokenisoidaan tai muunnetaan eri tavalla kuin tuotantodataa, voi ilmetä juna-/palveluvirheitä, jotka näyttävät hyviltä offline-tilassa, mutta epäonnistuvat hiljaisesti online-tilassa. Vahvat esikäsittelyputket vähentävät myös kohinaa, parantavat oppimisen vakautta ja nopeuttavat iteraatiota, koska muistikirjan sotkuja ei tarvitse selvittää.

Miten voin välttää tietovuodon esikäsittelyn aikana?

Yksinkertainen sääntö toimii: kaiken, jolla on sovitusaskel , on sovitettava vain harjoitusdataan. Tämä koskee skaalaimia, enkoodereita ja tokenisoijia, jotka oppivat parametreja, kuten keskiarvoja, kategoriakarttoja tai sanastoja. Ensin jaetaan data, sovitetaan se harjoitusdataan ja sitten validoidaan/testataan sovitetun muuntimen avulla. Vuoto voi saada validoinnin näyttämään "taikaisesti" hyvältä ja sitten romahtaa tuotantokäytössä.

Mitkä ovat yleisimmät taulukkomuotoisen datan esikäsittelyvaiheet?

Taulukkomuotoisten tietojen tapauksessa tavanomainen prosessi sisältää puhdistuksen ja validoinnin (tyypit, alueet, puuttuvat arvot), kategorisen koodauksen (yksittäinen tai ordinaali) ja numeerisen skaalauksen (standardointi tai min-max). Monet prosessit lisäävät toimialuepohjaista ominaisuussuunnittelua, kuten suhteita, liukuvia ikkunoita tai lukumääriä. Käytännöllinen tapa on määritellä sarakeryhmät eksplisiittisesti (numeeriset vs. kategoriset vs. tunnisteet), jotta muunnoksesi pysyvät yhdenmukaisina.

Miten tekstimallien esikäsittely toimii?

Tekstin esikäsittely tarkoittaa tyypillisesti tokenisointia tokeneiksi/alisanoiksi, niiden muuntamista syöte-ID:iksi ja täyttöjen/katkaisujen käsittelyä eräajoa varten. Monet muuntajatyönkulut luovat myös huomiomaskin ID:iden rinnalle. Yleinen lähestymistapa on käyttää mallin odotettua tokenisaattorin konfiguraatiota improvisoinnin sijaan, koska pienet erot tokenisaattorin asetuksissa voivat johtaa "se kouluttaa, mutta käyttäytyy arvaamattomasti" -tuloksiin.

Mitä eroa kuvien esikäsittelyssä koneoppimista varten on?

Kuvan esikäsittely varmistaa yleensä yhdenmukaiset muodot ja pikselien käsittelyn: koon muuttaminen/rajaaminen, normalisointi ja selkeä ero determinististen ja satunnaisten muunnosten välillä. Arviointia varten muunnosten tulisi olla deterministisiä, jotta mittarit ovat vertailukelpoisia. Koulutusta varten satunnainen lisäys (kuten satunnaiset rajaukset) voi parantaa luotettavuutta, mutta satunnaisuus on tarkoituksella rajattava koulutusjakoon, eikä sitä saa vahingossa jättää päälle arvioinnin aikana.

Mikä tekee esikäsittelyputkesta "hyvän" hauraan sijaan?

Hyvä tekoälyn esikäsittelyputki on toistettavissa, vuototurvallinen ja havaittavissa. Toistettavissa oleva tarkoittaa, että sama syöte tuottaa saman tulosteen, ellei satunnaisuus ole tarkoituksellista lisäystä. Vuototurvallinen tarkoittaa, että sovitusvaiheet eivät koskaan kosketa validointia/testausta. Havaittavissa oleva tarkoittaa, että voit tarkastella tilastoja, kuten puuttuvia tietoja, luokkien määriä ja ominaisuuksien jakaumia, joten virheenkorjaus perustuu näyttöön, ei mutu-tuntumaan. Putkistot päihittävät ad-hoc-muistikirjasekvenssit joka kerta.

Miten pidän koulutuksen ja päättelyn esikäsittelyn yhdenmukaisena?

Tärkeintä on käyttää uudelleen täsmälleen samoja opittuja artefakteja päättelyn aikana: skaalausparametreja, kooderimäärityksiä ja tokenizer-konfiguraatioita. Haluat myös syötesopimuksen (odotetut sarakkeet, tyypit ja alueet), jotta tuotantodata ei voi hiljaa ajautua virheellisiin muotoihin. Johdonmukaisuus ei tarkoita vain "samien vaiheiden tekemistä" - se tarkoittaa "samien vaiheiden tekemistä samoilla sovitetuilla parametreilla ja määrityksillä"

Miten voin seurata esikäsittelyyn liittyviä ongelmia, kuten ajautumista ja vinoutumista ajan kuluessa?

Vaikka tuotantoprosessi olisi vakaa, data muuttuu. Yleinen lähestymistapa on seurata ominaisuuksien jakauman muutoksia ja ilmoittaa harjoittelun jakauman vinoumasta (tuotanto poikkeaa harjoittelusta) ja päättelyn ajautumisesta (tuotanto muuttuu ajan myötä). Valvonta voi olla kevyttä (perusjakauman tarkistukset) tai hallittua (kuten Vertex AI -mallin valvonta). Tavoitteena on havaita syötemuutokset varhaisessa vaiheessa – ennen kuin ne hitaasti heikentävät mallin suorituskykyä.

Viitteet

[1] scikit-learn API:
sklearn.preprocessing (enkooderit, skaalaimet, normalisointi) [2] scikit-learn: Yleisiä sudenkuoppia - Tietovuoto ja sen välttäminen
[3] Hugging Face Transformers -dokumentaatio: Tokenisaattorit (syöttötunnukset, huomiomaskit)
[4] PyTorch Torchvision -dokumentaatio: Muunnokset (koon muuttaminen/normalisointi + satunnaiset muunnokset)
[5] Google Cloud Vertex AI -dokumentaatio: Mallin seurannan yleiskatsaus (ominaisuuksien vinouma ja ajautuminen)

Löydä uusimmat tekoälytuotteet virallisesta tekoälyavustajakaupasta

Tietoa meistä

Takaisin blogiin