Mistä tekoäly saa tietonsa?

Oletko koskaan istunut siinä ja raapinut päätäsi ja miettinyt… mistä tämä juttu oikein tulee? Tarkoitan, että tekoäly ei penko pölyisiä kirjastopinoja tai lue YouTube-lyhytelokuvia salaa. Silti se jotenkin löytää vastauksia kaikkeen – lasagnevikkareista mustan aukon fysiikkaan – aivan kuin sillä olisi pohjaton arkistokaappi sisällään. Todellisuus on oudompi ja ehkä kiehtovampi kuin arvaisit. Puretaanpa asiaa hieman (ja ehkä murretaan pari myyttiä matkan varrella).

Onko se noituutta? 🌐

Se ei ole noituutta, vaikka joskus siltä tuntuukin. Konepellin alla tapahtuu pohjimmiltaan hahmonennustusta. Suuret kielimallit (LLM:t) eivät tallenna faktoja samalla tavalla kuin aivosi pitävät kiinni isoäitisi keksireseptistä; sen sijaan ne on koulutettu arvaamaan seuraava sana (token) sen perusteella, mitä aiemmin oli [2]. Käytännössä tämä tarkoittaa, että ne kiinnittyvät suhteisiin: mitkä sanat sopivat yhteen, miten lauseet yleensä muotoutuvat, miten kokonaiset ideat rakentuvat kuin rakennustelineet. Siksi tulos kuulostaa oikealta, vaikka – täysin rehellisesti sanottuna – se on tilastollista matkimista, ei ymmärrystä [4].

Mikä sitten tekee tekoälyn tuottamasta tiedosta hyödyllistä? Muutama asia:

Datan monimuotoisuus – hyödynnetään lukemattomista lähteistä, ei yhdestä kapeasta purosta.
Päivitykset – ilman päivityssyklejä se vanhenee nopeasti.
Suodatus – mieluiten roskien kerääminen ennen kuin ne pääsevät sisään (tosin, ollaanpa rehellisiä, verkossa on reikiä).
Ristiintarkistus – auktoriteettilähteisiin (esimerkiksi NASA, WHO, suuret yliopistot) turvautuminen, mikä on välttämätöntä useimmissa tekoälyn hallintaohjeissa [3].

Silti joskus se sepittää – itsevarmasti. Nuo niin kutsutut hallusinaatiot? Pohjimmiltaan kiillotettua hölynpölyä, joka esitetään vakavalla naamalla [2][3].

Artikkelit, joita saatat haluta lukea tämän jälkeen:

🔗 Voiko tekoäly ennustaa lottonumeroita
Tutkitaan tekoälyyn perustuvia lottoennusteita koskevia myyttejä ja faktoja.

🔗 Mitä kokonaisvaltainen lähestymistapa tekoälyyn tarkoittaa?
Tekoälyn ymmärtäminen tasapainoisten eettisten ja vaikutusnäkökulmien pohjalta.

🔗 Mitä Raamattu sanoo tekoälystä
Raamatun näkökulmien tarkastelu teknologiasta ja ihmisen luomisesta.

Nopea vertailu: Mistä tekoäly ammentaa 📊

Kaikki lähteet eivät ole samanarvoisia, mutta jokaisella on oma osansa. Tässä on tilannekatsaus.

Lähteen tyyppi	Kuka sitä käyttää (tekoäly)	Kustannus/arvo	Miksi se toimii (tai ei toimi...)
Kirjat ja artikkelit	Suuret kielimallit	Korvaamaton (noin)	Tiivis, jäsennelty tieto – se vanhenee nopeasti.
Verkkosivustot ja blogit	Lähes kaikki tekoälyt	Ilmainen (kohinan kanssa)	Villi lajike; sekoitus nerokkuutta ja täyttä roskaa.
Akateemiset julkaisut	Tutkimuspainotteiset tekoälyt	Joskus maksumuurit	Tarkkuutta + uskottavuutta, mutta käytettynä vahvasti ammattikielellä.
Käyttäjätiedot	Personoidut tekoälyt	Erittäin herkkä ⚠️	Tyylikästä räätälöintiä, mutta yksityisyysongelmia riittää.
Reaaliaikainen verkko	Hakuun linkitetyt tekoälyt	Ilmainen (jos verkossa)	Pitää tiedon tuoreena; haittapuolena on huhujen vahvistumisriski.

Harjoitusdatan universumi 🌌

Tämä on "lapsuuden oppimisen" vaihe. Kuvittele, että annat lapselle miljoonia satukirjoja, uutisleikkeitä ja Wikipedian kaninkoloja kaikki kerralla. Siltä esikoulutus näyttää. Todellisessa maailmassa tarjoajat heittävät yhteen julkisesti saatavilla olevaa dataa, lisensoituja lähteitä ja kouluttajien tuottamaa tekstiä [2].

Päälle kerrostettuna: kuratoituja ihmisesimerkkejä – hyviä vastauksia, huonoja vastauksia, tönäisyjä oikeaan suuntaan – ennen kuin vahvistaminen edes alkaa [1].

Läpinäkyvyysrajoitus: yritykset eivät paljasta kaikkia yksityiskohtia. Jotkin suojakaiteet ovat salassa pidettäviä (esim. immateriaalioikeudet, turvallisuusnäkökohdat), joten saat vain osittaisen käsityksen todellisesta tilanteesta [2].

Reaaliaikainen haku: Lisätäyte 🍒

Jotkin mallit pystyvät nyt kurkistamaan koulutuskuplansa ulkopuolelle. Kyseessä on haku- ja lisägenerointi (RAG)– pohjimmiltaan osien hakeminen reaaliaikaisesta hakemistosta tai dokumenttivarastosta ja niiden yhdistäminen vastaukseen [5]. Täydellinen nopeasti muuttuviin asioihin, kuten uutisotsikoihin tai osakekursseihin.

Haittapuoli? Internet on yhtä aikaa neroutta ja roskapulttia. Jos suodattimet tai alkuperätarkistukset ovat heikkoja, on olemassa riski, että roskadataa pääsee takaisin – juuri niin kuin riskikehikot varoittavat [3].

Yleinen kiertotapa: yritykset kytkevät mallit omiin sisäisiin tietokantoihinsa, jotta vastaukset viittaavat ajantasaiseen henkilöstöpolitiikkaan tai päivitettyyn tuotedokumenttiin sen sijaan, että ne siteeraisivat sitä. Ajattele: vähemmän "voi ei" -hetkiä, luotettavampia vastauksia.

Hienosäätö: Tekoälyn viimeistelyvaihe 🧪

Raa'at, esikoulutetut mallit ovat kömpelöitä. Siksi niitä hienosäädetään:

Opettamalla heitä olemaan avuliaita, harmittomia ja rehellisiä (ihmispalautteesta saatavan vahvistusoppimisen, RLHF) avulla [1].
Vaarallisten tai myrkyllisten reunojen hionta (kohdistus) [1].
Sävyn mukauttaminen – olipa se sitten ystävällinen, muodollinen tai leikkisän sarkastinen.

Kyse ei ole niinkään timantin kiillottamisesta kuin tilastollisen lumivyöryn kokoamisesta, jotta käyttäytyisi enemmän keskustelukumppanin tavoin.

Kolhut ja epäonnistumiset 🚧

Älkäämme teeskennelkö, että se on virheetön:

Hallusinaatiot - teräviä vastauksia, jotka ovat täysin vääriä [2][3].
Harha – se peilaa dataan kypsennettyjä kaavoja; voi jopa vahvistaa niitä, jos sitä ei tarkisteta [3][4].
Ei omakohtaista kokemusta - se voi puhua keittoresepteistä, mutta ei ole koskaan maistanut sellaista [4].
Ylimielinen itsevarmuus – asia virtaa kuin se tietää, vaikka ei tietäisikään. Riskikehikot korostavat merkittäviä oletuksia [3].

Miksi tuntuu siltä, että tietää 🧠

Sillä ei ole uskomuksia, ei muistia ihmisen mielessä eikä varmasti itseä. Koska se kuitenkin muodostaa lauseita sujuvasti yhteen, aivosi lukevat sitä ikään kuin ne ymmärtäisivät. Kyseessä on vain massiivinen seuraavan merkin ennustaminen: triljoonien todennäköisyyksien analysointi sekunnin murto-osassa [2].

”Älykkyys”-fiilis on emergenttiä käyttäytymistä – tutkijat kutsuvat sitä hieman ironisesti ”stokastiseksi papukaijaefektiksi” [4].

Lapsiystävällinen analogia 🎨

Kuvittele papukaija, joka on lukenut kaikki kirjaston kirjat. Se ei ymmärrä tarinoita, mutta osaa sekoittaa sanat uudelleen ja saada niistä viisaan tuntuisen. Joskus se on täysin osuvaa, joskus hölynpölyä – mutta riittävällä oivalluksella eroa ei aina huomaa.

Yhteenvetona: Mistä tekoälyn tiedot tulevat 📌

Yksinkertaisesti sanottuna:

Massiivinen koulutusdata (julkinen + lisensoitu + kouluttajan tuottama) [2].
Hienosäätö ihmisen palautteen avulla sävyn/käyttäytymisen muokkaamiseksi [1].
Reaaliaikaisiin tietovirtoihin kytketyt hakujärjestelmät [5]

Tekoäly ei "tiedä" asioita – se ennustaa tekstiä. Se on sekä sen supervoima että sen akilleenkantapää. Yhteenvetona? Tarkista aina tärkeät tiedot luotettavasta lähteestä [3].

Viitteet

Ouyang, L. ym. (2022). Kielimallien kouluttaminen noudattamaan ohjeita ihmisen antaman palautteen avulla (InstructGPT). arXiv.
OpenAI (2023). GPT-4:n tekninen raportti - lisensoidun, julkisen ja ihmisen luoman datan yhdistelmä; seuraavan tunnuksen ennustamisen tavoite ja rajoitukset. arXiv.
NIST (2023). Tekoälyn riskienhallintakehys (AI RMF 1.0) - alkuperä, luotettavuus ja riskienhallinta. PDF.
Bender, EM, Gebru, T., McMillan-Major, A., Mitchell, S. (2021). Stokastisten papukaijojen vaaroista: Voivatko kielimallit olla liian suuria? PDF.
Lewis, P. ym. (2020). Haun ja lisäyksen yhdistelmä tiedonhaulla ja -laajennuksella tietointensiivistä NLP:tä varten. arXiv.

Löydä uusimmat tekoälytuotteet virallisesta tekoälyavustajakaupasta

Tietoa meistä

Takaisin blogiin