Intian AI-kielimallit 22 kielelle murto-osalla hinnasta

Sarvam AI ja Krutrim kehittävät malleja edullisille puhelimille. Hindiä, tamilia ja 20 muuta kieltä, hinta kymmenesosa OpenAI:n mallista.

Intialainen sairaanhoitaja istuu maaseudun klinikalla 700 kilometriä lähimmästä suuresta sairaalasta. Hänellä on lista oireita, jotka potilaat ovat hänelle kuvanneet, ja hän kirjoittaa ne puhelimeensa hindiksi. Sovellus käy ne läpi muutamassa sekunnissa ja palauttaa luettelon mahdollisista diagnooseista. Lista on hindiksi, ei englanniksi, ja se on tehty ymmärtäen, että nurse työskentelee ilman jatkuvaa nettiyhteyttä.

Sovelluksen takana ei ole OpenAI eikä Google. Se on intialainen Sarvam AI, joka on rakentanut tekoälyä juuri tähän tarkoitukseen: alueille, joilla bandwidth on heikko, kieli on kaikkea muuta kuin englantia ja palvelun pitää maksaa murto-osan länsijätin laskutuksesta.

Tämä on pieni kuvaus laajemmasta liikkeestä, jota Rest of World kuvasi alkuvuodesta laajassa raportissaan. Intia rakentaa juuri nyt itselleen tekoälyteollisuutta, joka palvelee 800 miljoonaa ihmistä älypuhelimilla, joista monet pyörittävät vanhempaa Android-versiota. Sen filosofiana on niin sanottu frugal innovation, säästävä innovaatio, jossa rajoitteet eivät ole vihollinen vaan suunnittelun lähtökohta.

Kaksi yhtiötä, kaksi reittiä, sama tavoite

Sarvam AI:n perustivat Vivek Raghavan ja Pratyush Kumar. Kumar on suorittanut tohtorintutkinnon Sveitsin teknillisessä korkeakoulussa ETH Zürichissä ja työskennellyt aiemmin Mumbain IIT:ssä. Raghavan tunnetaan Intian julkisen sektorin digitaalisten infrastruktuurien rakentajana. Kaksikko ei lähtenyt kilpailemaan suoraan ChatGPT:n kanssa. Sen sijaan he asettivat itselleen kysymyksen, johon kalifornialaiset eivät joutuneet vastaamaan: miten tekoäly opetetaan ymmärtämään 22 virallista intialaista kieltä ja yli 1 600 dialektia, kun valtaosa internetin tekstistä on englantia?

Heidän vastauksensa on kaksiosainen. Ensiksi he ovat rakentaneet niin sanotun OpenHathi-projektin, joka opettaa olemassaolevia länsimalleja kuten Metan LLaMAa ja ranskalaista Mistralia ymmärtämään intialaisia kieliä. Mallit tuodaan Hugging Face -palveluun avoimena lähdekoodina. Periaate on yksinkertainen: ei rakenneta jättimallia tyhjästä, vaan opetetaan jo olemassaolevaa mallia uudella tasolla.

“Idea on liittää intialaisten kielten taidot olemassaoleviin malleihin”, Raghavan kertoo Rest of Worldille. “Kun se on tehty, voimme rakentaa pienempiä, alakohtaisia malleja esimerkiksi rahoituksen tai lääketieteen alalla, jotka ovat huomattavasti halvempia ja tehokkaampia käyttää.”

Toiseksi Sarvam AI on julkaissut omia malleja. SarvamM on 24 miljardin parametrin kielimalli, joka osaa kymmentä intialaista kieltä. Sarvam 2B ja Sarvam M ovat pienempiä, hienosäädettyjä malleja, jotka osaavat tulkita oireita ja tukea lääkärin päätöksentekoa paikallisilla kielillä. Sairaalan käytössä ne voivat tiivistää potilaan käynnit, antaa diagnostista tukea ja priorisoida tapauksia.

Sitä mukaa kun mallit pienenevät, ne alkavat pyöriä älypuhelimissa, joissa on vain muutaman gigatavun työmuisti. Intian arviolta 800 miljoonalla älypuhelimen omistajalla on harvoin uusin huippumalli. Useimmilla on keskihintaisia tai halpoja laitteita, jotka tukehtuvat heti, jos lähetetään pyyntö miljardien parametrien malliin.

Krutrim on kakkosmallin tarjoaja. Yhtiön perusti vuonna 2023 Bhavish Aggarwal, joka tunnetaan Ola Cabs -kyytipalvelun perustajana. Krutrim on koulutettu yli kahdella biljoonalla tokenilla. Se ymmärtää ja tuottaa tekstiä Intian kaikilla 22 virallisella kielellä. Yhtiö on kehittänyt mallinsa toimimaan ilman supertietokoneita, mikä on Intian olosuhteissa keskeistä, koska kaikkia laskentapalveluita ei voi rakentaa Yhdysvaltain pilvialustoille.

Miksi hindi maksaa enemmän kuin englanti

Yksi tekoälyn arkinen ja huonosti tunnettu tosiasia on, että kielistä toiseen siirtyminen ei ole hintaneutraali. ChatGPT:n kaltaiset mallit veloittavat käyttäjää tokenien perusteella. Token on suunnilleen sanan tai osan sanasta verran tekstiä. Mitä enemmän tokeneita pyyntö ja vastaus tarvitsevat, sitä enemmän käyttäjä maksaa.

Hindi ja muut intialaiset kielet vaativat kolmesta neljään kertaa enemmän tokeneita kuin englanninkielinen vastaava lause. Syy on tekninen. Mallit on koulutettu pääasiassa englanninkielisellä datalla, ja niiden tokenisointi on optimoitu englannin rakenteelle. Hindissä yksi sana saattaa pirstoutua usean tokenin kokoiseksi, koska malli ei “tunne” devanagari-kirjoitusta yhtä hyvin.

Tämä tarkoittaa sitä, että englanninkielinen tekoälykysely maksaa keskimäärin viidesosan vastaavasta hindinkielisestä kyselystä. Käytännössä Intian käyttäjälle, joka tahtoo käyttää tekoälyä omalla äidinkielellään, lasku on monikertainen verrattuna englantia puhuvaan kollegaan.

Sarvam AI ja Krutrim yrittävät muuttaa tämän asetelman kahdella tavalla. Ensinnäkin he rakentavat parempia tokenisointeja intialaisille kielille, jolloin token kattaa kerrallaan suuremman määrän tekstiä. Toiseksi he vetävät pienempiä, intialaisille kielille hienosäädettyjä malleja, jotka eivät tarvitse koko maailman dataa selvitäkseen alueellisesta tehtävästä.

Miksi intialaiset eivät vain käytä Googlen ja OpenAI:n työkaluja

Periaatteessa Intia voisi tilata tekoälypalvelunsa Yhdysvalloista, kuten useimmat maailman maat tekevät. Käytännössä on monta syytä, miksi tämä ei toimi.

Ensimmäinen on hinta. Mainittu viisinkertainen hintaero tekee länsimaisten mallien laajamittaisesta käytöstä Intian väestön mittakaavassa kestämätöntä. Yritys, joka tarjoaa tekoälypohjaista palvelua sadalle miljoonalle ihmiselle hindiksi, romahtaisi laskuvuoren alle.

Toinen on tekninen. Maaseudun verkkoyhteydet ovat usein hitaita, ja useat alueet kärsivät jatkuvista katkoista. Pilvipohjainen tekoäly, joka vaatii nopean nettiyhteyden joka kyselyyn, ei kerta kaikkiaan toimi siellä missä sitä eniten tarvittaisiin. Pieni malli, joka pyörii itse puhelimessa, on käytännössä ainoa toimiva ratkaisu. Terveydenhuollossa samaa periaatetta soveltaa jo Swaasa-sovellus, joka tunnistaa tuberkuloosin yskänäytteestä älypuhelimella ilman laboratorioita tai nettiyhteyttä.

Kolmas on suvereeni kysymys. Intian hallitus on viimeiset vuodet puhunut “AI sovereignty” -teemasta, jolla viitataan oikeuteen rakentaa omaa tekoälyteollisuutta sen sijaan, että koko maan datavirta menee yhdysvaltalaisten yhtiöiden palvelimille. Tätä keskustelua on käyty muuallakin, mutta Intiassa siihen yhdistyy erityinen kärki, koska maan kielimaisema on niin laaja ja niin huonosti edustettuna globaaleissa harjoitusaineistoissa.

Neljäs syy on kulttuurinen. Englanti ei ole Intian äidinkieli kuin pienelle vähemmistölle. Tekoäly, joka osaa vain englantia, palvelee vain niitä, joilla on jo lähtökohtaisesti pääsy parempaan koulutukseen ja parempiin työpaikkoihin. Jos halutaan, että teknologia tavoittaa myös ne 800 miljoonaa, jotka käyttävät puhelimessaan ensisijaisesti omaa kieltään, tarvitaan malleja, jotka ovat oppineet sen kielen oikein.

Tutkijat IIT Madrasista lähtivät liikkeelle jo 2020

Intian tekoälyhanke ei syntynyt tyhjästä. Vuonna 2020 IIT Madras -yliopistossa perustettiin AI4Bharat-aloite, joka keskittyi nimenomaan intialaisille kielille räätälöityihin tekoälytyökaluihin. Aloite tähtäsi jo silloin laitteisiin, jotka pyörivät edullisilla puhelimilla ja vaatimattomilla nettiyhteyksillä. Kun ChatGPT julkaistiin marraskuussa 2023, AI4Bharatin tekijöillä oli jo vuosien etumatka pohjatöissä.

Jälkikäteen tämä ajoitus näyttää keskeiseltä. Sarvam AI ja Krutrim ovat rakentuneet osittain AI4Bharatin avoimen tutkimuksen päälle. Heidän mallinsa eivät ole syntyneet tyhjästä, vaan ne ovat pitkän perustyön jatkumoa. Tämä on yksi syy siihen, miksi Intia on pystynyt rakentamaan oman polun muutamassa vuodessa, kun monilla muilla mailla samanlainen perusta puuttuu.

Mitä tämä merkitsee muille maille

Rest of World kirjoittaa, että intialainen malli kiinnostaa nyt erityisesti niin sanottua globaalia etelää: maita, joilla on kielellisesti monimuotoinen väestö, rajalliset taloudelliset resurssit ja vahva poliittinen halu välttää riippuvuus ulkomaisista teknologiajäteistä. Sarvam AI:n perustaja Raghavan on kiertänyt esitelmillä Brasiliassa ja Indonesiassa, kahdessa maassa, joilla on yhtä laaja kielellinen kirjo kuin Intialla.

Idea on selvä: jos Intia pystyy rakentamaan toimivan tekoälyalustan yli 1 600 dialektin maassa rajallisilla resursseilla, miksi vastaavaa ei voisi tehdä myös muualla? Se ei vaadi miljardien dollarien rakennuspääomia eikä Yhdysvaltain itärannikon konesalisuoltautumista. Se vaatii oikeita tutkimusryhmiä, paikallisen kielen syvällistä osaamista ja avoimen lähdekoodin kulttuuria.

Suomi tunnistaa tilanteen

Suomi on paljon pienempi kuin Intia, mutta tilanne on rakenteellisesti sama. Suomi on niin sanottu pieniresurssinen kieli globaaleissa kielimallien koulutusaineistoissa. Internetin sisältö on englantia, ja kun GPT-tyyppiset mallit oppivat tekstien tilastoja, ne oppivat ennen kaikkea englannin tilastoja. Suomi tulee aineistossa mukana satunnaisina katkelmina, ei kunnollisena kokonaisuutena.

Tähän kysymykseen vastasi vuonna 2024 helsinkiläinen Silo AI yhdessä Turun yliopiston TurkuNLP-tutkimusryhmän kanssa. He julkaisivat Poro-mallin, 34,2 miljardin parametrin avoimen kielimallin, joka koulutettiin nimenomaan suomeksi ja englanniksi. Koulutus tehtiin LUMI-supertietokoneella Kajaanissa 512 AMD MI250X -näytönohjaimella, ja datan koko oli yksi biljoona tokenia. Poro on saanut nimensä suomalaisesta porosta, ja se julkaistiin Apache 2.0 -lisenssin alla, mikä mahdollistaa sen vapaan kaupallisen ja tutkimuskäytön.

Poro on tähdännyt samaan oivallukseen kuin Sarvam AI: pieniresurssisille kielille kannattaa rakentaa omat mallit, jotka ymmärtävät kielen sisäisen rakenteen, eivätkä tukeudu siihen, että englannin kielioppimallit jotenkin yleistyvät hyvin myös niihin.

Vertailu Intian ja Suomen välillä on tietysti epäreilu. Intian väestö on yli 1,4 miljardia ja sen markkinat ovat valtavat verrattuna Suomen reilun viiden miljoonan. Mutta tutkimuksellinen ongelma on rakenteellisesti sama: kun globaali tekoäly oppii yhden tietyn kielen tilastollisesti hyvin, kaikki muut kielet jäävät sen varjoon. Pieniresurssisten kielten puhujat joutuvat joko käyttämään huonosti toimivia työkaluja tai vaihtamaan englantiin. Kumpikaan vaihtoehto ei ole hyvä kielen pitkän tähtäimen elinvoimalle.

Helsingin yliopiston kielitieteilijät ovat varoittaneet jo vuosia, että pelkkä englannin osaaminen ei riitä Suomen tulevaisuuden tieteen tekemiseen, jos suomenkielinen tutkimus alkaa hiljalleen kuihtua. Tekoälymallien aikakausi kärjistää tämän tilanteen, koska jos kaikki tieteellinen kirjoittaminen tapahtuu työkaluilla, jotka osaavat vain englantia, suomenkielisestä tieteellisestä kielestä tulee marginaalia. Sama logiikka koskee oikeudenkäyntejä, lääketieteellisiä konsultaatioita ja virkakieltä.

Avoin kysymys: kestääkö malli?

Intialaisen frugal AI -lähestymistavan kestävyys ei ole vielä selvillä. Sarvam AI ja Krutrim ovat pieniä yhtiöitä verrattuna OpenAI:n tai Anthropicin kaltaisiin jätteihin. Ne ovat haavoittuvaisia rahoituskuiluille, asiakaskunnan hitaalle kasvulle ja sille, että suurempi kilpailija päättää yhtäkkiä laskea hintojaan dramaattisesti.

Toisaalta pieni mittakaava on myös vahvuus. Yhtiöt voivat kohdistaa työnsä tarkasti, koota dataansa paikallisesti ja rakentaa luottamusta käyttäjäkuntaansa tavalla, johon globaalit jätit eivät pysty. Mikäli intialaisen sairaalan hoitaja luottaa siihen, että hindiksi puhuvalla mallilla on kunnolliset oireanalyysit, kynnys vaihtaa länsijättiin nousee korkeaksi.

Raghavan itse on varovainen. Hän ei lupaa, että Sarvam AI muuttaa Intian terveydenhuollon tai koulutusjärjestelmän. Hän puhuu mieluummin alueellisista kokeiluista, joista joku tuo tulosta ja joista oppi siirtyy seuraavaan. Jos kymmenestä kokeilusta yksi tuo todellisen muutoksen, hänestä se on jo merkittävä saavutus. Tämä on intialaiselle tekoäly-yritykselle realismia, jota Piilaakson markkinointipuheissa ei kuule.

Frugal AI ei ole pelkkää teknologiaa. Se on filosofia siitä, että rajoitteet, jotka näyttävät puutteelta, ovatkin innovaation lähtökohta. Pieni koko, halpa hinta, paikallinen kieli, vanha laite. Nämä eivät ole heikkouksia ratkaistavaksi vaan reunaehtoja, joiden sisällä tehdään parasta mahdollista. Jos lähestymistapa kestää aikaa, se voi muuttaa sitä, miten tekoäly leviää maailmassa, jonka enemmistö asuu kaukana kaupallisten huippumallien kohdeyleisöstä.

Sairaanhoitaja maaseudun klinikalla ei välttämättä tiedä, mistä yhtiöstä hänen sovelluksensa on. Hän tietää, että se ymmärtää hindiä, että se toimii ilman jatkuvaa nettiyhteyttä ja että se ei kadu, kun hän yskäisee hänen oman murteensa erikoisuuksia. Tämä riittää hänelle, ja se on Intian uuden tekoäly-yrityksen perusajatus.