Fakta & Fiktio

29.4.2016

Yksikin myrkyllinen keksi voi pilata konekäännöksen

Maarit Koponen väitteli 19.3. konekäännösten jälkieditoinnista Helsingin yliopiston humanistisessa tiedekunnassa. Aihe on käännösalalla yhä suositumpi niin palveluna, tutkimuskohteena kuin opetusaiheenakin, ja paikalla olikin suuri joukko aiheesta kiinnostuneita.

Aurinkoinen maaliskuun lauantai enteili jo kevättä ja ikkunan takana viriteltiin suosittua Streat Helsinki Eats -tapahtumaa, mutta
Maarit Koponen_kuva Aila Jukarainen_
Maarit Koponen esitti havainnollisesti tutkimustaan ja sen tuloksia 19.3. pidetystä väitöstilaisuudessaan. Kuva: Aila Jukarainen
Helsingin yliopiston auditorion XII:n hämärässä ei ollut montaa paikkaa vapaana. Oli alkamassa Maarit Koposen väitöstilaisuus, jonka aiheena oli konekäännösten jälkieditoinnin työläys ja tämän työläyden arviointi.

Paikalla kuulemassa oli monia alan tunnettuja nimiä, kuten Suomen kääntäjien ja tulkkien liiton uusi puheenjohtaja Heikki Karjalainen, Helsingin yliopiston käännöstieteen professori Liisa Tiittula ja Suomessa jo vuosikymmeniä vaikuttanut tunnettu käännöstieteen tutkija Andrew Chesterman. Kustoksena toimi professori Lauri Carlson ja vastaväittäjänä kääntäjien ja teknologian vuorovaikutusta laajasti tutkinut Dr Sharon O’Brien Dublin City Universitystä.

Tietokonesanakirjoista kohti käännöspalvelujen kuninkuutta

Jälkieditoijan käsite esiintyi ensimmäisen kerran jo 1950-luvulla, jolloin sitä käytettiin kuvaamaan henkilöä, joka valitsi oikean käännöksen tietokonesanakirjan ehdotuksista ja järjesti sanajärjestyksen kohdekielen mukaiseksi. Mikään uusi juttu ei konekääntäminenkään siis ole. Kun ensimmäisiä tietokoneita kehitettiin, oli jo alkuvaiheessa yksi käyttötarkoituksista juuri kääntäminen.

Vasta viime vuosina ovat konekäännökset konekääntimien kehittymisen myötä saavuttaneet riittävän laadun ollakseen oikeasti hyödyllisiä käännösalalle. Jos konekäännös on huonolaatuinen, voi jälkieditointi, eli konekäännöksen editoiminen lopulliseksi käännökseksi, viedä vielä enemmän aikaa kuin konekäännöksen hylkääminen ja kaiken kääntäminen alusta.

Nyt ollaan kehityksessä jo niin pitkällä, että vuonna 2014 J. Van der Meer ja A. Ruopp arvioivat teoksessa Machine Translation Market Report konekäännösten jälkieditoinnin muodostuvan ensisijaiseksi käännösten tuotantoprosessiksi vuoteen 2020 mennessä.

Kun Koponen aloitti väitöstutkimuksensa useita vuosia sitten, oli konekäännösten potentiaali jälkieditoinnin kannalta vielä huomattavan paljon pienempi.

- Halusin tietää, onko konekäännöksille todellista käyttöä. En aluksi ajatellut että olisi, mutta halusin kuitenkin selvittää asian. Nykyisin ei alalla konekäännöksiltä voi välttyä, Koponen pohti väitöstilaisuudessaan innoitusta tutkimusaiheelleen.

Väitöskirja koostuu kuudesta aiemmin julkaistusta tutkimusartikkelista ja niitä esittelevästä osiosta, jossa kuvataan tutkimusmenetelmät ja tulokset sekä avataan teoreettista taustaa. Tutkimuskysymykset käsittelevät virheiden laadun suhdetta jälkieditoinnin työläyteen, alkutekstin puuttumisen vaikutusta jälkieditoijien kokemaan jälkieditoinnin työläyteen sekä jälkieditoijien ja heidän tekemiensä muokkausten eroja.

Väitöskirjassa lähestytään työläyttä ei vain yleisesti käytössä olevien työläyden indikaattorien, kuten jälkieditointiin kuluvan ajan ja muutosten määrän näkökulmasta, vaan tarkastelun kohteena on myös se, millaiseksi jälkieditoijat itse arvioivat työläyden. Kävi ilmi, etteivät nämä ole läheskään aina yksi yhteen.

Virheiden määrästä ei voi päätellä korjausten työläyttä

Yksi keskeisiä tarkastelun kohteita väitöskirjassa on virheiden tyyppien yhteys jälkieditoinnin työläyteen. Tärkeä havainto on ollut, ettei virheiden määrä suoraan vastaa kokemusta työläydestä. Jotkut virheet on helppo tunnistaa ja korjata, toisten korjaamista taas voi joutua miettimään ja työstämään kauan. Toisinaan virheet voi havaita helposti, mutta työstäminen vie kauan, ja toisinaan taas korjaaminen voi vaatia pitkää suunnittelua, mutta itse korjaus on nopea.

Virheiden tyyppejä tarkemmin tarkasteltaessa havaittiin, että subjektiin, verbiin ja adjektiiveihin liittyvät muokkaukset näyttäisivät vievän enemmän aikaa kuin esimerkiksi artikkelien, tai prepositioiden korjaaminen. Lauseissa, joiden jälkieditointiaika oli pitkä, oli sanajärjestykseen liittyviä virheitä, verbiongelmia, idiomaattisia ilmauksia, puuttuvia välimerkkejä ja puuttuvia sanoja. Sen sijaan lauseissa, joiden jälkieditointiaika oli lyhyt, oli muutoksia määreisiin, vääriä synonyymejä, vääriä välimerkkejä ja ylimääräisiä sanoja.

Muutosten määrä ei siis anna riittävää kuvaa siitä, kuinka aikaa vievää editointi on. Tämä on tärkeä havainto arvioitaessa esimerkiksi jälkieditoinnista maksettavia korvauksia.
lektio-final_koponen_web
Maarit Koposen väitöstutkimus osoitti, että virheiden tyyppien suhde työläyteen on paljon mutkikkaampi kuin voisi ensialkuun luulla.

Editoijissa on eroja ja sillä on väliä

Jälkieditoijien välisiä eroja voivat olla esimerkiksi jälkieditoinnin nopeus, tekstisisällön alan tuntemus, tekstinkäsittelytaidot, jälkieditoinnin ja siihen liittyvien työkalujen käyttökokemus, tuottavuus ja muokkaustyyli. Näiden erojen avulla voidaan arvioida jälkieditoijan sopivuutta, mutta sopivuuteen vaikuttaa myös moni muu seikka.

Vastaväittäjä Sharon O’Brienin kysymykseen siitä, pitäisikö jälkieditointi jättää esimerkiksi vastavalmistuneiden kääntäjien tehtäväksi, koska he eivät ehkä kokisi konekääntämistä niin luovuuttaan rajoittavana kuin ammattikääntäjät, oli Koposella vastaus valmiina.

- On ihmisiä, jotka ovat kiinnostuneempia jälkieditoinnista ja sopivampia siihen kuin toiset, eikä se liity siihen, milloin on valmistunut. Jo nyt teknisiä käyttöohjeita kääntävät työskentelevät usein hyvin samantyyppisesti kuin jälkieditoijat.

Väitöskirjassa myös kiinnitetään huomiota siihen, että monesti käännösmuistivastaavuuksien ja konekääntimen tekemien ehdotusten käsittely on hyvin samankaltaista, vaikka erojakin on. Pitäisikö jälkieditoijan sitten aina olla ammattikääntäjä? Tähänkin Koposella oli kantansa.

- Jos tarkoituksena on julkaista teksti, on parempi käyttää ammattikääntäjää, joka voi ottaa huomioon tietyn kohdeyleisön ja esimerkiksi päättää, pitääkö jokin kohta selittää kohdekulttuurille. Jos käännös taas menee sisäiseen käyttöön, voi jälkieditoinnin tehdä vaikkapa kaksikielinen henkilö, joka tuntee aihealueen hyvin.

Tärkeää on myös ottaa huomioon käyttäjän tarpeet ja se, millaiset odotukset käyttäjällä on: halutaanko nopeasti käännös, joka menettelee, vai loppuunsa hiottu käännös korkeampaan hintaan.

Ilman alkutekstiä keksipurkki on arvoitus

Yksi tutkittavista asioista oli konekäännöksen käyttökelpoisuus jälkieditointiin ilman alkutekstiä. Koponen vertasi jälkieditointia ilman alkutekstiä keksien syömiseen keksipurkista, jonka kekseistä osa on myrkyllisiä.

- Huonosti onnistuneet pikkuleivät eivät ole vaaraksi, koska se ei vaikuta makuun, jos ei ole niin justiinsa. Tapaukset, joissa käännös näyttää oikealta muttei vastaa alkutekstiä taas ovat niitä pikkuleipäpurkin myrkyllisiä pikkuleipiä.

Varsinkin online-konekääntimiä käytetään yhä enemmän esimerkiksi jonkin tekstin perusidean nopeaksi hahmottamiseksi. Haasteena kuitenkin on, että yksikin virhe voi jo muuttaa, tai hämärtää lauseen merkitystä niin, ettei sitä ole mahdollista päätellä oikein ilman alkutekstiä. Silloin on koko konekäännös myrkytetty.

Tietyntyyppiset virheet on helppo korjata silloinkin, kun konekäännöstä ei verrata alkutekstiin. Helppo virhe on esimerkiksi sellainen, jossa sanan oikean muodon voi päätellä kontekstista. Tarkastellessaan ilman alkutekstiä tehtyjä jälkieditointeja Koponen kuitenkin havaitsi, että käännöksissä oli jopa uusia virheitä, ja että lähes neljännes lauseista oli arvioitu mahdottomaksi muokata. Jälkieditoijat eivät esimerkiksi pystyneet korjaamaan virheitä, jotka olivat leksikaalisella tasolla, tai jotka liittyivät puuttuviin sanoihin. Myös jälkieditoinnin onnistumisessa oli eroja. Jotkut kykenivät editoimaan oikein, toiset eivät.

Rajoituksien kautta sovelluskohteisiin

Väitöskirjassa tarkastellaan jälkieditoinnin työläyttä monelta kannalta. Tutkimustulosten yleistämisessä koskemaan esimerkiksi koko käännösalaa on kuitenkin rajoitteensa.

Tutkimukset olivat rajallisia niin kielivalikoiman, aineiston, työkalujen kuin ohjeistuksenkin osalta. Mukana on aina myös inhimillinen tekijä: arvioijat ymmärtävät arviointiasteikon kukin omalla tavallaan, ja näkemys siitä, mitä pitää korjata ja missä määrin vaihtelee.

Rajoituksista huolimatta Koposen tutkimushavainnoille ei ole vaikea keksiä soveltamiskohteita.

"Kun tunnistetaan erityisen työläät tilanteet, voidaan toisaalta kehittää konekäännösjärjestelmiä ja toisaalta myös arvioida tehokkaammin jälkieditoijien työmäärää."


Kun tunnistetaan erityisen työläät tilanteet, voidaan toisaalta kehittää konekäännösjärjestelmiä ja toisaalta myös arvioida tehokkaammin jälkieditoijien työmäärää. Tutkimushavainnoista voi myös olla apua sen päättämisessä, miten konekäännösten laatua voisi parantaa nimenomaan jälkieditointitarpeisiin, sekä jo pelkästään sen päättämisessä, soveltuuko jokin teksti koneen käännettäväksi, vai ei.

Maarit Koponen saattoi huokaista helpotuksesta, kun Sharon O’Brien suositteli väitöskirjan hyväksymistä. Koposen lisäksi paikallaolijoita kiitti kustos Lauri Carlson, joka sanoi kuulijamäärän olevan poikkeuksellisen suuri. Aihe siis selkeästi kiinnostaa, ja konekääntämisen lisätutkimukselle on tilausta.

Teksti: Suvi Seikkula


Lisää luettavaa
Anni Aarinen Helsingin Yliopiston Nykykielten laitoksen blogissa: Näin arvioit, maksaako konekäännöksen käyttö vaivan.

Helsingin Sanomien artikkeli ”Jussi liikkui suolla, pysähteli” – Muokkasimme Väinö Linnan klassikkokirjan alun sellaiseen muotoon, että Google Translate osaa kääntää sen.

Koponen, Maarit. Machine Translation Post-editing and Effort. Empirical Studies on the Post-editing Process.

Koponen, Maarit et al. Post-editing time as a measure of cognitive effort.

Koponen, Maarit. This translation is not too bad: An analysis of post-editor choices in a machine translation post-editing task.

Koponen, Maarit & Salmi, Leena. On the correctness of machine translation: A machine translation post-editing task.

Koponen, Maarit. Is Machine Translation Post-editing Worth the Effort? A Survey of Research into Post-editing and Effort.


Palaa otsikoihin


Poutapilvi web design - P4 - julkaisujärjestelmä