Dataverktøy for sakprosaoversettere

Av oversetter og CAT-lærer Bjørnar Magnussen

Etter sosiale medier å dømme er datateknologi et av de temaene (ved siden av særskrivingsfeil) som vekker de sterkeste følelsene blant oversettere. Det går nesten ikke en uke uten at noen legger ut eksempler på dårlige maskinoversettelser, og disse innleggene høster store mengder «likes» fra kollegaer. Kanskje har vi et behov for å bevise vår eksistensberettigelse på denne måten?

Ikke all teknologi er like kontroversiell. Selv de mest tradisjonsbundne oversettere har innsett at det er mer praktisk å levere manus i elektronisk format enn på papir. Skrivemaskinene støver ned på loftet og har ikke sett dagens lys siden Oversetteraksjonen 2006. I dette blogginnlegget skal jeg gå igjennom fire CAT-teknologier (Computer-Assisted Translation – dataassistert oversettelse) som alle sakprosaoversettere bør vurdere å ta i bruk. Teknologiene er beskrevet på en forenklet måte, og jeg går kun gjennom de aspektene som er mest relevant for oversetting av sakprosa.

Segmentering – få med deg all kildeteksten

Før jeg begynte på dette blogginnlegget, spurte jeg bokoversettere på e‑postlisten o-ringen om hva de gjorde for å få med all kildetekst i oversettelsen. Svarene som kom inn, indikerte at de fleste hadde utviklet egne teknikker for å sikre at ingenting utelates, men at disse teknikkene var manuelle og dermed tidkrevende og ikke helt idiotsikre. Her skal jeg beskrive hva som skjer når jeg selv oversetter manus i et moderne CAT-verktøy:

Det første som skjer når jeg åpner filen, er at den segmenteres. Hele teksten blir delt opp i mindre deler, segmenter, i henhold til regler jeg selv har valgt. De aller fleste velger å segmentere teksten på en slik måte at ett segment tilsvarer én setning, men også andre segmenteringsregler er mulige. Litteraturoversettere segmenterer gjerne på avsnitt i stedet for setninger.[1]

På bildet nedenfor ser du hvordan setningssegmenteringen virker i praksis. Til høyre på bildet vises et avsnitt fra originalmanus (PDF-format). Til venstre ser du samme manus i CAT-verktøyet Trados Studio, der ett avsnitt har blitt delt opp i fire segmenter merket med hvert sitt nummer (1510–1514). Ett av kildesegmentene («Traditionally, tangible products …») er markert med grønn ramme, og målsegmentet med min oversettelse («Tradisjonelt har fysiske produkter ….») er markert med rød ramme.

Setningssegmenteringen gjør det teknisk mulig å filtrere teksten (se neste punkt) og sikrer samtidig at ingenting i kildeteksten blir utelatt. Hvis jeg lar et segment stå tomt i CAT-verktøyet, blir dette markert med en advarsel (se den røde sirkelen til høyre for segment nr. 1511). Det samme skjer hvis oversettelsen min er mye kortere eller lengre enn kildesetningen; da vil CAT-programmet også ane uråd og gjøre meg oppmerksom på dette.

Et argument som ofte fremmes av de som er imot bruken av CAT-verktøy, er at oversetteren kan føle seg bundet av setningssegmenteringen, slik at målteksten får en setningsstruktur som er identisk med originaltekstens. Med andre ord at én setning i kildeteksten blir én setning i målteksten. Dette problemet kan løses enten ved å segmentere på avsnitt (1) eller ved å slå sammen segmenter under selve oversettelsesarbeidet. Jeg pleier å bruke den siste strategien; på bildet over har jeg slått sammen to setninger som opprinnelig hadde nummer 1512 og 1511 til én setning (som har fått nummer 1511).

Filtrering – når terminologi må endres

Når teksten er segmentert som beskrevet i punktet ovenfor, åpner det seg mange muligheter for kvalitetskontroll og effektivisering. Her skal jeg bare ta ett eksempel.

Da jeg var nesten ferdig med mitt forrige manus, gikk det opp for meg at jeg hadde oversatt to engelske ord («section» og «paragraph») med ett og samme norske ord («avsnitt»). Det var nødvendig å gå gjennom hele boken for å finne forskjellen på disse to begrepene og ev. endre terminologien i oversettelsen.

Uten CAT-verktøy kunne en slik endring blitt en langtekkelig affære. Jeg ville blitt nødt til å søke på alle forekomster av section og paragraph i kildeteksten og gjøre nødvendige endringer på de korresponderende stedene i målteksten.

I CAT-verktøyet filtrerer jeg på avsnitt i måltekst. Da vises kun relevante segmenter:

Disse segmentene kan nå behandles i CAT-verktøyet akkurat som en vanlig (ufiltrert) tekst.

Terminologibase – slipp å skrive inn lange ord

Ca. halvparten av de bokoversetterne jeg fikk svar fra, fortalte at de brukte autokorrektur-funksjonen i Word til å legge inn ord som gjentas ofte: I stedet for å skrive inn ord som «høyesterettsjustitiarius» bokstav for bokstav, skriver de for eksempel bare «hj», og så retter Word automatisk. Mange fortalte også at de førte separate ordlister underveis i oversettelsen for å sikre konsekvent terminologi. I CAT-verktøy blir disse to behovene (autokorrektur og terminologilister) forent i én funksjon som kalles «terminologibase» eller «termbase» (ofte forkortet til «TB»).

Slik ser det ut når man benytter en terminologibase i et moderne CAT-verktøy:

Når jeg begynner å oversette en ny setning, søkes det automatisk gjennom terminologibasen. På bildet under har to av termene i kildesetningen blitt gjenfunnet, nemlig «integrative practices» og «normalizing practices». Disse vises som treff under Term Recognition til venstre på bildet og merkes også med rød strek i kildeteksten. Dette er termer som jeg har lagt inn tidligere, siden de forekommer ofte i originalmanus og tar relativt lang tid å skrive inn. Når jeg trykker på bokstaven «i», kommer hele termen «integrasjonspraksiser» opp som et forslag. Hvis jeg så trykker på tabulator-tasten, settes forslaget inn i målteksten. Hvis jeg derimot fortsetter å skrive, forsvinner forslaget.

Terminologibaser har den fordelen fremfor autokorrektur at jeg slipper å huske et utall forkortelser. Dessuten kan CAT-programmet stilles inn til å gi en advarsel hvis termene i kildesetningen ikke er kommet med i oversettelsen, for eksempel hvis jeg ikke tar med termen «integrasjonspraksiser» i målsegmentet ovenfor.

Oversettelsesminne – gjenbruk av setninger og superraskt søk

Mens terminologibasen søker etter termer, søker oversettelsesminnet («translation memory» eller «TM») etter hele setninger. Når jeg begynner på en ny setning i CAT-verktøyet, vil kildeteksten automatisk bli sammenlignet med alle setninger jeg har oversatt tidligere. Hvis verktøyet finner en identisk eller relativt lik (likhetsgraden kan stilles inn av brukeren) setning i oversettelsesminnet, vil den oversettelsen jeg gjorde tidligere, automatisk legges inn som et forslag i målsegmentet.

Når jeg oversetter bøker, er det relativt sjelden det dukker opp setninger som er nesten identiske med setninger jeg har oversatt tidligere. Imidlertid kan oversettelsesminnet også brukes til en annen ting som er høyst relevant for sakprosaoversettere, nemlig å søke på ord og setningsfragment.

Det er nemlig ikke alle viktige ord som blir lagt i terminologibasen. Ofte skjønner jeg ikke at en term er viktig, før jeg har kommet et godt stykke ut i boken, og da har jeg kanskje glemt hvordan jeg oversatte den tidligere. I slike tilfeller er oversettelsesminnet gull verdt.

På bildet under søker jeg i oversettelsesminnet (til venstre) etter termen «unbundling» og får fem treff. Legg merke til at CAT-verktøyet ikke bare søker på «unbundling», men også på andre verbformer som «unbundle» og «unbundled».

Hvis jeg ikke hadde brukt CAT, ville jeg måttet søke på «unbundle» og avledede ord i kildeteksten og lete meg frem til de korresponderende stedene i oversettelsen.

Terminologibaser og oversettelsesminner har det til felles at oversetteren selv bestemmer hva de skal fylles opp med. Hvis jeg for eksempel ønsker å sikre at teksten får en konsekvent personlig tekststemme, kan jeg bruke ett minne til alle bøker skrevet av samme forfatter.

Er det verdt bryet å lære seg CAT-verktøy?

Et CAT-verktøy kan kjøpes til ca. 3000–5000 kroner, men den største kostnaden er tiden man må investere for å lære det. Er det verdt bryet?

Svaret avhenger av en rekke faktorer knyttet til både manus og oversetter. Har originaltekstene mange nesten identiske setninger? Har de lange termer som må oversettes konsekvent? Da bør man se nærmere på oversettelsesminner og terminologibaser. Hvilket format er det på manusene fra forlaget? Det ideelle er Word-filer eller et annet redigerbart format. Hvis oversetteren får uredigbare PDF-filer, må han bruke litt tid (jeg beregner én dag per manus) på å konvertere disse før de kan behandles i CAT-verktøyet. Hvis han får fysiske bøker, må disse først skannes, noe som er enda mer tidkrevende.

I tillegg kommer flere personlige faktorer. Hvor fort og presist skriver oversetteren? Hvis han har finmotorikk på nivå med en konsertpianist og klasker ned «høyesterettsjustitiarius» på tastaturet uten å blunke, har han mindre å hente på å ta i bruk en terminologibase. Men det viktigste spørsmålet er kanskje hvor lang tid han bruker på å lære nye dataverktøy. Alle som er motivert for å lære CAT-verktøy, kommer i mål, men veien til målet er ulik. Noen kommer i gang etter et gruppekurs på seks timer, andre trenger individuell oppfølging over lengre tid.

Oversetterens rolle uendret

På samme måte som at tekstbehandlingsverktøy ikke gjorde forfatterne overflødige, vil heller ikke CAT-verktøy danke ut oversettere av kjøtt og blod. I dette blogginnlegget skriver Rune R. Moen at hverdagen til en oversetter først og fremst handler om avgjørelser. Slik vil det fortsatt være; programvaren vil aldri kunne overta ansvaret for disse avgjørelsene, men den blir stadig nyttigere som beslutningsstøtteverktøy.

———————————————————————

[1] Se Paul Filkins blogg for en mer utførlig diskusjon om avsnittssegmentering – med et eksempel fra Shakespeares Falstaff.

4 kommentarer om “Dataverktøy for sakprosaoversettere”

Tilbaketråkk: Mennesker og maskiner | oversattsakprosa
Tilbaketråkk: Nytt fra Newcastle | oversattsakprosa
Roy Østensen sier:

juni 18, 2015, kl. 6:58 pm

Godt innlegg. Den eneste svakheten er at den synes å blande sammen maskinoversettelser og bruker av oversettelsesverktøy. Maskinoversettelsene er automatiske oversettelser, mens oversettelsesverktøyene er verktøy på like linje med andre verktøy som står til disposisjon for oversettere av saksprosa. Jeg vil forøvrig anta av oversettere av skjønnlitteratur har lite å hente av å bruke verktøy som SDL Studio.

Svar
1. Bjørnar Magnussen sier:
  
  oktober 14, 2015, kl. 8:45 pm
  
  Kor i innlegget blandar eg saman maskinomsetjing og omsetjingsverktøy?
  
  Svar

Legg igjen en kommentar Avbryt svar

Dette nettstedet bruker Akismet for å redusere spam. Lær hvordan dine kommentardata behandles..

Del dette:

Relatert

4 kommentarer om “Dataverktøy for sakprosaoversettere”

Legg igjen en kommentar Avbryt svar