27 september 2011, GU Journalen nr 5-11

När språkteknologi fungerar är det som luften vi andas, inget vi tänker på, säger Lars Borin.
Nu har Centrum för språkteknologi fått officiell status som centrumbildning vid Göteborgs universitet.
Men själva verksamheten, där lingvister och datavetare sam-arbetar, har pågått i decennier.
Redan på 1960-talet började professor Sture Allén samla in stora mängder text för dataanalys. 1974 kom Språkbanken igång och tio år senare började de första studenterna i datalingvistik.
Och för några år sedan blev språkteknologi ett av Göteborgs universitets styrkeområden.
– Forskningen bedrivs i tre laboratorier: textteknologi-, grammatikteknologi- och dialogteknologilaboratoriet, förklarar föreståndaren Lars Borin, professor i språkvetenskaplig databehandling. Men de skilda områdena går också in i varandra.
Ett stort projekt är det EU-finansierade MOLTO, som handlar om maskinöversättning.
– Det mest kända översättningssystemet är nog Google translate. Det bygger på analyser av väldiga mängder text där systemet undan för undan lär av sina misstag. Problemet är att språk fungerar enligt vad som kallas Zipfs lag: ett litet antal ord, som pronomen, konjunktioner och några verb, står för kanske 80 procent av en texts innehåll. Men ett mycket stort antal termer används bara någon enstaka gång. Alltså måste man ha väldigt mycket text för att få ett någorlunda stort ordförråd. När det gäller stora språk, som engelska, är det inget problem. Men hur mycket text finns exempelvis på sydsamiska?
Ett annat sätt är att lära datorn grammatiska regler.
– Men det har också sina brister, påpekar Lars Borin. Exempelvis klarar ett sådant system bara de regler som matats in, inte specialregler och absolut inte språkfel, som ju trots allt ofta förekommer i texter. I projektet MOLTO försöker vi därför kombinera de båda översättningsteknikerna.
När språkteknologi fungerar som bäst är den som luften vi andas och ingenting vi tänker på, påpekar Lars Borin.
– Men även om en text är korrekt översatt till 98 procent, är det ändå de 2 procent som blev fel som vi lägger märke till. Goda översättningar är alltså en stor utmaning.
Ett sätt att hantera översättningsproblematik är att hjälpa datorn genom att använda så kallade kontrollerade språk.
– Det innebär att texterna anpassas till datorn. Det gäller exempelvis att undvika tvetydiga meningar som ”Polisen iakttog mannen med kikaren” där det är oklart vem som egentligen håller i kikaren. Ett annat är att vara noga med den logiska kronologin, alltså hellre ”När jag kom hem satte jag på kaffe” än ”Jag satte på kaffe när jag kom hem”. Terminologin bör också vara begränsad så att man inte använder olika ord för samma sak.
Än så länge passar maskin-översättning bäst för enklare texter som instruktionshandlingar eller formella brev.
– Men i vissa fall kan tekniken också användas vid litterärt översättande. Den som forskar om exempelvis spänningslitteratur kanske vill ha ett hum om vad en deckare på turkiska eller swahili handlar om. Då kan en maskinöversättning vara bättre än ingenting alls.
Förutom översättningar ägnar sig centrumet också åt andra stora textanalyser. Och det är inte bara språk- eller litteraturvetare som vänder sig hit. Historiker kan exempelvis undersöka när ord som ”siden” eller ”kaffe” började användas i Sverige och medicinare kan vaska fram information ur patientjournaler, bland annat om läkemedelsinteraktion eller biverkningar.
– Men vi håller inte bara på med texter, förklarar Lars Borin. Dialogteknologilabbet undersöker hur datorer kan samtala med människor, exempelvis vid beställning av biljetter på SJ. Och projektet LekoBot går ut på att få funktionshindrade barn att kommunicera med hjälp av en leksak. Språkteknologi kan handla om filosofiska frågor som vad språk egentligen är för något. Men det kan också innebära praktisk mönsteranalys som även används i icke-språkliga sammanhang, som vid igenkänning av ansikten eller vid kreditkortstransaktioner. Språkteknologi är helt enkelt ett väldigt brett område med många utvecklings- och samarbetsmöjligheter.
Centrum för språkteknologi innebär ett samarbete mellan språkforskare och datavetare vid Humanistiska fakulteten, IT-fakulteten och Chalmers. Mest känt är kanske Språkbanken som samlar in och tillgängliggör mängder med texter, från medel-tiden fram till idag, bland annat samlade verk av C.M. Bellman, C.J.L. Almqvist och August Strindberg. Vill du testa hur språkteknologi fungerar i praktiken?
Gå in på: sprakteknologi.se
Text: Eva Lundgren Foto: Johan Wingborg
På www.gu-journalen.gu.se är du personligen ansvarig för dina inlägg: se till att de följer svensk lag. Redaktionen förbehåller sig rätten att radera inlägg som strider mot de pressetiska spelreglerna.

Om en av de största fuskutredningarna i Sveriges historia. Vi berättar vad som hände.
En enhetlig och säker datormiljö som förhoppningsvis på sikt blir billigare. Det utlovas i projektet Datorarbetsplats. Men frågan är vad det kommer att kosta.
Samma regler gäller inom sociala medier som överallt annars.
När Henrik Bogdan dömer matcher kommer han i ett flow.
Patricia Lorenzoni insisterar på att skriva på svenska och vill delta i samhällsdebatten. Något som inte direkt uppmuntras idag.
För ett genuint studentengagemang får Anna Westerståhl och ett läkarteam årets pedagogiska priser.
Samtal med forskare: Vårt land tål större åsiktsskillnader
Statsvetaren Andreas Johansson Heinö i ett samtal om multikulturalism och integrationspolitik.
Cheferna är nöjda men jobbar hårt
Chefsbarometern 2010 visar att cheferna vid GU på det hela taget trivs.
Klart för höstens workshopar inför 2020
Boka in varje onsdag i Vasaparken, då är det spännande workshopar.
Språkteknologi blir centrumbildning
Efter lång tid har språkteknologi fått officiell status
Spikat: Med tryckeri i ladugården
Forskaren Rikard Wingård trycker inbjudningskort, visitkort och andra småsaker.
"Vi har inte råd att förlora internationella studenter"
Nedläggning av Förvaltningshögskolan stärker varken forskning eller utbildning