Blir norsk gresk for språkteknologien?

AV TORBJØRN SVENDSEN

Språkteknologi er lenge blitt betraktet med store forventninger, både med hensyn på kommersielt potensial og med tanke på økt brukervennlighet for menneske–maskin-kommunikasjon. Taleteknologi, først og fremst talegjenkjenning og talesyntese, er et av de områdene det er blitt stilt spesielt høye forventninger til. Forestillingene om teknologiens muligheter er ikke blitt redusert ved at taleteknologi er blitt framstilt som tilnærmet perfekt av underholdningsindustrien, eksemplifisert ved datamaskinen HAL i Stanley Kubricks film «2001 – en romodyssé», som ikke bare forsto tale og selv kunne snakke, men som også var en kløpper i munnavlesning!

Det kan kanskje være på sin plass med en nøktern vurdering av hvor god teknologien er pr. i dag. En internasjonalt ledende forsker innen taleteknologi sammenlignet for knapt ett år siden dagens taleteknologi med de språklige ferdighetene til en toåring – i stand til å identifisere talte ord og å svare på dem. Ikke desto mindre er det blitt gjort store framskritt, og til tross for sin ufullkommenhet er teknologien i dag god nok til praktisk bruk, og til hjelp for mange.

Dagens teknologi er altså langt fra perfekt, men i den senere tid har relativt avanserte taleteknologiske produkter kommet på markedet til en meget overkommelig pris. Et eksempel på dette er dikteringssystemer, systemer som gjør at man kan diktere tekst direkte inn i en tekstbehandler, formatere og redigere teksten, alt ved bruk av stemmen. En rekke slike systemer har kommet på markedet i løpet av det siste halvannet året. Disse produktene har egenskaper som er sterkt forbedret i forhold til tidligere versjoner. For eksempel tillater dagens systemer at man snakker i setninger, i motsetning til forrige generasjons dikteringssystemer, som krevde at brukeren gjorde en liten pause mellom hvert ord.

Status og framtidsutsikter for taleteknologien ble omfattende og entusiastisk behandlet i tidsskriftet Business Week 23. februar («Let's talk! Speech technology is the next big thing in computing»). Det har heller ikke dempet forventningene at giganter som Microsoft ved gjentatte anledninger har understreket betydningen av taleteknologi i framtidas brukergrensesnitt («Speech is not just the future of Windows, it is the future of computing itself», Bill Gates).

Midt i de begeistrede teknologivyene er det på sin plass å se på framtidsutsiktene i et norsk perspektiv. Det er få språkteknologiske produkter som eksisterer i norsk versjon. Dikteringssystemene som er nevnt over, finnes bare i versjoner for de store verdensspråkene, og kommer først på engelsk. Aftenposten kunne i høst melde at Philips ville komme med en norsk versjon av sitt dikteringssystem til neste sommer. En henvendelse til utviklingsavdelingen hos Philips avslørte imidlertid at dette ikke medfører riktighet. Årsaken til at norske versjoner ikke eksisterer, er to forhold som er nær knyttet til hverandre: Det norske markedet er lite, og det eksisterer ikke tilstrekkelige mengder med språkdata for å tilpasse produktene til norsk språk.

Språkteknologi på norsk?

Språkteknologien er per definisjon språkavhengig. Dette innebærer at forskning, utvikling, og til og med tilpasning av eksisterende produkter, må være knyttet opp mot det språket som skal benyttes. Selv om det for eksempel eksisterer produkter for automatisk talegjenkjenning på det internasjonale markedet, vil det innebære en betydelig investering å tilpasse disse produktene (som stort sett er utviklet for engelsk språk) til norsk språk. Dersom det skal utvikles språkteknologiske produkter for norsk, må dette gjøres av personer og miljøer med norskspråklig bakgrunn og kompetanse. I praksis vil det si at det må gjøres i Norge. Behovet for norsk språkteknologi er spesielt grunnet i språkpolitikk og i hensynet til grupper med spesielle behov.

Språkpolitikk: Språket er en viktig del av den nasjonale identitet. Vår bruk av språket vil farges av de hjelpemidler vi har til å generere tekster og til å utføre daglige arbeidsoppgaver. Samfunnet er i stadig større grad preget av datatekniske hjelpemidler. Innen en periode på fem til ti år vil tale komme til å utgjøre en viktig del av grensesnittet mellom menneske og maskin, og avanserte hjelpemidler til tekstgenerering og automatisk oversettelse vil trolig være alminnelig tilgjengelige. Dersom det ikke eksisterer norskspråklige alternativer, vil man i Norge være avhengig av å bruke et fremmedspråk for å benytte denne teknologien.

Grupper med spesielle behov: Språkteknologien (og spesielt taleteknologien) kan sette en rekke funksjonshemmede i stand til å utføre oppgaver som i dag er vanskelige eller umulige. For eksempel kan lesemaskiner med syntetisk tale og dikteringssystemer med talegjenkjenning lette tilværelsen for blinde og dyslektikere, taleproteser med syntetisk tale kan sette personer med talevansker (for eksempel pga. muskellammelser) i stand til å kommunisere, og talegjenkjenning for omgivelseskontroll kan lette hverdagen for bevegelseshemmede. Vi må ikke avskjære norske funksjonshemmede fra tilgangen på hjelpemidler basert på tilgjengelig språkteknologi fordi det ikke er økonomisk regningssvarende å lage norske versjoner av eksisterende produkter.

De språkpolitiske forhold er bl a omtalt i regjeringens IT-plan Norge – en utkant i forkant, der språkteknologiens betydning for det norske språkets overlevelsesevne blir påpekt. Språkteknologiens betydning for funksjonshemmede er sterkt vektlagt i SINTEFs utredning Telematikk for funksjonshemmede, som er laget for Sosial- og helsedepartementet og Nærings- og handelsdepartementet.

Språkteknologiske korpora

Den språkteknologiske utviklingen har i dag kommet så langt at den kunnskapsmessige og teknologiske basis for å utvikle norske språkteknologiske produkter er til stede. Imidlertid er eksistensen av store mengder språkdata en forutsetning for at denne utviklingen kan finne sted. De fleste områder innen språkteknologien (i særdeleshet gjelder dette taleteknologi) baserer seg på at systemene «læres opp» gjennom bruk av store mengder språkdata, dvs. tale og tekst. Språkdataene må tilfredsstille krav til kvalitet og representativitet samtidig som de må bearbeides (annotering, korrektur, organisering etc) før de kan anvendes. Det er med andre ord ikke tilstrekkelig å gjøre enkel datafangst, f.eks. gjennom radioopptak av tale og/eller innsamling av stortingsreferater for tekst. Selve datainnsamlingen vil for øvrig utgjøre en relativt liten del av kostnadene i forhold til definering, bearbeiding og etterarbeid. I tillegg til de store databasene med tekst og tale er det nødvendig å ha leksikalske ressurser som ordlister, uttaleleksika, terminologilister etc.

Norge er et lite land, og markedet for norsk språkteknologi er derfor også begrenset. Dersom innsamling av språkteknologiske korpora skal gjøres fra grunnen av for hvert produkt, vil til og med kostnadene for tilpasning av eksisterende språkteknologiske produkter til norsk være for høy til at det vil være økonomisk interessant uten vesentlig offentlig støtte. Utvikling av egne norske produkter vil naturlig nok være enda mindre attraktivt. Det er derfor en nasjonal oppgave å skape den språkteknologiske infrastruktur som er nødvendig for å lage norskspråklige produkter og anvendelser.

Det vil naturligvis være mulig å gi offentlig støtte til utvikling av spesielle produkter, med dertil hørende datafangst. Men dette vil ikke være god forsknings- og utviklingspolitikk fordi

de data som samles inn, vil være produktspesifikke, og vil ha begrenset gjenbruksverdi
produktutvikleren vil gå inn med en betydelig egenfinansiering, vil de innsamlede dataene normalt være utviklerens eiendom. Ressursen blir dermed ikke tilgjengelig for andre
datainnsamlingen vil drives på en adhocbasis, vil det ikke være et helhetssyn på hva slags data som skal samles inn, i forhold til det som allerede måtte eksistere av norske språkdata

En slik politikk vil derfor være en lite effektiv bruk av offentlige forsknings- og utviklingsmidler.

For å oppnå en mest mulig effektiv bruk av penger og arbeidsinnsats bør det defineres og samles inn et nasjonalt korpus for norsk språkteknologi. Det nasjonale korpuset bør fylle følgende kriterier:

De språkdata som samles inn, skal være av en generell art. Innholdet i databasen skal dekke de grunnleggende, felles behov for språkdata for forskning og utvikling av norsk språkteknologi. Korpuset skal dekke både bokmål og nynorsk, og i taledelen av korpuset skal det være en dekkende representasjon av dialektbruk.
Data skal samles inn og organiseres etter de retningslinjer og standarder som eksisterer internasjonalt, eventuelt med noen tilpasninger for norsk språk. Det skal legges stor vekt på gjenbruk og levetid. Den innsats som legges inn i det nasjonale korpuset skal være en ressurs for norsk språkteknologi i flere tiår.
Det nasjonale korpuset skal være tilgjengelig for alle aktører innen norsk språkteknologisk forskning og utvikling.
Produktspesifikke databaser skal i utgangspunktet ikke inngå i innsamlingen av det nasjonale korpus. Det er imidlertid ønskelig at korpuset blir supplert med slike databaser. For eksempel kan det være en betingelse ved offentlig støtte til produktutvikling som inkluderer datainnsamling, at de innsamlede data etter en viss tid skal innlemmes i det nasjonale korpuset.

Et nasjonalt språkteknologisk korpus er en nødvendig forutsetning for at det skal være økonomisk regningssvarende å utvikle produkter for det norske markedet. Det vil da være tilstrekkelig med en begrenset innsamling av applikasjonsspesifikke data for produktutvikling. Denne språkressursen er et nasjonalt ansvar, der det vil være en forutsetning å ha offentlig fullfinansiering.

Innholdet i et nasjonalt språkkorpus

Et nasjonalt språkteknologisk korpus vil bestå av følgende hovedkomponenter:

Annoterte taledata. Tilgang på et stort materiale av taledata fra et representativt utvalg av talere er nødvendig for taleteknologisk forskning og utvikling. I tillegg til talen er det nødvendig med en transkripsjon av det tekstlige, og i en del tilfeller også det fonetiske, innholdet av talen. Det er nødvendig å ha taledata som representerer alle stemmetyper og dialekter, i tillegg til at det må være opptak som er gjort under ulike betingelser – høykvalitets tale for diktering, menneske–maskin-interaksjon med spontan tale, telefontale osv. EAGLES, en rådgivende ekspertgruppe for språkteknologi nedsatt av EU, anbefaler at høykvalitetsdelen av en nasjonal taledatabase bør bestå av opptak fra 200–500 talere og til sammen utgjøre minst 100 timer. Hvis en tar i betraktning at vi har to målformer i Norge, og at de fleste brukere vil forvente at taleteknologiske systemer aksepterer dialektbruk på lik linje med "normalisert" talemål, må denne anbefalingen anses som et absolutt minimum.
Leksikalske data. Uttaleleksika som angir sammenhengen mellom ortografisk tekst og uttale, er nødvendig, både for talegjenkjenning og talesyntese. Det vil være ønskelig at den leksikalske informasjonen i tillegg gjenspeiler uttalevariasjon, også med tanke på dialektbruk. Det er dessuten behov for leksikalske data som ordlister, synonymordlister og terminologilister for datalingvistikk og maskinoversettelse.
Tekstdata. Innen taleteknologien benyttes tekstdatabaser for å lage statistiske språkmodeller for talegjenkjenning, talesyntese og dialoghåndtering. Spesielt krever talegjenkjenningen store tekstdatabaser, i størrelsesorden flere hundre millioner ord. Også andre deler av språkteknologien krever store tekstkorpora. Tekstdatabasene bør være merket («tagget»). Det vil være nødvendig å samle inn store mengder tekstmateriale fra ulike domener (avistekst, skjønnlitterær tekst, privatkorrespondanse og forretningskorrespondanse osv). En hovedkostnad ved innsamlingen av tekstdata vil ligge i «vaskingen» av teksten, dvs fjerning av typografisk annotering og ev korrigering av trykkfeil, og i «tagging» og organisering.

Selv om innholdet i et nasjonalt språkkorpus her er definert ut fra de behov som språkteknologien har, er det klart at en slik samling av språkdata vil være av stor nytte for alle språkforskere.

Opphavsrettslige problemstillinger

Det eksisterer allerede en betydelig mengde med språkdata i Norge. Dette gjelder spesielt tekstdata og leksikalske data. Imidlertid er mesteparten av disse språkdataene beheftet med opphavsrettslige begrensninger på bruken. For eksempel sitter forlag og aviser på store mengder tekstdata som det ville være stor interesse for å innlemme i et nasjonalkorpus. Frigivelse av tekster i elektronisk form reiser umiddelbart spørsmål som hvordan man kan forhindre uautorisert mangfoldiggjøring og spredning, hvordan (og hvorvidt) bruk av og tilgang på tekstene bør begrenses, og eventuelt om kompensasjon for bruk. En løsning på disse spørsmålene er tett knyttet til hvordan nasjonalkorpuset skal forvaltes etter at datainnsamlingen er fullført.

Hvordan kan nasjonalkorpuset realiseres og forvaltes?

Jeg har over forsøkt å begrunne at store korpora med tale og tekst er nødvendig for formål som tilpasning av eksisterende produkter til norsk språk, utnyttelse av internasjonal teknologi til å skape nye produkter, også for grupper med spesielle behov, og for forskning, undervisning og utdanning.

Produksjon av gode språkteknologiske korpora er kostbart. Den nødvendige datamengden er tilnærmet den samme for alle språk, uavhengig av hvor mange som snakker språket. På grunn av den spesielle situasjonen i Norge, med to skriftmålsformer og med en utstrakt aksept av dialektbruk, er kravene til datamengde større for norsk språk enn for de fleste andre språk. Det lille markedet for norsk språkteknologi gjør at det ikke vil være kommersielt lønnsomt å etablere det nødvendige språkkorpus uten en vesentlig grad av offentlig finansiering. Realiseringen av et nasjonalkorpus som inneholder språkdata som er av generell art, og som skal dekke de grunnleggende, felles behov for språkdata for forskning og utvikling av norsk språkteknologi, er derfor et offentlig ansvar, og må være offentlig fullfinansiert.

Et scenario for realisering og forvaltning av et språkteknologisk nasjonalkorpus kan være følgende:

Korpusets innhold defineres ved samråd mellom aktører innen forskning og utvikling, språkteknologisk industri og interessegrupper.
Innsamling og bearbeiding gjøres på oppdrag av Forskningsrådet. Som hovedregel er finansieringen hundre prosent offentlig.
Validering av korpuset, dvs. kontroll av at innsamlingen er gjort i samsvar med spesifikasjonene, gjennomføres/overvåkes av fagmiljøer etter oppdrag av Forskningsrådet.
Forvaltning og distribusjon av korpuset legges til et uavhengig forvaltningsorgan, f.eks. det språkteknologiske sekretariat som er foreslått opprettet under Norsk språkråd, en særskilt stiftelse eller ELRA (European Language Resources Association).
Vedlikehold og strategi for supplering regisseres av det foreslåtte språkteknologiske sekretariatet med bistand fra forsknings- og utviklingsmiljøene.
Lisensering, ev betaling for bruk (økonomisk eller ved bidrag til korpuset) avgjøres av det foreslåtte språkteknologiske sekretariatet.

Selv om etableringen av et nasjonalkorpus er en nødvendig forutsetning for å utvikle en norsk språkteknologi, er en annen nødvendig forutsetning at man besitter den nødvendige fagkompetansen i Norge. Dette innebærer at man må satse på forskning og utvikling innen språkteknologi. Forskningen er grunnlaget for at man kan gjøre de riktige teknologivalgene, løse de spesielle problemene som det norske språkets særegenheter gir opphav til, og være et fundament for norsk språkteknologisk industri. Spesielt angår dette universitetsforskningen fordi sterke og tilstrekkelig store forskningsmiljøer på universitetene er en forutsetning for å kunne rekruttere studenter som skal bli bærebjelkene i framtidig språkteknologisk utvikling i Norge.

Framtiden til norsk språkteknologi er avhengig av at det tas et nasjonalt krafttak for å skaffe til veie de grunnleggende språkressursene. Dersom de grunnleggende forutsetninger i form av språkressurser, nasjonal kompetanse og vilje til støtte til utvikling av norskspråklige produkter er til stede, vil språkteknologien kunne være et viktig hjelpemiddel for alle språkbrukere, en hjelp til vern om norsk språk mot påvirkning fra fremmedspråk og en støtte til bedre bruk av språket vårt. I motsatt fall er sannsynligheten stor for at norsk vil bli gresk for språkteknologiske hjelpemidler og produkter.

-- Torbjørn Svendsen er professor ved Institutt for teleteknikk ved Noregs teknisk-naturvitskapelege universitet. Han har arbeidd med taleteknologi i nær på 20 år og sidan åttiåra med taleattkjenning og dialogsystem.

Del denne siden