6 Språk og teknologi
6.1 Innleiing
Den teknologiske utviklinga har gjennomgripande konsekvensar for korleis vi lever, arbeider, samhandlar og kommuniserer. Vi omgjev oss med stadig fleire produkt og tenester som byggjer på språkteknologi. Dette gjev store moglegheiter innan informasjonsbehandling, kommunikasjon, effektivisering, inkludering og innovasjon. Å kunne styre mobiltelefonen og datamaskina med stemma er nyttig i mange samanhengar. For personar som har vanskar med å lese og skrive, kan slike hjelpemiddel vere nødvendige. Personar med lesevanskar kan få lese opp innhaldet i alt frå bøker til nettsider. Dersom vi lurer på når avfallet blir henta, kan vi chatte med roboten til kommunen når som helst på døgnet. Velferdsteknologi kan gje ein pasient meir meistring, aktivitet og sjølvstende i kvardagen og gje betre utnytting av ressursane i helse- og omsorgstenesta.
Eit vilkår for å få til dette er likevel at teknologien fungerer på norsk, og at han klarar å takle det store dialekt- og uttalemangfaldet i landet. Ein statleg praterobot må fungere både på nynorsk og bokmål. Kommuneroboten må skjøne kva bergensaren meiner med boss og austlendingen med søppel. Når Ola i Narvik og Eli i Stavanger skal styre helseroboten, må roboten skjøne kva dei seier. Talesyntesen må kunne lese opp tekst både på bokmål og nynorsk. Automatiske naudmeldingar – både tekst- og talemeldingar – må vere på eit språk som folk forstår, og språket må vere korrekt. Berre slik kan språkteknologien tene dei føremåla han skal.
Ein føresetnad for at norsk skal kunne vere eit samfunnsberande språk i åra som kjem, er at språket blir bruka i digitale produkt og tenester. Regjeringa vil derfor satse på infrastruktur som sikrar at språkteknologiske produkt fungerer på norsk. Vidare må ein sikre at det finst språklege grunnlagsressursar (data) som slike produkt byggjer på.
Målet til regjeringa er å leggje til rette for at alle – også samiske språkbrukarar – skal kunne ta del i det digitaliserte Noreg. Som for andre språk representerer digitalisering både moglegheiter og utfordringar for dei samiske språka. Samisk språkteknologi blir også omtala i komande melding til Stortinget om samisk språk, kultur og samfunnsliv, som skal handle om digitalisering. Kommunal- og moderniseringsdepartementet leiar arbeidet med meldinga.
Boks 6.1 Sentrale omgrep
Språkteknologi er teknologi som behandlar naturleg språk ved hjelp av regelbaserte og statistiske metodar. Det finst fleire kategoriar av språkteknologi: Taleattkjenning omgjer naturleg tale til maskinlesbar tekst. Talesyntese omgjer maskinlesbar tekst til syntetisk/kunstig tale. Naturleg språkforståing tolkar tydingsinnhald og struktur i naturleg tekst. Naturleg tekstgenerering finn den mest sannsynlege representasjonen i naturleg tekst ut frå ei mengd data. Maskinomsetjing utfører automatisk omsetjing frå eitt språk til eit anna. Teknologien er tverrfagleg og blir til i skjeringsfeltet mellom lingvistikk og informatikk. Til grunn for all språkteknologi ligg språkdata i ei eller anna form, til dømes taledatabasar og uttaleleksikon, store tekstmengder (stordata) eller meir avgrensa tekstmengder frå eit særskilt fagområde.
Det finst fleire definisjonar på kunstig intelligens. I Nasjonal strategi for kunstig intelligens frå 2020 legg ein til grunn at kunstig intelligens er system som utfører handlingar (fysisk eller digitalt) basert på tolking og behandling av strukturerte og ustrukturerte data for å nå eit gjeve mål. Det betyr at maskiner kan løyse fysiske og kognitive oppgåver som det tidlegare berre var menneske som kunne utføre. Programmerte, regelstyrte system – definerte av menneske – var lenge den vanlegaste forma for kunstig intelligens. Maskinlæring er ei spesialisering innan kunstig intelligens som tek meir over. Maskinlæring nyttar statistiske metodar for å la datamaskiner finne mønster i store datamengder. Ein kan seie at maskina «lærer» i staden for å bli programmert.1 Kunstig intelligens blir bruka stadig meir i språkteknologiske løysingar.
Terminologi er dei orda og uttrykka som er typiske for bestemte fag. Termlister er lister over slike ord og uttrykk. Dei kan vere eittspråklege og fleirspråklege. For språkteknologisk utvikling er det ein stor fordel om dei er fleirspråklege.
Ein standard er ei felles «oppskrift» på korleis noko skal lagast eller gjennomførast, og standardisering er prosessen frå behov eller idé til ferdig utvikla standard. Det finst standardar for alt frå omnar, romrakettar, bankkort, bensinpumper og dører til eldreomsorg og datatryggleik. Standardar bidreg til at samfunnet blir bygd opp på ein trygg, berekraftig og lønsam måte.2
Korpus er ei samling av elektroniske tekstar som gjev att språklege ytringar. Korpuset består av tekstar som representerer naturleg språkbruk i skriftleg eller munnleg form.3 Eit døme på eit skriftleg korpus er Norsk aviskorpus, som inneheld tekstmateriale frå norske aviser. Døme på talekorpus er innsamla intervjumateriale i talemålsundersøkingar.
1 Tidemann, Axel & Elster, Anne Cathrine (2017) maskinlæring. I Store norske leksikon.
2 Standard Norge. Henta frå: https://www.standard.no/standardisering.
3 Andersen, Gisle. (2019). korpus – språkvitenskap. I Store norske leksikon.
6.2 Meir om språkdimensjonen i teknologiutviklinga
Teknologiutviklinga har konsekvensar for språket. Denne problemstillinga er langt frå ny. Boktrykkjarkunsten førte til dømes med seg både auka informasjonsspreiing og standardisering av store skriftspråk i Europa, men òg til språkdød blant små språk som i liten grad vart trykte og spreidde. I nyare tid spådde St.meld. nr. 48 (2002–2003) Kulturpolitikk fram mot 2014 at «[s]pråkteknologifeltet kan vera ein av dei fremste arenaene der kampen om norsk språk og kultur vil utspela seg i tida framover». St.meld. nr. 35 (2007–2008) Mål og meining omtala IKT som både eit medium og eit sjølvstendig språkdomene der påverknaden frå engelsk språk er stor.
Med endringane i informasjonssamfunnet har den statusen eit språk har, ikkje berre samanheng med kor mange som brukar det, men òg med i kva grad språket blir teke i bruk digitalt. Ein rapport frå 20121 hevdar at kanskje ein tredel av dei 6000 språka som finst i verda i dag, ikkje vil overleve det globale digitale informasjonssamfunnet. Språk som ikkje blir bruka i det digitale domenet, kan risikere å bli reduserte til språk som ein brukar i privatsfæren og lokalsamfunnet. Dei risikerer å bli borte frå viktige sektorar av samfunnet som akademia og næringsliv. Skal norsk fungere som samfunnsberande språk også i åra som kjem, må vi sikre at norsk språk blir nytta i digitale løysingar. Vi må dessutan sikre at det skjer på ein kvalitativt god måte. Det danske språkteknologiutvalet åtvarar til dømes mot at språkteknologiske produkt med dårleg dansk vil gjere at danskane a) blir vande med dårleg språkbruk og mange feil og b) nyttar engelske produkt i staden. Når bruken av engelsk aukar på alle samfunnsområde, vil ein kunne få eit dansk språk som er mindre brukande.2 Det same gjeld for norsk og samisk i Noreg.
Frå eit demokrati- og innbyggjarperspektiv er det rimeleg å hevde at språkteknologiske produkt ikkje er allment tilgjengelege i Noreg før dei blir tekne i bruk på norsk. Spesielt viktig er dette for det offentlege, som forvaltar rettar og plikter for innbyggjarane og fellesskapen sine ressursar. Meld. St. 27 (2015–2016) Digital agenda for Norge. IKT for en enklere hverdag og økt produktivitet slår fast at interessene til brukarane skal stå i sentrum i digitaliseringspolitikken, og at tenestene skal vere gode, heilskaplege og brukarvenlege. Digitale tenester skal sikre deltaking for alle borgarane i samfunnet. Det må vere like sjølvsagt å nytte eit godt og forståeleg bokmål og nynorsk i det digitale som i andre kommunikasjonskanalar, slik at innbyggjarane på ein trygg og enkel måte kan orientere seg og forvalte rettane og pliktene sine.
Ein annan dimensjon ved demokratiargumentet er omsynet til likestilling, inkludering og samfunnsdeltaking. Språkteknologi kan betre tilgangen til informasjon, varer og tenester for personar med funksjonsnedsetjingar. For personar med funksjonsnedsetjingar som fører med seg lesevanskar, er det til dømes til stor hjelp at tekst kan lesast opp med kunstig tale. Det er mogleg å sjå for seg teksteløysingar som simultant formar tale til tekst slik at personar med høyrselstap kan følgje med. Talestyrte datamaskiner gjer at personar som har varige eller midlertidige problem med å skrive, kan nytte datamaskin til å løyse oppgåver både på arbeidet og privat. Når offentleg tenesteyting og kommunikasjon i større grad dreier frå manuell tenesteyting til digitale sjølvbeteningsløysingar, er det naudsynt at desse løysingane er utforma slik at dei er tilgjengelege for alle. Digitalisering av tenester må derfor skje etter standardar for universell utforming. Språkteknologi på norsk er eit vilkår for at dette kan skje.
Det blir produsert enorme mengder data i samfunnet. Dataa kan danne grunnlag for betre og meir effektive tenester, meir verdiskaping og fleire arbeidsplassar. Dersom dataa blir forvalta riktig, kan datadriven innovasjon bli ein av dei viktigaste drivarane for økonomisk vekst. Derfor har regjeringa varsla ei stortingsmelding om datadriven økonomi og innovasjon. Frå eit språkpolitisk synspunkt er det viktig å leggje til rette for etablering av utviklarar i Noreg, der den lingvistiske og samfunnsvitskaplege kompetansen om norske forhold finst. Slik kan produkt og tenester tilpassast det norske språket og samfunnet.
I dagens globaliserte samfunn samhandlar vi i større grad enn før på tvers av landegrenser, kulturar og språk. Språkteknologi kan bidra til å lette kommunikasjon og samhandling over språk- og landegrenser gjennom maskinomsetjing. Norsk språk må vere rusta til å delta i slik global digital kommunikasjon. Språkteknologi legg til rette for å byggje ned språklege barrierar for samhandling, samtidig som han sikrar framleis fri og utstrekt bruk av det enkelte språket.
Språk og språkteknologi vil vere vesentlege faktorar for om vi kjem til å lukkast eller mislukkast med digitaliseringa av samfunnet og samstundes sikre språkpolitiske, kulturelle, økonomiske og demokratiske omsyn. I arbeidet med digitaliseringa av offentleg sektor har det blitt tydeleg at språk spelar ei heilt avgjerande rolle for gode digitale tenester frå det offentlege. I digitaliseringsarbeidet har det òg blitt stadig tydelegare at gode språklege grunnlagsressursar og ein velutbygd språkleg infrastruktur må til for å oppnå gode resultat. Digitaliseringsprosessar illustrerer dessutan kvifor det sektorovergripande prinsippet i språkpolitikken er nødvendig, og kor tett språkpolitikk og sektorspesifikk politikk heng saman. For at ein skal kunne ta i bruk språkteknologi innan ein sektor, er det nødvendig at sektoren sjølv har gjort fagspråket sitt, fagtermane sine og andre relevante språkdata tilgjengelege som grunnlagsressursar. Kvaliteten på det som blir fôra inn i språkteknologien, avgjer kor stor nytte ein kan ha av det som kjem ut.
Sametinget har i innspel til arbeidet understreka at samiske språk, på lik linje med norsk og andre språk, har behov for å følgje med i den teknologiske utviklinga og digitaliseringa i samfunnet. Berre slik kan språka overleve som bruksspråk i eit moderne samfunn. I Noreg har dei samiske språka kvart sitt skriftspråk og alfabet. Det er stor mangel på digitale tenester utvikla på dei samiske språka. Dette fører til at samiske språk i liten grad får utvikle seg som digitale språk. Mangel på tenester på dei samiske språka gjer at språka ikkje er synlege på dei digitale plattformene, og dermed heller ikkje blir nytta der. Med tanke på kor viktig digital kommunikasjon er som kommunikasjonskanal, er dette særleg alvorleg for språksituasjonen.
Boks 6.2 Gode døme på praktisk bruk
Språkteknologi ligg til grunn for automatiske løysingar for omsetjing mellom språk. Til dømes har Nynorsk pressekontor med støtte frå Kulturdepartementet utvikla ei automatisk omsetjingsløysing til bruk i nyhendeproduksjonen. Denne «roboten» omset enkle tekstar og byråstoff, og dette gjev redaksjonen høve til å bruke meir tid på journalistisk arbeid i staden for å omsetje tekstar (sjå også boks 5.2).
Kommunal- og moderniseringsdepartementet er ansvarleg for oppfølginga av norsk deltaking i EUs delprogram CEF Telecom, der ein av byggjeklossane er ein automatisk omsetjingsmodul for norsk språk (eTranslation). Målet er at denne modulen skal kunne integrerast i ulike grensekryssande digitale tenester, og at offentleg tilsette kan nytte modulen i vanleg saksbehandling.
Språkteknologi ligg til grunn for at digitale assistentar som er integrerte i smarthøgtalarar og mobiltelefonar, skal kjenne att, tolke og generere menneskeleg tale. Bruksområda er hovudsakleg styring av komponentar i heimen og i bilen (lys, temperatur, vindauge, dører osb.), kommunikasjon og avspeling og navigering i medium som tv, pc og radio. Men det finst òg ei rekkje fleire funksjonar. Assistentar som er tilgjengelege på marknaden i dag, er i hovudsak retta mot praktiske føremål og er meinte å gjere livet enklare. Dette er av stor verdi for menneske med avgrensa evne til rørsle. På fleire område vil det vere store gevinstar å hente på taleattkjenning og talesyntese. Dersom ein til dømes kan styre navigasjonsapplikasjonar med stemma og få høyre vegforklaringar av ei syntetisk stemme, kan sjåføren halde auga på vegen og dermed bidra til auka tryggleik i trafikken.
Det er blitt meir og meir vanleg med samtalerobotar som kan svare på skriftlege spørsmål frå kundar på nett døgnet rundt. Skatteetaten har til dømes positive erfaringar med ein samtalerobot som kan svare på enkle spørsmål som ofte blir stilte.
Robotisering kan forenkle saksbehandling i privat og offentleg sektor. Språkteknologi kan til dømes bidra med verktøy som kan analysere tekstar og forstå og kategorisere informasjon. Utanriksdepartementet har teke i bruk maskinlæring for å analysere og klassifisere innhaldet i dei 5000–6000 rapportane frå utanriksstasjonar, delegasjonar osb. som departementet får tilsendt kvart år. Dette gjer det mogleg å finne fram til nesten all relevant informasjon om eit emne. Løysinga blir òg bruka til å gjere oppsummeringar og hente ut den viktigaste informasjonen i rapportar. Utanriksdepartementet har samarbeidd med Universitetet i Oslo om løysinga.
I helsesektoren kan språkteknologi nyttast til utvikling av løysingar for å hente ut og analysere pasientjournalar på rekordtid. Det kan vere avgjerande når det er knapt med tid og det står mellom liv og død for ein pasient.
6.3 Status
I dag verkar all språkteknologi betre på engelsk enn på norsk, og betre på bokmål enn på nynorsk og samisk. Ein viktig grunn til dette er at det finst mykje meir tilgjengeleg grunnlagsmateriale – data – for språkteknologi på dei større språka enn på dei mindre.
Etableringa av ein språkbank i Nasjonalbiblioteket i 2010 var svar på denne utfordringa. Språkbanken er det viktigaste språkteknologiske og språkpolitiske enkelttiltaket her heime dei siste ti åra. Språkbanken er ei samling digitale grunnlagsressursar (tekst, terminologi og tale) til bruk i språkteknologi på norsk og for forsking i språkteknologi.
Staten tok ansvar for å etablere språkbanken fordi norsk er eit relativt lite språk. Kommersielle utviklarar vil nøle med å utvikle eller tilpasse produkt på norsk viss det ikkje finst relevante grunnlagsressursar å byggje produkta på. Derfor har staten teke ansvar for å samle og utvikle digitale grunnlagsressursar og stille dei til disposisjon gjennom språkbanken. Utviklarmiljø kan i sin tur fritt hente ut grunnlagsressursane og drive innovasjon, utvikling og verdiskaping på desse.
Nynorsk har endå vanskelegare konkurransevilkår enn bokmål. Ei viktig oppgåve for språkbanken er derfor å arbeide for jamstilling av dei to norske skriftspråka gjennom å utvikle grunnlagsressursar både på nynorsk og bokmål.
Etableringa av språkbanken har resultert i at det i dag finst fritt tilgjengelege dataressursar tilpassa norsk språk innanfor alle dei språkteknologiske hovudområda: taleattkjenning, talesyntese, maskinomsetjing og automatisk tekst- og informasjonsanalyse. Katalogen til språkbanken inneheld i dag meir enn 50 datasett, og talet aukar kvart år.
Det finst ikkje eit komplett oversyn over kva produkt og tenester ressursane i språkbanken er bruka i, men dei er ein del av dei aller fleste språkteknologiske tenestene på norsk i dag. Taleattkjennings- og stemmestyringstenesta TUVA, som er utvikla av Max Manus, og som er tilgjengeleg gjennom Nav, er eitt døme. EUs automatiske omsetjingsteneste eTranslation er eit anna. I 2019 lanserte Microsoft ei taleattkjenningsteneste for norsk. I pressemeldinga frå Microsoft heitte det at samarbeidet med Nasjonalbiblioteket har vore utslagsgjevande for at Noreg, som første land i Norden, har fått denne tenesta på norsk.
Sjølv om ein allereie for mange år sidan såg kor viktig IKT kom til å bli for bruken av og statusen til det norske språket, såg ein ikkje kor fort utviklinga ville gå, og kor gjennomgripande endringane ville bli. Med medvit om dei store utfordingane på dette området auka regjeringa i 2019 løyvingane til arbeidet med grunnlagsressursar til språkteknologi på norsk med til saman 10 mill. kroner. Midlane, som er vidareførte i 2020, vart fordelte med om lag 9 mill. kroner til Nasjonalbiblioteket og 1 mill. kroner til Språkrådet. Språkrådet og Nasjonalbiblioteket har innleia eit strategisk samarbeid der kvar institusjon bidreg med utgangspunkt i eige verkemiddelapparat. Språkrådet bidreg med strategiske språkpolitiske vurderingar for å sikre best mogleg effekt av tiltaket, medan dei språkteknologiske vurderingane og utarbeidinga og innhentinga av grunnlagsressursane skjer i Nasjonalbiblioteket. Dei to verksemdene samarbeider om satsinga og koordinerer innsatsen slik at ressursane i språkbanken blir utvikla og gjort tilgjengelege i rett format og med rett dokumentasjon, og slik at kommersielle utviklarar og det offentlege som bestillar av produkt og tenester får kjennskap til og tek i bruk ressursane. Tre område er særskilt prioriterte: taleteknologi, maskinomsetjing og automatisk tekst- og informasjonsanalyse.
Taleteknologi omfattar både tale til tekst (taleattkjenning) og tekst til tale (talesyntese). Begge delar har vore sentrale i språkteknologisk forsking og utvikling frå starten av. Dei siste åra har tenester baserte på taleteknologi endra karakter frå å vere mynta på spesielle sektorar eller brukargrupper (til dømes helsesektoren og personar med funksjonsnedsetjingar) til å vere retta mot folk flest gjennom mobiltelefonar, personlege assistentar og standard programvare for pc-ar. Auka bruk av taleteknologi krev endå fleire data, ikkje minst data som er tilpassa norske dialektar, uttalevariasjon og begge dei norske skriftspråka. Derfor har Nasjonalbiblioteket i samarbeid med Språkrådet teke initiativ til å transkribere eit utval stortingsmøte. Dette inneber å skrive ned alt som er sagt frå talarstolen på ein talenær måte. Materialet er veleigna fordi talen omfattar stor variasjon i tema og språkbrukarar. Nasjonalbiblioteket planlegg i samarbeid med Språkrådet å lage eit spesialkorpus for taleassistentar, som er eit viktig bruksområde for taleattkjenning. Ein tredje viktig dataressurs for utvikling av språkteknologi er databasar der uttalen av kvar ordform er fonetisk transkribert, det vil seie skriven i lydskrift. Språkbanken tilbyr allereie slike transkriberte ordlister, men ønskjer å utvide dialektdekninga i ordlistene slik at maskinene forstår fleire brukarar. Dialektutvalet blir gjort i samarbeid med Språkrådet.
Den andre store endringa i utbreiinga av språkteknologi dei siste åra gjeld maskinomsetjing. Maskinomsetjing har lenge vore bruka i profesjonell samanheng, men er kanskje mest kjent for folk flest gjennom tenester som Google Translate. Offentlege verksemder har tilgang til EUs teneste eTranslation, eit omsetjingsverktøy for språk i EØS-området, mellom anna norsk. På grunn av mangel på treningsdata finst ikkje eTranslation for begge dei norske skriftspråka, berre for omsetjing mellom engelsk og bokmål. Kulturdepartementet har lagt til grunn at eTranslation må handtere begge dei norske skriftspråka, og Nasjonalbiblioteket vil i dialog med utviklarane finne ein eigna måte å introdusere nynorsk i løysinga på. Det blir òg arbeidd med å auke mengda treningsdata for bokmål gjennom innsamling av omsetjingsminne frå offentlege verksemder.
Det tredje satsingsområdet er automatisk tekstanalyse og informasjonsbehandling. Dette feltet omfattar mange typar tenester, til dømes samtalerobotar («chatbots») og automatiske faktasjekkarar i media. Språkbanken har viktige ressursar for denne typen språkteknologi og legg vinn på å utvikle fleire. Det er behov for store mengder tekst med tematisk, stilistisk og språkleg variasjon, slik at teknologien kan handtere ulike typar tekst.
Det er behov for gode teknologiske verktøy på samiske språk, slik at fleire kan tilby og nytte tenester på samisk. Verktøy som tastatur, korrekturprogram og omsetjingsprogram vil gjere det enklare å nytte samisk skriftspråk, både for samisktalande og for andre som rettar seg mot den samiske befolkninga.
Divvun og Giellatekno arbeider med samisk språkteknologi ved Universitetet i Tromsø – Noregs arktiske universitet. Dei arbeider også med språkteknologi for andre minoritetsspråk og urfolksspråk. Divvun vart etablert i 2004 og utviklar korrekturverktøy og språkteknologiske verktøy for minoritets- og urfolksspråk. Divvun har til dømes utvikla elektronisk stavekontroll, grammatikkontroll og tastatur. Divvun arbeider også med taleteknologi. Giellatekno – Senter for samisk språkteknologi er med på å auke digitaliseringa av samisk. Giellatekno utviklar og forskar på språkteknologi og leksikografi for samiske språk og andre sirkumpolare språk og urfolksspråk. Dei forskar på samiske språk og utviklar programvare for språklæring for ulike samiske språk. Giellatekno arbeider òg med utvikling av verktøy for maskinomsetjing. Trass i at dei samiske språka har ein kompleks grammatisk struktur, og korpusa for dei samiske språka er små, har Divvun og Giellatekno utvikla fleire språkteknologiske verktøy for desse språka. Divvun og Giellatekno har som mål å vidareutvikle verktøya og utvikle nye program og språkressursar til bruk i forsking og utdanning og for samiske språkbrukarar generelt.
Nasjonalbiblioteket har i dag ikkje fritt tilgjengelege datasett på samisk for utviklarar. Nasjonalbiblioteket har bidrege til utvikling av språkteknologi på samisk gjennom å utvikle betre metodar for bokstavattkjenning (OCR-behandling) av samisk tekst. Samlinga til Nasjonalbiblioteket inneheld dessutan alle dokument på samisk som er publiserte i Noreg. Materialet blir bruka på same vilkår som anna pliktavlevert materiale til Nasjonalbiblioteket. Dette inneber at tekst som ikkje er fallen i det fri, ikkje kan nyttast til språkteknologisk utvikling.
6.4 Utfordringar og strategiar
6.4.1 Innleiing
Teknologi som berre finst på eit framandspråk, verkar ekskluderande på store delar av befolkninga. Dersom ein må kunne engelsk for å bruke språkteknologiske produkt og tenester, vil det kunne oppstå digitale klasseskilje. Vi mistar sjansen til å ta i bruk innovative løysingar eller å ta ut effektiviseringsvinstane av digital teknologi i tenester retta mot allmenta så lenge desse tenestene ikkje finst på norsk. Manglande satsing på samisk språkteknologi vil kunne bety ei marginalisering og truging av desse språka.
Vilkåret for å ta i bruk språkteknologi på eit språk er at teknologien har «lært seg» språket. Det krev aktiv tilrettelegging. For at ein skal kunne nytte språkteknologi til dømes innan offentleg forvaltning og sjøfart, må teknologien forstå ord og uttrykk om forvaltning og sjøfart. Skal ein automatisk språkomsetjar skjøne og omsetje mellom dei norske skriftspråka og mellom norsk og andre språk, må data på alle dei aktuelle språka liggje til grunn. Nye ord kjem stadig til i språket, og uttalen av det norske språket er både variert og i endring. Derfor må ein leggje til rette for at teknologien lærer spesialiserte ord og nye ord som kjem inn i språket, slik at han meistrar så vel kvardagsspråk som avisspråk og fagspråk. Det er eit viktig demokratisk prinsipp at alle skal ha rett til å bruke sitt eige skriftspråk og sin eigen dialekt. For å kunne fungere alle stader i landet må ein kommunerobot derfor skjøne dialektar og uttalevariasjon.
Ei av dei største språkpolitiske utfordringane framover er derfor å halde fram arbeidet med å leggje til rette for ein digital infrastruktur for norsk, utvikle verktøy for språkteknologi og syte for at det finst gode nok data til at teknologien kan fungere på bokmål, nynorsk og norske dialektar. For samiske språk gjeld dei same utfordringane.
Verdien av data kjem til å auke dramatisk i åra som kjem. Nasjonal strategi for kunstig intelligens, som regjeringa la fram i 2020, framhevar at for å utnytte det potensialet som ligg i kunstig intelligens, er det avgjerande med tilgang til store datasett av høg kvalitet. Språkteknologi er ein viktig komponent i kunstig intelligens, og det er nødvendig å samle inn og gjere språkressursar tilgjengelege, slik at norske borgarar skal få ta del i stadig meir avanserte tenester, bygde på kunstig intelligens, på eige språk. Regjeringa har eit mål om å leggje til rette for deling av data frå offentleg sektor slik at næringsliv, akademia og sivilsamfunn kan nytte dataa på nye måtar.
6.4.2 Språkbanken
Kulturdepartementets viktigaste bidrag til å byggje den digitale infrastrukturen for norsk er å leggje til rette for framleis utvikling av ressursane og tenestene i språkbanken. Dette arbeidet skal halde fram. Det vil innebere å arbeide for avlevering av data og utvikling av verktøy og tenester og stimulere til at ressursane blir tekne i bruk av utviklarmiljø. Eit ledd i arbeidet må òg vere at offentlege og private aktørar som bestiller produkt og tenester, nyttar innkjøparmakta si til utvikling av nye, inkluderande og effektive løysingar. Framlegget til språklov § 13 legg til grunn at sentrale statsorgan skal veksle mellom bruk av bokmål og nynorsk i allment tilgjengelege dokument. Etter framlegg til § 14 skal sjølvbeteningstenester som statsorgan tek i bruk, vere tilgjengelege på både bokmål og nynorsk samtidig. Dette vil i sin tur kunne bidra til etterspurnad og stimulere til eit språkteknologisk krinsløp både for bokmål og nynorsk. Det vil òg leggje føringar for utviklinga av dei språklege grunnlagsressursane i språkbanken.
Alt innhaldet i språkbanken kan hentast ut og nyttast fritt av både kommersielle og offentlege utviklarar og forskarar. Det er eit mål at dei språklege grunnlagsressursane blir tekne i bruk for å auke tilfanget av språkteknologi på norsk. For at grunnlagsressursane i språkbanken skal kunne dekkje behova på best mogleg måte, må dei vere både relevante og av god kvalitet. Vidare må grunnlagsressursane liggje føre i rett format og med rett dokumentasjon, slik at dei enkelt kan takast i bruk. Mange utviklarmiljø for språkteknologi er internasjonale. Å gjere ressursane i språkbanken kjende både nasjonalt og internasjonalt vil vere avgjerande for at dei blir bruka. Språkrådet og Nasjonalbiblioteket vil gjennom dialog med utviklarindustrien få tilbakemeldingar om relevansen til dei eksisterande ressursane og signal om udekte behov som følgje av den teknologiske og økonomiske utviklinga i sektoren.
Nasjonalbiblioteket og Språkrådet lagar årleg prioriterte lister over ressursar som bør utviklast. Prioriteringane vil basere seg på systematisk kartlegging av behova i dei språkteknologiske miljøa og kva behov det offentlege har for bruk av språkteknologi. Ein må vurdere kva som bør prioriterast av språkpolitiske grunnar, og kva som er teknologisk mogleg og økonomisk forsvarleg å utvikle. Det er eit viktig mål at alle ressursar som blir utvikla, skal kunne delast og brukast gratis av private og offentlege aktørar i ettertid.
Språkrådet har eit særleg ansvar for å følgje opp dialogen med offentleg sektor om innkjøp og bruk av språkteknologi i den sektoren. Dette er ein del av Språkrådets rettleiaransvar.
Det er fleire kategoriar av grunnlagsressursar som kan gå inn i ein språkbank, til dømes større og mindre tekst- og taledatabasar, leksikon (særleg uttaleleksikon), ordlister, termlister og omsetjingsminne. Ei utfordring blir å samordne og kople saman ulike brukarar, kjelder og leverandørar, jf. dei neste underkapitla.
Nasjonalbiblioteket har ressursar som kan nyttast i utvikling av språkteknologi på samisk, men har i dag ikkje kompetanse i samiske språk. Dei har likevel ei viktig rolle som tilretteleggjar for miljø som utviklar samisk språkteknologi.
6.4.3 Offentlege data
Det offentlege produserer store mengder tekst i mange samanhengar, og det offentlege sjølv er dermed ei viktig kjelde til data som kan nyttast i språkteknologi. Denne typen data kallar vi gjerne språkdata, og slike data er avgjerande for at språkteknologi skal fungere best mogleg på ulike samfunnsområde. Språkdata kan til dømes vere «vanleg» tekst, omsette tekstar og termlister. Taledata i form av lydopptak kan vere ein svært verdifull ressurs for utvikling av språkteknologi. NRK, Stortinget og kommunestyre er døme på verksemder som sit på potensielt verdifulle taledata.
Arbeid med forvaltning, deling, tilgjengeleggjering og vidarebruk av data er eit av satsingsområda i oppfølginga av IKT-politikken til regjeringa slik han er uttrykt i Meld. St. 27 (2015–2016) Digital agenda for Norge. IKT for en enklere hverdag og økt produktivitet og Én digital offentlig sektor. Digitaliseringsstrategi for offentlig sektor 2019–2025. Vidarebruk av data skal gje næringsliv, forskarar og sivilsamfunn tilgang til opne data frå offentleg sektor på ein måte som gjer at dei kan nyttast i nye samanhengar og til å skape nye tenester. Dette vil gje auka verdiskaping. Politikken for forvaltning og deling av offentlege data gjeld også språkdata, som kan nyttast til språkteknologiføremål. Likevel er det grunn til å tru at det er behov for å auke merksemda og kunnskapen i det offentlege om språkdata, kva språkdata er, kva nytte og verdi språkdata har, og kvar og korleis det offentlege kan levere språkdata på ein trygg måte.
Digitaliseringsrundskrivet er ei samanstilling av pålegg og tilrådingar om digitalisering av offentleg sektor. Det inneheld mellom anna krav til statlege verksemder om å leggje til rette for gjenbruk og vidarebruk av informasjon. Skrivet krev at den enkelte verksemda skal ha tilstrekkeleg oversikt over kva data ho handterer. Verksemdene skal gjere data tilgjengelege i tråd med vidarebruksreglane i offentleglova og regjeringa sine retningslinjer for tilgjengeleggjering av offentlege data. Rundskrivet pålegg verksemdene å registrere datasett i Felles datakatalog og på Data Norge.
I siste revisjon av digitaliseringsrundskrivet (rundskriv H-5/19) har Kommunal- og moderniseringsdepartementet teke inn tilrådingar som vil tene språkteknologiske føremål, mellom anna tilrådingar om tilgjengeleggjering og avlevering av språkdata. Nye tilrådingar på dette området bør følgjast av informasjons- og rettleiingsarbeid overfor dei statlege verksemdene frå Digitaliseringsdirektoratet i samarbeid med Språkrådet og Nasjonalbiblioteket. Til dømes kan det vere behov for å definere nærare kva språkressursar er, og kva som er den beste måten å tilgjengeleggjere og avlevere dei på.
Språkdata som blir nytta som grunnlag i språkteknologi, omfattar ikkje berre omsetjingar og omgrepslister, men også tekst, som til dømes nettsider, rapportar og saksdokument. Det er viktig å leggje til rette for gjenbruk til dette føremålet i tillegg til vidarebruk av innhaldet i tekstane. Offentleglova og åndsverklova opnar i utgangspunktet for utstrekt vidarebruk av offentleg produsert tekst med mindre særskilde omsyn hindrar det, til dømes personvernet. Det aller meste av tekst produsert av det offentlege er i dag tilgjengeleg på nett. I praksis er det ofte vanskeleg å nytte tekstane til språkteknologiske føremål på grunn av manglande eller uklare vilkår for vidarebruk (lisensiering). Klarering blir dermed ein tidkrevjande jobb. Nasjonalbiblioteket erfarer at private selskap ofte har ei tydelegare lisensiering av eigne nettsider enn offentlege verksemder har. I siste revisjon av digitaliseringsrundskrivet har Kommunal- og moderniseringsdepartementet derfor tilrådd at ein ved publisering av offentleg produsert tekst bør informere om bruksvilkår som opnar for innhausting og gjenbruk til språkteknologiske føremål. Desse vilkåra bør vere romslegare enn for andre typar gjenbruk.
Arbeid med forvaltning og deling av data krev ressursar og kompetanse. Digitaliseringsdirektoratet (tidlegare Difi) gjev det offentlege råd og rettleiing i arbeidet med informasjonsforvaltninga gjennom initiativet «orden i eige hus». Kommunal- og moderniseringsdepartementet har forsterka Digitaliseringsdirektoratet med ressursar som gjer det mogleg med eit tettare samarbeid med Språkrådet og Nasjonalbiblioteket om strategiar for å sikre at offentlege språkressursar kan samlast inn og nyttast til språkteknologiske føremål. Ressursane i Digitaliseringsdirektoratet skal bidra til å samordne arbeidet med avlevering av data. Digitaliseringsdirektoratet ser arbeidet med språkdata i samanheng med arbeidet med deling av data generelt. Digitaliseringsdirektoratet og Språkrådet skal òg vurdere korleis ein kan leggje til rette for meir effektiv forvaltning av språkdata. Språkbanken ved Nasjonalbiblioteket vil ha ei rolle i å utvikle gode system for innhausting av tekst. Det er sentralt at språkdata blir behandla slik at alle personvernomsyn er varetekne.
Data Norge og Felles datakatalog er nettstader der det offentlege kan publisere offentlege data. Digitaliseringsdirektoratet og Språkrådet har saman engasjert analyseinstituttet Ipsos for å kartleggje kva behov offentleg sektor har for å få utvikla og samla inn ressursar til bruk i språkteknologiske løysingar, kva for løysingar og erfaringar verksemdene allereie har, og kva behov dei har for rettleiing om språkteknologi. Undersøkinga vil gje eit kunnskapsgrunnlag som basis for tiltak for å auke merksemda om språkdata og tilgjengeleggjering og deling av slike data, til dømes gjennom språkbanken, Digitaliseringsdirektoratets datakatalogar eller liknande. Dette blir gjort i tett samarbeid med Nasjonalbiblioteket.
For departementa er deling av språkdata ei investering i digitalisering og ein reiskap for betre måloppnåing i eigen sektor. Sektorvis arbeid med å skaffe til vegar og sørgje for tilrettelegging av områdespesifikke data gjennom terminologi- og omgrepsarbeid vil dessutan kunne leggje eit godt grunnlag for å ta i bruk språkteknologiske tenester og produkt i sektoren. Dette kan sjåast på som ein del av det sektoransvaret for språk som kvart departement har, og innsatsen vil heve kvaliteten på digitaliseringsprosessane i den enkelte sektoren. Når eit fagdepartement tek ansvar for å gjere fagspråk og terminologi i sektoren sin tilgjengeleg, sikrar det ikkje berre at det norske språket er levande på fagområdet, men òg at det er mogleg å utvikle språkteknologi som kan brukast innan dette fagområdet.
I tillegg til at det offentlege produserer mykje tekst, er det offentlege òg ein stor innkjøpar av tenester som genererer verdifulle språkdata. Eit døme er omsetjingar tinga frå private omsetjingsbyrå. Eit estimat frå 2016 synte at det offentlege kjøper inn omsetjingstenester for rundt 25 mill. kroner årleg.3 I omsetjingsprosessen blir det skapa omsetjingsminne, det vil seie filer som inneheld setningspar frå tekstane som ein omset frå og til. Slike omsetjingsminne er viktige for å trene opp automatiske omsetjingsløysingar. I dag ber dei færraste offentlege verksemder om å få tilsendt omsetjingsminna saman med dei omsette tekstane. Det offentlege går dermed glipp av data som ville vere svært nyttige som grunnlagsressursar i språkbanken og nye språkteknologiske produkt og tenester. I digitaliseringsrundskrivet som gjeld frå 2020, tilrår Kommunal- og moderniseringsdepartementet at ved kjøp av omsetjingstenester bør avtalane innehalde krav om levering av omsetjingsminne saman med det ferdige resultatet. Vidare blir det tilrådd at omsetjingsminna blir leverte til språkbanken i Nasjonalbiblioteket. I Nasjonal strategi for kunstig intelligens er det varsla at regjeringa vil utforme standardformuleringar til bruk i offentlege kontraktar for å gje offentleg sektor rettar til dei språkressursane som er resultat av omsetjingstenester og andre språktenester.
Eit anna døme på manglande eigarskap til språkdata og manglande innhausting av slike data er når det offentlege bestiller utvikling av språkteknologiske tenester og produkt. Som del av utviklingsarbeidet vil det ofte bli utvikla potensielt verdifulle datasett. Derfor bør det konkretiserast i bestillinga av slike tenester og produkt at det ikkje berre er sluttproduktet som skal leverast, men òg andre datasett som leverandøren utviklar i arbeidet fram til sluttproduktet.
Ein stadig større del av den offentlege samtalen skjer i sosiale medium. Både forskarar og utviklarar etterspør språk som blir bruka i sosiale medium, mellom anna fordi ein i slikt språk finn språklege nydanningar i form av ordval, skrivemåtar og setningskonstruksjonar. Nasjonalbiblioteket har i liten grad høve til å samle inn slikt materiale, mellom anna på grunn av juridiske hindringar hos dei internasjonale selskapa som eig tenestene.
6.4.4 Bruk av pliktavlevert materiale
Alle dokument som blir gjorde allment tilgjengelege i Noreg, skal etter pliktavleveringslova avleverast til Nasjonalbiblioteket. Det ligg eit stort språkteknologisk potensial i tekstmengdene i samlingane til Nasjonalbiblioteket. Samtidig legg lova med forskrifter føringar på vidarebruk av dette materialet. Avgrensingane er først og fremst knytte til opphavsretten.
Kulturdepartementet fastsette nyleg endringar i forskrift til åndsverklova. Etter § 1-4 andre ledd i forskrifta kan Nasjonalbiblioteket framstille eksemplar av åndsverk i anna format enn originalen til forskingsføremål:
«Nasjonalbiblioteket kan for forskningsformål fremstille eksemplar av åndsverk i sine samlinger, også i andre format enn originaleksemplaret, som grunnlagsmateriale for språklige korpuser.»
Forskriftsendringa utvidar høvet som Nasjonalbiblioteket har til å nytte pliktavlevert materiale i språkbanktenester. Formuleringa «for forskingsformål» er likevel ei avgrensing med tanke på utvikling av språkteknologi. Nasjonalbiblioteket kan ikkje utan vidare stille materialet til rådvelde for utviklingsføremål om utviklinga skjer i regi av private og offentlege verksemder som ikkje har status som forskingsinstitusjonar.
Nasjonalbiblioteket har vurdert to løysingar på denne utfordringa. Den første er å omarbeide originalmaterialet på ein slik måte at tilgjengeleggjering ikkje kjem i konflikt med opphavsretten (det vil seie at det fulle meiningsinnhaldet ikkje kjem fram i teksten). Det er til dømes mogleg å stokke om på setningar slik at sluttresultatet ikkje lenger dannar ein heilskapleg tekst.
Den andre løysinga er å teste ut maskinlæringsmodellar. Ein nyttar datamaskiner til å kjenne att språklege mønster gjennom statistiske analysar av store mengder tekst. Desse analysane kan danne grunnlaget for modellar som kan finne dei same språklege mønstera i ny tekst. Modellane inneheld berre statistisk informasjon om språklege strukturar og kan ikkje nyttast til å attskape tekstane som er analyserte. Slike modellar kan forbetre norsk språkteknologi på fleire måtar. Etter mønster frå Finland vil Nasjonalbiblioteket gjere dei første forsøka på å lage ein modell for norsk språk. Nasjonalbiblioteket har ressursane som skal til: tilgang på stor reknekraft og store mengder data. Ein fordel er også at Nasjonalbiblioteket kan trene modellane på materiale som ikkje kan gjerast fritt tilgjengeleg.
6.4.5 Bruk av forskingsdata
I fleire meldingar og utgreiingar i forkant av opprettinga av språkbanken vart språkteknologiske ressursar frå universitets- og høgskulesektoren nemnde som ei viktig kjelde til å fylle språkbanken med innhald. Det har vore vanskeleg å klarere rettane til desse ressursane til andre føremål enn forsking. Språkbanken tilbyr i dag derfor ikkje språkteknologiske grunnlagsressursar som er utvikla med forskingslisens, til andre utviklingsføremål.
Det er fleire grunnar til at vidarebruk av forskingskorpus er avgrensa. Ein grunn er at data i slike korpus kan vere beskytta av opphavsrett eller innehalde personopplysningar. Vel så ofte er grunnen at rettane ikkje har vorte klarerte vidt nok då materialet vart innsamla. Å utvide rettane i etterkant er ofte eit omfattande og nærast umogleg arbeid på grunn av manglande opplysningar om dei opphavlege informantane.
Forsking som skjer ved bruk av offentlege midlar, skal kome fellesskapen til gode. Ifølgje regjeringas Nasjonal strategi for kunstig intelligens frå 2020 er det derfor viktig at også dataa bak forskingsresultata er tilgjengelege for flest mogleg. Betre tilgang til forskingsdata kan bidra til innovasjon og verdiskaping ved at andre aktørar enn forskarane ser nye bruksområde. Eitt slikt område kan vere språkteknologi.
Regjeringas strategi for kunstig intelligens slår vidare fast at fleire sett av forskingsdata enn i dag bør gjerast tilgjengelege. Tilgjengeleggjering må skje innanfor rammene av godt personvern og med omsyn til tryggleik, immaterielle rettar og forretningshemmelegheiter.
Regjeringa la i 2017 fram Nasjonal strategi for tilgjengeliggjøring og deling av forskningsdata. Strategien etablerer tre prinsipp for offentleg finansierte forskingsdata i Noreg: 1) Forskingsdata skal vere så opne som mogleg og så lukka som nødvendig. 2) Forskingsdata bør bli handterte og tilrettelagde slik at verdien i dataa kan nyttast på best mogleg vis. 3) Avgjerder om arkivering og tilrettelegging av forskingsdata må takast i forskarfellesskapen.
Språkrådet er i dialog med Forskingsrådet om korleis ein betre kan leggje til rette for gjenbruk og vidarebruk av data som kan vere verdifulle for utvikling av språkteknologi, men som i dag ikkje er klarerte for slik bruk.
Forskingsfinansierande styresmakter, og først og fremst Forskingsrådet, bør byggje ned hinder for vidarebruk av språkteknologiske forskingsdata. Det kan gjerast gjennom å stille tydelegare krav om at forskingsdata generelt, og særleg språkvitskaplege korpus (som ofte krev store ressursar til innsamling og annotering), skal vere tilgjengelege for flest mogleg brukargrupper med mindre særskilde omsyn tilseier noko anna.
6.4.6 Spesielt om ordlister og standard- og terminologiarbeid
For at norsk skal vere eit samfunnsberande språk, er det nødvendig at det finst eit norsk fagspråk med norsk terminologi på alle fagområde (jf. punkt 9). Likeins er det med samiske språk. Med digitalisering av samfunnet og utvikling av språkteknologi er arbeid med terminologi viktigare enn nokon gong. For at språkteknologi skal verke best mogleg, trengst både strukturerte og ustrukturerte språkdata. Skal ein utvikle gode språkteknologiske tenester, trengst det altså ikkje berre store mengder tekst, men òg kvalitetssikra ord- og termlister. Det gjeld særleg dersom språkteknologien skal nyttast på spesielle fagområde. Fagspesifikke termlister trengst for å «lære» språkteknologien språket og ordbruken på fagområdet. Terminologiarbeidet kan også nyttast til å skape strukturerte kunnskapsbasar. Slike basar er ein føresetnad for fleire tekniske løysingar innanfor maskinlæring og kunstig intelligens. Automatisert saksbehandling er eit døme på eit slikt bruksfelt.
Boks 6.3 A-ordninga – suksess med felles omgrep og digital forenkling
Tidlegare måtte arbeidsgjevarar rapportere inn opplysningar om dei tilsette til Skatteetaten, Nav og Statistisk sentralbyrå i fem ulike skjema på ulike tidspunkt. Det var tungvint. Så vart den månadlege a-meldinga innført, ei felles digital løysing der arbeidsgjevarar kunne samle opplysningar om alt frå forskotstrekk til arbeidsgjevaravgift og sende dei til dei tre etatane samstundes. Dette var ei klar forbetring for arbeidsgjevarar og saksbehandlarar. Men for å få laga eit felles skjema måtte alle etatane samarbeide om ei presis og felles forståing av omgrepa dei nytta i innrapporteringa. I utgangspunktet hadde etatane ulike definisjonar av fleire omgrep, til dømes løn. Saman med rapporteringsløysinga vart det utvikla eit felles omgrepsapparat. A-meldinga har ført til ein lettare arbeidsdag for alle brukargruppene og innsparingar i både offentleg og privat sektor.
Arbeidet med digitalisering av offentleg sektor har aktualisert behovet for terminologiarbeid. Regjeringa har i Meld. St. 27 (2015–2016) Digital agenda for Norge og Én digital offentlig sektor. Digitaliseringsstrategi for offentlig sektor 2019–2025 sett som mål at innbyggjarane og næringslivet skal få samanhengande tenester. Dei skal også sleppe å gje dei same opplysningane til det offentlege fleire gonger – dette blir kalla «berre-ein-gong-prinsippet». Dette krev at ulike datasystem «snakkar saman», og at ein brukar felles omgrep om dei same fenomena innanfor ulike tenesteområde. Fleire offentlege verksemder har derfor sett i gang arbeid med terminologi og utvikling av eigne termbasar, sjå boks 6.3 og 6.4. Det blir utvikla termlister med omgrepsdefinisjonar for dei ulike forvaltningsområda som datasetta høyrer til, og desse termlistene blir gjorde tilgjengelege i Felles datakatalog, som er utvikla av Brønnøysundregistera. Om desse listene er fleirspråklege, kan dei tene som inndata i automatisk omsetjing for dei aktuelle forvaltningsområda. Eittspråklege termlister vil kunne vere viktige for utvikling av naturleg språkforståing. Det finst i dag svært lite terminologi tilgjengeleg på nynorsk.
Særleg strategisk viktige område er universitets- og høgskulesektoren, forvaltninga, helsesektoren og teknologiområdet.
Boks 6.4 Digitalisering og språk i helsesektoren
Helsesektoren nyttar også digitale løysingar for å skape betre tenester for brukarane og effektivisere drifta. Gjennom fleire år har det vorte utvikla ulike fagsystem og -register som ikkje kan utveksle informasjon. Det har skapa problem mellom anna når helseføretak har hatt bruk for pasientinformasjon. I akutte situasjonar kan liv og helse stå på spel om naudsynte opplysningar ikkje er tilgjengelege for helsepersonell. Sektoren har derfor sett i gang fleire store prosjekt for å få eins terminologi på feltet. I 2020 er det sett av til saman 101 mill. kroner til arbeidet med betre pasienttryggleik og samhandling med standardisert språk. Dette inkluderer ein auke frå Helse- og omsorgsdepartementet på 84 mill. kroner til terminologiutvikling i regi av Direktoratet for e-helse i 2020. Direktoratet for e-helse skal leie arbeidet med å etablere eit felles og einskapleg språk i helse- og omsorgssektoren.
Termlister for språkteknologiske føremål er ein viktig ressurs, men det er visse utfordringar knytte til det å nytte dei fullt ut. For det første manglar det standardar for format, struktur og metadata. Den andre utfordringa gjeld juridiske spørsmål knytte til gjenbruk. For det tredje er det behov for auka medvit om at termlister ikkje berre er eit sluttprodukt av eit fagleg omgrepsarbeid, men at dei potensielt har stor verdi i språkteknologisk utvikling.
Språkrådet arbeider for at terminologi som blir gjort tilgjengeleg i Felles omgrepskatalog og andre relevante terminologiressursar, skal kunne eksporterast til språkbanken i Nasjonalbiblioteket. Det gjeld også terminologi frå helsesektoren, teknisk terminologi frå standardiseringsorganisasjonane og terminologi på andre område.
6.5 Prioriteringar og vidare oppfølging
Regjeringa ønskjer å leggje grunnlaget for ein digital infrastruktur for norsk språk.
Arbeidet med å byggje opp grunnlagsressursar for utvikling av språkteknologi på bokmål, nynorsk, norske dialektar og samisk skal halde fram.
Arbeidet med å etablere gode og trygge rutinar for avlevering av språkdata skal halde fram.
Nasjonalbiblioteket og Språkrådet skal arbeide vidare med å gjere ressursane i språkbanken kjende for utviklarar og bestillarar. Dette omfattar å gjere ressursane i språkbanken synlege i offentlege portalar for opne data, som Data Norge og Felles datakatalog.
I samsvar med føringane i Meld. St. 27 (2015–2016) Digital agenda for Norge og i strategiane som regjeringa har lagt fram for digitalisering av offentleg sektor og for kunstig intelligens, forventar regjeringa at offentlege verksemder held fram arbeidet med god informasjonsforvaltning og deling av data.
Kommunal- og moderniseringsdepartementet har forsterka informasjonsforvaltningsmiljøet i Digitaliseringsdirektoratet med ressursar som skal mogleggjere eit nærare samarbeid med Nasjonalbiblioteket og Språkrådet om strategiar for å sikre at offentlege språkressursar kan nyttast til språkteknologiske føremål. Dette kan mellom anna omfatte rettleiing i kva som kan reknast som språkressursar, og arbeid for å sikre avlevering av slike språkressursar til språkbanken.
Regjeringa vil arbeide for at fleire forskingsdata kan gjerast tilgjengelege for språkteknologiføremål.
Regjeringa vil utforme standardformuleringar til bruk i offentlege kontraktar for å gje offentleg sektor rett til språkressursane som kjem ut av omsetjingstenester og andre språktenester.
Fotnotar
META-NET, De Smedt, Lyse, Gjesdal og Losnegaard (2012). Norsk i den digitale tidsalderen.
Dansk Sprognævn (2019): Dansk sprogteknologi i verdensklasse. Rapport fra sprogteknologiutvalget under Dansk Sprognævn nedsat af Kulturministeriet.
Oslo Economics (2016) Kartlegging av behovet for automatisk oversettelse i statlig sektor. Utarbeidet for Kommunal- og moderniseringsdepartementet.