6 Innsamling av nettdokument
6.1 Bakgrunn
Nasjonalbiblioteket har med heimel i pliktavleveringslova samla inn nettdokument sidan midten av 1990-åra. Dei første åra var aktiviteten i stor grad testbasert, med ei selektiv tilnærming til innsamlinga. Til dømes er nettbaserte medlemsblad frå organisasjonar og foreiningar, rapportar frå vitskaplege institusjonar og digitale utstillingar på nett tekne vare på. I tillegg til dette blei nettsider relaterte til spesielle hendingar av nasjonal interesse hausta inn. Til dømes er nettstadene til dei politiske partia i samband med stortingsval og kommune- og fylkestingsval blitt tekne vare på sidan 1997.
Nasjonalbiblioteket søkte om og fekk sin første mellombelse konsesjon for å samle inn det norske internettdomenet .no frå Datatilsynet i 2003. Personopplysningslova har implementert EUs personverndirektiv1 i Noreg. Det følgjer mellom anna av § 33 at ein må ha konsesjon frå Datatilsynet for å behandle sensitive personopplysningar. Opne nettsider vil kunne innehalde slike opplysningar. Dei personvernrelaterte problemstillingane knytte til innsamling av nettdokument er behandla nærare nedanfor.
Frå og med 2005 gjekk Nasjonalbiblioteket over frå ei selektiv innsamling til såkalla domeneinnsamling. Det innebar at opne nettsider på det norske internettdomenet .no blei samla inn éin til to gonger i året. Sidan 2005 er det samla inn om lag 1478 millionar filer. Materialet er per i dag ikkje tilgjengeleg for bruk. Dei siste konsesjonsvilkåra frå 11. august 2010 inneheld krav som gjer at Nasjonalbiblioteket i stor grad har avslutta automatisk innsamling av internettdokument. Konsesjonen gjekk ut 30. juni 2012, men sidan Nasjonalbiblioteket ikkje haustar nettsider på bakgrunn av konsesjonen, og mens ein ventar på dette lovarbeidet, blei det ikkje sendt søknad om ny konsesjon. Nasjonalbiblioteket samlar no berre inn utvalde nettsider. Konsekvensen av å halde fram med selektiv innsamling er at relativt mykje materiale av kulturhistorisk verdi går tapt. Døme på dette er dokumentasjon publisert på Internett før og etter terrorhandlingane 22. juli 2011. Vi har no eit ufullstendig kjeldemateriale når ein skal forska på korleis samfunnet og ordskiftet har endra seg.
Dei utvalde sidene inneheld informasjon om saker av nasjonal interesse eller er nettsider som dokumenterer norsk kultur og samfunnsliv. Dei sidene som blir hausta jamleg, omfattar først og fremst nettaviser, offentlege sider og nokre bloggar etter avtale med sideeigarane. I alle desse tilfella er det på førehand sendt brev til eigarane av nettstadene med informasjon om innsamlinga.
Nasjonalbiblioteket samarbeider med andre land om innsamling og er medlem i International Internet Preservation Consortium (IIPC). Her deltek nasjonalbibliotek og institusjonar frå meir enn førti land. Det er utvikla ulike verktøy for mellom anna innsamling og indeksering i regi av IIPC. Nasjonalbiblioteket bruker innsamlingsverktøyet Heritrix, som er ein de facto standard programvare for medlemmene av IIPC. IIPC utviklar også felles retningslinjer for automatisk innsamling.
Som nemnt i kapittel 2 har både Personvernkommisjonen og Personvernnemnda stilt spørsmål ved rekkjevidda av avleveringsplikta for nettdokument.
Personvernkommisjonen skreiv mellom anna i NOU 2009: 1, på side 119:
Det er særlig pliktavlevering av elektroniske dokumenter kommisjonen har fokusert på og som må sies å reise særlige personvernutfordringer. Det er også grunn til å stille spørsmål ved om en slik omfattende pliktavlevering er tilstrekkelig gjennomtenkt og i tråd med lovgivers intensjon da loven ble vedtatt i 1989.
Personvernnemnda har uttalt at ein del av dei ytringane som vil vere allment tilgjengelege på Internett, vil ha ein annan og meir privat karakter enn fysiske dokument som blir samla inn og tekne vare på i dag. Nemnda uttalte mellom anna følgjande ved behandling av klage frå Nasjonalbiblioteket over konsesjonsvilkåra (PVN-2009–11):
Generelt sett mener Personvernnemnda at lovens begrep «allment tilgjengelig» ikke er et hensiktsmessig begrep for den lovregulerte, pliktmessige innsamling av ytringer i det offentlige rom. Begrepet er ikke lenger dekkende for det som var formålet med avleveringsloven, nemlig å samle inn de offentlige ytringer. Med Internett har «allment tilgjengelig» blitt utvidet til å også omfatte private ytringer. På Internett legges det enkelt sagt ut tre kategorier informasjon:
Informasjon som er intendert lagt ut åpent
Informasjon som ved en feiltagelse er lagt ut åpent på nettet
Kommunikasjon som er intendert rettet mot en privat krets, men andre kan se det likevel, for eksempel private blogger, private nettsteder, familiebilder etc.
Det var ikke lovens intensjon at alle disse kategoriene skulle samles inn. Slik situasjonen er nå, samler Nasjonalbiblioteket inn informasjon fra alle tre kategorier. Ved en lovrevisjon bør det vurderes om en slik utvidelse er ønskelig og hensiktsmessig.
På bakgrunn av desse innspela såg departementet behov for å gjennomgå og klargjere reglane som regulerer automatisk innsamling av nettdokument.
6.2 Kartlegging av materiale på Internett
Hausten 2011 fekk Kulturdepartementet utarbeidd ein rapport med kartlegging av materiale på Internett.2 Rapporten gav eit godt grunnlag for å kunne vurdere om det er faktisk og praktisk mogleg å dele inn nettet i ulike bevaringskategoriar.
Rapporten viste at i 2011 hadde norske verksemder registrert nær 530 000 domenenamn, mens nær 250 000 domenenamn er registrerte i USA av verksemder og personar med adresse i Noreg. Nye domeneregistreringar skjer kvar dag. Somme domene består av ei handfull sider, mens andre har tusenvis av undersider. Det er vanskeleg å vurdere det totale talet på nettstader som kan klassifiserast som norvegica,3 sidan det er svært mange nasjonale domene som er opne for registrering utan særskild tilknyting til landet. I tillegg skjer ein stor del av internettbruken i Noreg på nettstader utanfor det norske domenet. Mellom anna viser Alexas4 rangering av nettrafikk at Facebook, YouTube og Google utgjer ein stor del av nettbruken til nordmenn.
I rapporten blei det gjort greie for fleire måtar å lage oversikter over materialet på Internett på. Det kan vere oversikter over trafikkdata, populær systematisering («folksonomi»), automatisk genererte sjangerklassifiseringar eller kvalitative sjangeroversikter. Dei meiner at oversikter over kva nettstader som er mest besøkte av det norske publikummet, kan vere ei kjelde til å identifisere bevaringsverdige nettstader. Populære sjangerinndelingar vil kunne fange opp nye nettfenomen, men det kan vere problematisk at dei ikkje er varige. Likevel vil dei kunne gi viktige indikasjonar på bevaringsverdige kjelder. Når det gjeld automatiske sjangerinndelingar, blir desse lett for grove til at dei kan gi eit dekkjande bilete. Når det gjeld kvalitative sjangerinndelingar, har ikkje forfattarane av rapporten klart å finne ei oversikt som gir eit påliteleg overblikk over Internett. Ulike tilnærmingar vil gi ulike inndelingar. Éi tilnærming kan til dømes vere ein popularitetsindeks: Med utgangspunkt i dei hundre nettsidene der det er registrert mest trafikk frå Noreg, har forfattarane gruppert nettsider med fellestrekk under populære namn. Dette har resultert i dei tjue mest brukte typane nettstader i Noreg: nettaviser, verksemdsinformasjon, deling, nettbutikkar, søkjemotorar, bloggplattformer, nettleksikon, offentleg informasjon, pornografi, portalar, telefonkatalogar, diskusjonsfora, nettbankar, TV-selskap, marknadsplassar, nettsamfunn, betalingstenester, datingtenester, omsetjingar, vêrmelding, Internett-TV.
I oppsummeringa går det fram at det er vanskeleg i ein kort rapport å gi full oversikt over alt som finst av materiale på Internett. Terrenget som skal kartleggjast, er i hurtig og konstant endring, og det er lite sannsynleg at sjølv ein rapport som strekte seg over fleire år og omfatta fleire bind, ville vore fullt ut dekkjande.
6.3 Gjeldande rett
Gjeldande pliktavleveringslov heimlar berre avlevering av allment tilgjengelege dokument. Dette er også poengtert både av Personvernnemnda5 og Personvernkommisjonen,6 som har uttalt at dei meiner gjeldande lovgiving ikkje gir klar heimel for innsamling av nettdokument. For at Nasjonalbiblioteket skal kunne gjennomføre ikkje-avtalebasert domeneinnsamling, er det nødvendig å heimle denne innsamlinga i lov.
Etter pliktavleveringslova er den grunnleggjande føresetnaden for avleveringsplikt at eit dokument har vore gjort tilgjengeleg for allmenta.
Pliktavleveringslova § 3 andre ledd presiserer kva som ligg i at eit dokument er allment tilgjengeleg:
Eit dokument er gjort tilgjengeleg for allmenta når
eksemplar av dokumentet vert bode fram for sal, utleige eller utlån, eller når dokumentet på annan måte vert spreidd utanfor ein privat krins,
informasjonen i dokumentet vert gjord tilgjengeleg utanfor ein privat krins gjennom framføring, framsyning, kringkasting, direktekopling e.l.
Kva som er å rekne som allment tilgjengeleg, er utdjupa i forarbeida til pliktavleveringslova.7 Det avgjerande er om innhaldet i dokumentet er gjort tilgjengeleg ut over ein avgrensa, slutta krins. Om det er få eller mange som faktisk har tileigna seg det tilgjengelege dokumentet, er ikkje avgjerande, berre om det er mogleg for allmenta å få slik tilgang. Dette inneber til dømes at heilt organisasjons- eller bedriftsinterne dokument fell utanfor avleveringsplikta. Det er likevel ein føresetnad at plikta omfattar dokument med informasjon som er spreidd til medlemmer av organisasjonar som er opne for alle, eller opne for alle med same føresetnader eller same interesser, til dømes aksjeeigarar i eit aksjeselskap, medlemmer av fag- og yrkesforbund og av vitskaplege foreiningar.
I forarbeida til personopplysningslova8 er det problematisert at behovet for gode forskingsresultat av og til kan kome i konflikt med personverninteresser. I forarbeida er der vist til at behandling av personopplysningar for forsking eller statistiske formål i ein del tilfelle vil stå i ei særstilling, ut frå dei viktige samfunnsinteressene som kan vere knytte til den vitskaplege eller statistiske verksemda. I gjeldande personopplysningslov er det heimel for å gi konsesjon til å behandle sensitive personopplysningar når dette er nødvendig for historiske, statistiske og vitskaplege formål, jf. § 9 bokstav h. Konsesjon føreset at den interessa samfunnet har i slik behandling, er klart større enn dei ulempene det kan føre til for den enkelte. Behandlinga vil uansett vere konsesjonspliktig etter § 33, sjølv om ho blir sett på som rettmessig etter § 9 bokstav h. I medhald av personopplysningslova § 28 andre ledd blir det også opna for å lagre personopplysningar i større utstrekning enn elles, så sant dei blir lagra for historiske, statistiske eller vitskaplege formål.
6.4 Innsamling av nettdokument i andre land
6.4.1 Innleiing
Sidan midten av 1990-åra har det eksistert både offentlege, ideelle og private initiativ for å arkivere publisert materiale på Internett. Internasjonalt er Internet Archive det mest omfattande og lettast tilgjengelege arkivet.9 Dette blei etablert i USA i 1996 som eit privat initiativ med formål å vere eit internettbibliotek tilgjengeleg både for forskarar, historikarar og allmenta. Også norske nettsider er lagra i Internet Archive.
Dei fleste vestlege land anerkjenner i dag behovet for å samle inn og ta vare på den delen av kulturarven som er gjord elektronisk tilgjengeleg.10 EU-kommisjonen tilrår også bevaring av den digitale kulturarven, jf. EU-rekommandasjonen «On the digitisation and online accessibility of cultural material and digital preservation» artikkel 10.11 Her heiter det at medlemslanda bør setje i verk dei nødvendige tiltaka for å forbetre oppbevaringa og avleveringa av materiale som er produsert i digitalt format. Det følgjer vidare av artikkel 10 bokstav c at landa bør innføre føresegner som tillèt utpeikte institusjonar å samle inn og ta vare på materiale publisert på Internett, til dømes ved hjelp av automatisk innsamling (såkalla «web harvesting» eller «innhausting»).
6.4.2 Danmark
Avleveringsplikta for digitale dokument i Danmark har heimel i Lov om pligtaflevering af offentliggjort materiale,12 i kraft frå 1. juli 2005. På bakgrunn av Utredning om kulturarven frå 2003 blei lova endra slik at også den elektronisk offentleggjorde kulturarven skulle avleverast, inkludert materiale som er gjort tilgjengeleg over Internett.
Meir presist omfattar avleveringsplikta dansk materiale offentleggjort i elektroniske kommunikasjonsnett. Omgrepet offentleggjort skal forståast på same måten som definisjonen av omgrepet i den danske opphavsrettslova § 8 stk. 1, altså slik at eit verk blir rekna som offentleggjort når det er gjort lovleg tilgjengeleg for allmenta.13
Materiale publisert på Internett blir hausta inn dersom det er offentleggjort på det danske toppnivådomenet .dk, eller dersom det er materiale retta mot publikum i Danmark på andre domene. Innsamling av materialet skjer gjennom ein kombinasjon av tverrsnittsinnsamling,14 selektiv innsamling15 og såkalla innsamling av konkrete hendingar, som er innsamling av materiale knytt til val eller andre store nasjonale hendingar.
Nettdokument blir i praksis avleverte ved at pliktavleveringsinstitusjonane (Det Kongelige Bibliotek og Statsbiblioteket) har heimel16 til å rekvirere17 eller framstille eksemplar av materialet. E-bøker er eit døme på materiale som blir rekvirert. Pliktavleveringsinstitusjonane har rett til å be om passord og liknande for å samle inn nettdokument som elles berre er tilgjengelege ved pålogging,18 så lenge det dreier seg om materiale som er gjort lovleg tilgjengeleg for allmenta.19
Prinsipielt skal alt innhausta materiale lagrast for framtida, og ingenting skal slettast eller førehandssensurerast, jf. bekendtgørelsen § 10. Personvernomsynet blir sikra først og fremst ved ein svært restriktiv tilgang til materialet. Det danske datatilsynet har i praksis ikkje problematisert sjølve innsamlinga av digitale dokument. Når det gjeld behandlinga av ulovleg eller feilaktig informasjon, er det etablert ei ordning som teknisk sett opnar for kommentarar og tilvisingar til rettingar.20
Nettstader med såkalla søkjemotorimmunisering, til dømes robots.txt, blir også hausta inn. Søkjemotorimmunisering blir ikkje rekna for å vere ei tilgangsavgrensing, berre ei trafikkavgrensing. Materiale som blir offentleggjort via mobiltelefoni, er unnateke frå avleveringsplikt, jf. bekendtgørelsen § 8 stk. 2.21
Det primære formålet med innsamling av den elektroniske kulturarven i Danmark er sikring av materialet, slik at det også i framtida er tilgjengeleg for forskinga og allmenta.22
Det innhausta materialet blir oppbevart i nettarkiv ved Statsbiblioteket i Aarhus og ved Det Kongelige Bibliotek i København. Utgangspunktet for tilgang til nettarkivet er pligtafleveringsloven § 19 stk. 3, der det går fram at pliktavlevert materiale skal gjerast tilgjengeleg for allmenta innanfor rammene av opphavsrettslovgivinga, med mindre tilgangen er avgrensa i anna lov. I bekendtgørelsen § 11 er dette konkretisert slik at «[d]er kan gives adgang til arkivet efter reglerne i ophavsretsloven og § 10 i Lov om behandling af personoplysninger».
I og med at nettarkivet vil innehalde personopplysningar, blir heile arkivet per i dag behandla i samsvar med Lov om behandling af personoplysninger (persondataloven) §§ 7 og 8. Av merknadene går det fram at innhausta materiale berre skal gjerast tilgjengeleg til vitskaplege formål. Det er altså berre kvalifiserte forskarar som får tilgang til det innhausta materialet, etter søknad til Statsbiblioteket. Dersom det aktuelle forskingsmaterialet inneheld sensitive personopplysningar, må forskaren også søkje konsesjon frå Datatilsynet.
6.4.3 Island
På Island er pliktavlevering av digitale dokument heimla i Lög um skylduskil til safna, av 20. mars 2001 nr. 20, i kraft frå 2003. Lova gir heimel både til pliktavlevering og innsamling av nettdokument.
Innsamlinga av nettdokument skjer ved automatisk innsamling av et tverrsnitt av heile det islandske toppnivådomenet .is minst tre gonger i året, selektiv innsamling av utvalde sider ein gong i veka (særleg nettaviser) og hendingsinnsamling. I tillegg lagar det islandske nasjonalbiblioteket Landsbókasafn ei liste over islandsk materiale på andre domene, som også blir hausta inn.
Ved innsamling informerer nasjonalbiblioteket om at sidene blir lagra, ved at det blir plassert ei lenkje i besøksloggen på sidene. Søkjemotorimmuniseringa blir ikkje rekna som ei tilgangsavgrensing som stengjer for innsamling.
Dei innhausta internettsidene blir lagra i Islands nettarkiv ved nasjonal- og universitetsbiblioteket Landsbókasafn i Reykjavík. Nettarkivet er tilgjengeleg for allmenta via nettstaden www.vefsafn.is. Tilgangsavgrensingar gjeld først og fremst for innhausta nettsider som krev betaling. I tillegg klausulerer nasjonalbiblioteket nettsider på førespurnad, etter ei konkret vurdering. Per mars 2015 har det vore berre to slike førespurnader som har ført til mørklegging av sider.
Når det gjeld e-bøker, har nasjonalbiblioteket i mars 2015 samla inn om lag 600 titlar på grunnlag av avtale med nokre av dei store forlaga, og altså ikkje som ein del av den generelle nettinnhaustinga. Avtalane seier ikkje korleis e-bøkene kan nyttast, og dei er per i dag ikkje i katalogen (og kan ikkje lesast i biblioteket). Nasjonalbiblioteket arbeider med avtale om innhausting og tilgjenge også for dette materialet.
Materialet i nettarkivet skal i utgangspunktet ikkje slettast. Dersom nokon skulle ønskje å slette materialet frå nettarkivet, er dette noko ein domstol vil måtte ta stilling til.
6.4.4 Sverige
Avleveringsplikt for elektroniske dokument i Sverige følgjer av Lagen om leveransplikt för elektroniskt material (e-pliktlagen). Lova tok til å gjelde 1. juli 2012 og gjeld for det elektroniske materialet som blir gjort tilgjengeleg for allmenta i Sverige gjennom overføring i nettverk etter 31. desember 2014.23
Avleveringsplikta etter e-pliktlagen omfattar elektronisk materiale. Dette er definert i lova som «[…] en avgränsad enhet av en elektronisk upptagning med text, ljud eller bild som har ett på förhand bestämt innehåll som är avsett att presenteras vid varje användning. Det elektroniska materialet ska vara av avslutad och permanent karaktär.»24
Dette omfattar dei filene som utgjer den enkelte nettsida, forutan programkoden, men også eventuelle databasar som ligg bak sidene. Formålet er å ta vare på informasjonsinnhaldet, ikkje å kunne vise sida slik ho såg ut på innsamlingstidspunktet. Lova gir ingen rett til innhausting. Materialet skal sendast i éin kopi til Kungliga biblioteket, som sjølv tek tryggingskopiar.
Det er først og fremst det materialet som har ein utgivar med såkalla særskilt grunnlovsvern etter yttrandefrihetsgrundlagen25 som skal avleverast, jf. e-pliktlagen § 3. Dette vil typisk vere materiale frå forlag, aviser og kringkastingsbedrifter. Den som yrkesmessig distribuerer elektronisk materiale som berre blir publisert digitalt, skal også avlevera. Det kan til dømes gjelde e-bøker og musikk. Avleveringsplikta gjeld dessutan for statlege og kommunale styresmakter, og her er avleveringsplikta ganske absolutt.26 Private nettstader og private ytringar på nett er ikkje omfatta av avleveringsplikta.
Det elektronisk avleverte materiale er i dag ikkje tilgjengeleg for publikum. Kungliga biblioteket viser på sine heimesider til at regjeringa skal kome tilbake med nærare regulering på området.27
E-pliktlagen omfattar ikkje innsamling av heile det svenske toppdomenet .se, men tilgangen til dette er regulert i ei eiga forordning frå 2002.28 Det innsamla materialet blir gjort tilgjengeleg for forskarar i Kungliga biblioteket, på eigne terminalar.
I Sverige er det ikkje etablert noko konsesjonssystem i den svenske personopplysningslova. Den svenske Datainspektionen har heller ikkje problematisert i kva grad personvernet blir sikra eller ikkje ved innsamlinga etter forordninga.
Sider med søkjemotorimmunisering blir ikkje samla inn i Sverige i dag. Kungliga biblioteket ønskjer ein tydelegare lovheimel for automatisk innsamling av den svenske delen av Internett. Det er per i dag ikkje sett i gang nokon prosess for å sikre dette.
6.4.5 Finland
Den finske pliktavleveringslova, Lag om deponering och förvaring av kulturmaterial,29 hadde den norske lova som førebilete. Ho tok til å gjelde i 2008.
Formålet med den finske pliktavleveringslova er å sikre at nasjonalt kulturarvmateriale blir bevart og stilt til disposisjon for forskarar og andre som treng det.
Nasjonalbiblioteket har heimel i den finske åndsverklova30 § 7 til å framstille (kopiere og lagre) eksemplar av verk som er gjorde tilgjengelege for allmenta gjennom datanett31 i eit eige nettarkiv. Det finske nasjonalbiblioteket har ei lovpålagt plikt til å samle inn og ta vare på nettmateriale. Først og fremst haustar ein materialet inn. Der automatisk innsamling ikkje er mogleg, skal utgivaren anten opne sida for innsamling eller avlevere materialet sjølv.32 Det er det finske nasjonalbiblioteket som sjølv vel kva materiale som skal haustast inn, og for kvar nettside der det førekjem søkjemotorimmunisering, blir det gjort ei konkret vurdering av om sida skal haustast eller ikkje.
Nettarkivet har som formål å lagre kulturarvmateriale, men blir formelt rekna som eit personregister, med pliktavleveringslova som nødvendig heimel for behandling av personopplysningane i dette registeret.
Utgangspunktet i Finland er at alt det innsamla materialet er offentleg, og at alle kan få tilgang til det. Klausulering eller sletting av materiale i nettarkivet krev i utgangspunktet ei domstolsavgjerd. Det følgjer likevel av straffelovgivinga at barnepornografi, dyrepornografi og valdspornografi skal fjernast fullstendig. Biblioteket kontrollerer ikkje aktivt innhaldet i webarkivet, men må reagere om noko av innhaldet blir kriminalisert. Materiale som klart inneheld sensitive personopplysningar, vil bli mørklagt på førespurnad. Ein er heile tida i dialog med forskarmiljø om kva materiale som bør haustast og lagrast.
Det innhausta materialet blir gjort tilgjengeleg på terminalar i lokala til det finske nasjonalbiblioteket. Det er mogleg å søkje i nettarkivet, både med URL-søk og fritekstsøk.
6.4.6 Andre land
Det er ikkje heilt klart kva slag digital innsamling som i dag er mest utbreidd internasjonalt. Lovfesta eller avtalebasert avlevering av elektroniske publikasjonar synest likevel mest utbreidd. Nasjonalbiblioteket i Portugal samlar til dømes inn elektroniske publikasjonar etter avtale, men dei har inga lov som regulerer web-innhausting. Samstundes har Portugal eit web-arkiv som er drive av den nasjonale stiftinga for datavitskap,33 og her hauster ein inn og gjer tilgjengeleg heile den portugisiske weben.34 I Belgia, New Zealand og Japan har ein avleveringsplikt for elektroniske publikasjonar som blir formidla til sluttbrukaren på ein annan måte enn over nett, til dømes på fysiske berarar som DVD, CD og minnepinne. Tyskland, Latvia og Slovenia opererer med avleveringsplikt og innsamlingsrett knytt til nettpublikasjonar. I Storbritannia haustar ein nettdokument frå dei sidene som UK Web Archive i samarbeid med mellom anna British Library har gjort avtale med. Italia har formelt sett avleveringsplikt for nettdokument, men innsamlingsretten er avgrensa og følgjer av avtalar i tillegg til frivillig avlevering.35
I Frankrike og Luxembourg gjeld både avleveringsplikt og innsamlingsrett for nettdokument.36 I Frankrike er det Bibliothèque nationale de France (BnF) som har ansvaret for innsamling av nettdokument, og dette blir gjennomført i samarbeid med Internet Archive. Heile det franske internettdomenet blir hausta, i tillegg til andre utvalde sider og tema som er relevante for Frankrike. Materialet blir dessutan gjort tilgjengeleg på totalt 350 terminalar i BnF sine lokale i Paris og Avignon. Tilgangsvilkåra er dei same som for tilgang til anna pliktavlevert materiale.37
6.5 Høyringa
I høyringsnotatet sa departementet seg einig med Personvernkommisjonen og Personvernnemnda i at det på bakgrunn av den teknologiske utviklinga var behov for å vurdere om vilkåret allment tilgjengeleg bør gjelde nettsider. Departementet såg også eit behov for å klargjere kva som skal til for at ei nettside er å rekne som eit allment tilgjengeleg dokument. Etter gjeldande pliktavleveringslov er den grunnleggjande føresetnaden for avleveringsplikt at eit dokument har vore gjort tilgjengeleg for allmenta. Departementet gav i høyringsnotatet uttrykk for at denne føresetnaden bør førast vidare også for digitale dokument.
Høyringsnotatet sondra mellom aktiv avlevering av digitalt avslutta materiale og innsamling av nettdokument. Departementet konkluderte med at det er formålstenleg at digitale, avslutta dokument blir avleverte på same måten som fysiske dokument, ved at utgivaren eller produsenten sender inn materialet til Nasjonalbiblioteket. Denne avleveringsplikta ligg klart innanfor rammene av gjeldande lovgiving.
Høyringsnotatet konkluderte vidare med at også dokument som er gjorde allment tilgjengelege gjennom Internett, er avleveringspliktige etter gjeldande lovgiving. Denne typen dokument står likevel i ei særstilling når det gjeld personvernet, fordi ei innsamling av dokumenta ikkje skjer ved at produsent eller utgivar (sideeigar) sender inn dokumenta til Nasjonalbiblioteket. Den mest formålstenlege innsamlinga skjer ved at mottaksinstitusjon sjølv samlar inn alle allment tilgjengelege nettsider gjennom bruk av ein «innsamlingsrobot».
Høyringsnotatet gjekk gjennom kva som låg i at eit nettdokument var å rekne som allment tilgjengeleg. Departementet meinte at både dokument som har ein såkalla robots.txt-protokoll og passordverna sider som kven som helst kan få tilgang til, er å rekne som «allment tilgjengelege» og dermed avleveringspliktige.
Lova er i dag avgrensa mot private ytringar, altså ytringar som er framførte i ein slutta krins. Reint private ytringar skal ikkje samlast inn og takast vare på. Private ytringar vil til dømes omfatte e-post og andre personlege meldingar, dessutan private nettsider og bloggar som er verna med passord. Denne avgrensinga blei foreslått ført vidare for innsamla nettdokument.
Revisjonen har vidare som formål å regulere lagring og bruk av digitale dokument generelt og nettdokument spesielt. For denne typen dokument er det behov for særskild regulering ut over dei generelle reglane om behandling av personopplysningar i personopplysningslova. Spørsmål knytte til lagring og tilgjengeleggjering av materiale i nettarkivet er behandla i kapitla 7 og 8.
6.6 Synet til høyringsinstansane
18 av høyringsinstansane uttalte seg eksplisitt om innsamling (hausting) av nettsider.
Av dei høyringsinstansane som uttalte seg om spørsmålet, støtta eit fleirtal eksplisitt forslaget frå departementet om å opne for innsamling og lagring av allment tilgjengelege nettdokument. Dette er Norsk Bibliotekforening, Landslaget for lokal- og privatarkiv, Mediebedriftenes Landsforening, Nasjonalbiblioteket, Norsk faglitterær forfatter- og oversetterforening, Norsk medieforskerlag, Riksarkivaren, Universitetsbiblioteket ved NTNU, Universitetsbiblioteket i Tromsø, Statistisk sentralbyrå (SSB) og Østfold fylkeskommune.
Riksarkivaren skreiv:
Et viktig element i oppdateringen av loven er presiseringen av at Nasjonalbiblioteket har rett til å høste alt norsk materiale som blir gjort allment tilgjengelig gjennom elektronisk kommunikasjonsnett. […] Dette vil være et viktig vitnemål om norsk kultur og samfunnsliv, i tråd med lovens formålsparagraf.
Riksarkivaren meiner dessutan at dette er eit viktig og nødvendig supplement til vern av arkiva til offentlege verksemder. Norsk medieforskerlag meiner det er urovekkjande at det ikkje har vore ei slik innsamling dei siste fire åra. Mediebedriftenes landsforening skriv at Nasjonalbiblioteket bør ha automatisk innsamling av nettet som hovudregel, også for betalingssider og liknande som krev passord, fordi dette er ei kostnadssparande løysing. Innsamlinga må samtidig skje på ein skånsam måte og ikkje belaste domeneeigaren unødvendig.
Statistisk sentralbyrå skreiv:
Internett er vår primære kanal for publisering. Vi ser frem til at Nasjonalbiblioteket kommer i gang med systematisk høsting av [SSBs] nettsider.
Datatilsynet, Fornyings-, administrasjons- og kyrkjedepartementet, Advokatforeningens IKT-utvalg og Skattedirektoratet peikte i høyringa på at det er behov for ei enda betre sikring av personvernomsyna enn det Kulturdepartementet la opp til i høyringsrunden. Advokatforeningens IKT-utvalg hevda at eit slikt inngrep i privatlivet som er foreslått i høyringsnotatet, kan vere i strid med menneskerettane.
Skattedirektoratet såg behovet for å sikre digitalt materiale. Direktoratet gir uttrykk for at det er viktig at innsamlinga ikkje belastar nettsida unødvendig mykje, og ønskjer fleire tekniske detaljar rundt innsamlinga.
Datatilsynet, Fornyings-, administrasjons- og kyrkjedepartementet og Advokatforeningens IKT-utvalg problematiserte også innsamling av passordverna sider og sider som nyttar søkjemotorimmunisering, mest kjend som «Robots Exclusion Protocol» (robots.txt). Desse høyringsinstansane meinte departementet legg til grunn ei for vid tolking av omgrepet «tilgjengeleg for allmenta». Dei meinte vidare at ved ei permanent lagring og lagring av innhaldsdata i fulltekst bør det leggjast klare føringar på kva som skal omfattast av elektronisk pliktavlevering, og at dette må avgrensast.
Nasjonalbiblioteket understreka derimot i høyringssvaret sitt at vanleg bruk av robots.txt berre er ei forretningsmessig skjerming av informasjon, ikkje ei tilgangsavgrensing. Skattedirektoratet beskreiv ein slik eigenbruk av robots.txt på skatteetaten.no.
Datatilsynet meinte at det er behov for ein gjennomgang av regelverket for avlevering av dokument til det offentlege og innsamling av nettdokument. Dette vil gjere det mogleg for dei som blir utsette for innsamling, å sjå framover og planleggje på førehand.
Datatilsynet uttalte at dei:
[s]avner en overordnet drøftelse av hvilken betydning den teknologiske utviklingen og den ubegrensede innsamlingen på lang sikt vil få for den enkeltes personvern når opplysninger og ytringer fra nær sagt samtlige borgere i Norge om noen år vil være lagret i Nasjonalbiblioteket.
Fornyings-, administrasjons- og kyrkjedepartementet viste mellom anna til Personvernnemndas vedtak om Nasjonalbiblioteket i høyringssvaret sitt. Dei skreiv:
Automatisk høsting av nettsider utstyrt med søkemotorimmunisering er ikke uproblematisk. Det at en nettsideeier har utstyrt sin nettside med søkemotorimmunisering sender en klar beskjed til såkalte høstingsroboter («web crawlers») om at han eller hun ikke ønsker at siden skal indekseres. I realiteten innebærer det å bruke søkemotorimmunisering på sine nettsider at sidene ikke er tilgjengelig for andre enn de som kjenner nettsidens domenenavn, ettersom sidene ikke vil dukke opp ved søk i søkemotorer. Nettsidene vil kun være tilgjengelige for en avgrenset krets av brukere, nemlig de som har fått kjennskap til webadressen. Søkemotorimmunisering, for eksempel ved bruk av robots.txt, bør derfor tolkes som en tilgangsbegrensning som medfører at nettsidene ikke lenger er «allment tilgjengelige». FAD mener at denne tilgangsbegrensningen bør respekteres av Nasjonalbibliotekets høstingsroboter. Dette synspunktet fremgår også i Personvernnemndas vedtak om Nasjonalbiblioteket (PVN-2009-11).
Advokatforeningens IKT-utvalg skreiv:
I utgangspunktet må det kreves samtykke for at Nasjonalbiblioteket skal kunne samle inn nettdokumenter. Departementet har nevnt såkalt «søkemotorimmunisering» og uttaler at dokumenter med søkemotorimmunisering må likevel samles inn. Departementet sikter her til den etablerte industristandarden Robot Exclusion Protocol («robots.txt»). Ved hjelp av denne kan eiere av nettsteder angi om hele eller deler av nettstedet ikke ønskes indeksert eller arkivert av automatiserte prosesser, herunder søkemotorer og diverse arkivtjenester.
Advokatforeningen mener at Nasjonalbiblioteket må følge den etablerte standarden. Denne brukes ikke til forretningsmessig skjerming, men til å la eiere av nettsteder angi at hele eller deler av nettstedet ikke er ment å bli indeksert eller arkivert.
Robot Exclusion Protocol gjør det mulig å si at nettstedets eier ønsker at Google skal kunne indeksere nettstedet, men f.eks. ikke The Internet Archive. På samme måte vil nettstedets eier kunne spesifisere om hele eller deler av nettstedet skal – eller ikke skal – være tilgjengelig for Nasjonalbibliotekets «crawler».
Advokatforeningen mener at korrekt oppførsel i samsvar med instruksjonene for Nasjonalbibliotekets crawler i robots.txt for det aktuelle nettstedet vil oppfylle krav til samtykke.
Advokatforeningen er enig med Personvernkommisjonen i at man bør være meget restriktiv til hvilke nettsteder som blir arkivert. Advokatforeningen anser derfor også Kulturdepartementets ønske om å arkivere mest mulig som et prinsipp, som kommer i strid med grunnleggende prinsipper til personvern og personlig integritet. Det såkalte hensynet til «arkivets integritet» kan ikke settes foran personlig integritet.
[…]
Advokatforeningen er meget kritisk til Kulturdepartementets forslag [som] innebærer et såpass betydelig inngrep i personlig integritet at forslaget ikke kan gjennomføres uten å komme i strid med menneskerettighetene.
Skattedirektoratet skreiv i sitt høyringssvar at dei:
[…] stusser over [at departementet konkluderer med at bruken av robots.txt er til forretningsmessig skjerming] i og med at bl.a. Personvernnemnda og Personvernkommisjonen har vist til bruk av robots.txt som mulig virkemiddel for å skjerme materialet av personvernhensyn, og at f.eks. slettmeg.no anbefaler slik bruk for å kontrollere tilgangen til bl.a. blogger.
Skattedirektoratet gjorde samtidig greie for ein eigen bruk av robots.txt som er i tråd med utgangspunktet til departementet:
Skatteetaten.no bruker imidlertid søkemotorimmunisering først og fremst for å legge til rette for en bedre nettside fordi innholdet på enkelte nettsider kan fremstå som misvisende eller irrelevant ved kategorisering av området som helhet. Det er for eksempel hensiktsmessig at tidligere års skattesatser er tilgjengelig på våre nettsider, men det er ikke nødvendigvis ønskelig at disse indekseres. For dokumentasjons- og forskningsformål er det imidlertid ikke noe i veien for at disse høstes inn.
Nasjonalbiblioteket skreiv i sitt høyringssvar:
Departementets argumentasjon for avlevering av nettsider med søkemotorimmunisering er sammenfallende med Nasjonalbibliotekets vurdering og erfaring med slike nettsider. Nasjonalbibliotekets oppfatning er at selv om en webside har en robots.txt-fil som ber søkeroboter om å ikke indeksere siden, må siden oppfattes som tilgjengeliggjort for allmennheten så lenge den ikke er sperret for tilgang på andre måter. Vi mener at vanlig bruk av robots.txt ikke skal oppfattes som et signal om at innholdet på websidene det dreier seg om ikke bør tas vare på for ettertiden.
6.7 Vurderinga til departementet
Ved innsamling og bevaring av digitale dokument frå Internett må det takast stilling til korleis personvernomsyn skal sikrast. For fysiske, allment tilgjengelege dokument, som i dei aller fleste tilfelle har ein ansvarleg utgivar, vil spørsmål om personvern som hovudregel bli sikra som ein del av utgivingsprosessen. Tilsvarande vil gjelde for nettsider med ein ansvarleg redaktør. Dei fleste av nettdokumenta, slik som nettaviser, firmasider og sider som høyrer til offentlege organ, vil stort sett innehalde dokument med informasjon som ikkje reiser særlege spørsmål knytte til personvernet. Digitale dokument som blir lasta direkte ned frå nettet, vil derimot kunne utløyse personvernutfordringar.
Det er avgjerande at det blir etablert gode og tilstrekkelege tiltak for å sikre personvernet ved innsamling av nettmateriale. Det aller meste av nettmaterialet er personvernmessig heilt uproblematisk å samle inn og arkivere, men det er likevel viktig å etablere strenge reglar for tilgang til og god tryggleik for det som er samla inn. Det er også nødvendig å leggje inn tilstrekkelege tryggingsmekanismar som gjer at ein kan avgrense tilgangen til eller ta ut informasjonen av nettarkivet som er blitt gjord tilgjengeleg for eit allment publikum ved ein feil.
Sjølv om det finst ein behandlingsheimel for innsamling av nettdokument i personopplysningslova, meiner departementet at innsamlinga av allment tilgjengelege nettsider til bruk for forsking og dokumentasjon bør heimlast i pliktavleveringslova, på lik linje med at behandling av personopplysningar for arkiv- og statistikkformål er regulert i eigne lover. Dette er også i tråd med det som er uttalt både av Personvernkommisjonen og Personvernnemnda.
I høyringsrunden har det blitt peikt på at ein del av dei ytringane som vil vere allment tilgjengelege på Internett, vil ha ein annan og meir privat karakter enn fysiske dokument som blir samla inn og tekne vare på i dag. Departementet legg til grunn at det vil vere rett å halde på kravet om at allment tilgjengelege dokument skal bevarast, også der det er snakk om innsamling av nettsider. Dette gjeld trass i at mengda av ytringar som er tilgjengelege for offentlegheita, har auka monaleg etter at Internett blei allemannseige. Spørsmålet om kva som ligg i at eit nettdokument er å rekne som allment tilgjengeleg, er behandla særskilt nedanfor.
Frå eit bevarings- og dokumentasjonsperspektiv vil det utvida dokumenttilfanget ha stor verdi. Mykje av det som tidlegare blei avlevert som privatarkiv til Nasjonalbiblioteket og Arkivverket i form av privatbrev, dagbøker og anna, er no dokument publiserte gjennom digitale medium, særleg i form av bloggar, tekstar i sosiale medium og på Twitter. Dette er ein konsekvens av at det i dag er mange fleire som skriv mykje meir enn det tidlegare generasjonar med tilsvarande sosial, kulturell eller språkleg bakgrunn gjorde. At ein kan få publisert meiningane sine i ein offentleg kanal utan redaksjonell siling, har ført til ei demokratisering av den offentlege meiningsutvekslinga.
Vurderingar av dei personvernrelaterte konsekvensane av innsamling og bevaring av digitale dokument frå Internett har vore gjorde i fleire land gjennom dei seinare åra.
Mellom anna blei det ved siste lovrevisjon i 2005 i Danmark38 gjort ei vurdering av dei personvernrelaterte problemstillingane ved pliktavlevering av digitale dokument. Det blei lagt til grunn at bevaring av kulturarv som blir formidla digitalt, er ei oppgåve av interesse for samfunnet, og at innsamling og registrering av offentleggjorde opplysningar ville kunne skje innanfor rammene av persondatalova.39 Det blei likevel gjort eit unnatak frå persondatalova når det gjeld sensitive opplysningar som ikkje er offentleggjorde av den registrerte, ved at det danske Kulturministeriet vurderte det slik at det danske materialet som blir offentleggjort i elektronisk kommunikasjonsnett, utgjer ein så vesentleg del av den danske kulturarven at det ligg ei viktig samfunnsinteresse i å bevare det. Departementet meiner at dei vurderingane som er gjorde i Danmark, har overføringsverdi til Noreg.
Vurderinga av kva som er nødvendig å samle inn og lagre for ettertida, skjer til dels allereie ved at det er bestemt at det berre er informasjon som faktisk er tilgjengeleg for allmenta, som skal samlast inn. Det er grunnleggjande for oppbygginga av eit truverdig forskingsrelatert kjeldemateriale at valet av kva som vil kunne vere interessant, ikkje blir gjort før innsamlinga. Kartlegging av materialet på Internett, jf. punkt 6.2, viser dessutan at det vil vere vanskeleg å gjere gode selektive utval av bevaringsverdig materiale på førehand. Internettets raske utvikling og endring gjer det vanskeleg å lage gode kategoriar som kan fange opp fenomen som kan oppstå både i nær framtid og i eit lengre tidsperspektiv. Dette prinsippet for innsamling er også lagt til grunn i Danmark og Finland.
Samlinga hos Nasjonalbiblioteket skal så langt det er råd fungere som ei usensurert og fullstendig samling av alt materiale som er gjort allment tilgjengeleg for allmenta, og som er relevant for norske forhold. Ein føresetnad for å kunne praktisere ein informert ytringsfridom er at ein kan få tilgang til alt relevant materiale, og ein føresetnad for å kunne få tilgang til alt relevant materiale i usensurert versjon er at det faktisk er lagra hos eit sikkert og uhilda organ.
Frå eit kulturarvperspektiv bør det visast stor varsemd med å opne for å reservere eller slette materiale som faktisk er gjort tilgjengeleg for allmenta. For store inngrep i nettarkivet vil svekkje integriteten og vil dermed også kunne svekkje truverdet til forskinga på lengre sikt.
Frå eit personvernperspektiv kan ein likevel ikkje sjå bort frå at det i særskilde tilfelle vil kunne oppstå situasjonar der det vil vere eit behov for klausulering eller sletting av enkelte dokument i nettarkivet. Departementet meiner at det bør vere mogleg i heilt spesielle tilfelle å opne for dette, til dømes i dei tilfella der det vil vere ei særleg belastning for den som opplysningane gjeld, om dei blir verande i nettarkivet og gjorde tilgjengelege for forskings- og dokumentasjonsformål.
6.7.1 Avlevering eller innsamling
Etter gjeldande pliktavleveringslov ligg det føre ei plikt til å avlevere «vitnemåla om norsk kultur og samfunnsliv». Dette inneber også ei plikt til å avlevere norsk digitalt materiale som er gjort allment tilgjengeleg gjennom bruk av elektronisk kommunikasjon via elektronisk kommunikasjonsnett, slik dette er definert i e-komlova40 § 1-5. Dette vil mellom anna omfatte kringkasting og dokument som er publiserte på Internett.
Å måtte avlevere nettdokument er ei løysing som er upraktisk både for dei avleveringspliktige og for Nasjonalbiblioteket som mottaksinstitusjon. Forslaget frå departementet inneber ein klarare heimel for og forenkling av avleveringsplikta ved at Nasjonalbiblioteket får rett til å samle inn opne nettsider. Samtidig blir den generelle avleveringsplikta for allment tilgjengelege digitale dokument ført vidare på lik linje med fysiske dokument.
Norsk digitalt materiale på Internett omfattar:
digitale dokument frå det norske domenet (.no)
digitale dokument frå andre domene som er særskilt tilrettelagde for norske forhold eller har norsk utgivar
Bevarings-, dokumentasjons- og forskingsomsyn taler for at målet må vere ei brei innsamling av nettdokument. Både Personvernkommisjonen og Personvernnemnda argumenterer for at det bør gjerast ei avgrensing av det materialet som skal haustast inn og lagrast frå Internett. Utgangspunktet deira er at ein før innsamlinga skal vurdere kor nødvendig det er å behandle personopplysningar.
Departementet meiner personvernet kan sikrast i tilstrekkeleg grad både gjennom informasjon om kva som skal samlast inn, om kva som er avgrensingane for tilgangen til det som er samla inn, og gjennom i visse tilfelle å opne for å kunne klausulere eller i nokre tilfelle å slette informasjon etter innsamling.
Nasjonalbiblioteket kan også inngå innsamlingsavtalar med forskjellige aktørar basert på andre vilkår. Dette vil mellom anna bety at Nasjonalbiblioteket i dialog med utgivaren kan vurdere om det er mest praktisk med innsamling eller avlevering av digitale dokument. Dette vil vere relevant til dømes ved innsamling av betalingsbaserte sider som fell innanfor verkeområdet til lova ved at dei er allment tilgjengelege.
6.7.2 Søkjemotorimmunisering
Søkjemotorimmunisering er ein standard som blir brukt for å gi beskjed til søkjerobotar (webcrawlarar) om at dei ikkje skal gå inn på heile eller delar av ei nettside som elles er offentleg tilgjengeleg. Mest brukt er «Robots Exclusion Protocol» eller «robots.txt protocol». Fleire høyringsinstansar meiner at nettsider med slik søkjemotorimmunisering bør sjåast som tilgangsavgrensa, og at det bør krevjast samtykke forut for innsamling. Det blir argumentert for ei avgrensing av pliktavlevering for slike sider fordi dei ikkje kan reknast som allment tilgjengelege når ein ikkje kan søkje etter dei med emneord i kjende søkjetenester.
Departementet deler ikkje oppfatninga om at denne typen sider ikkje er allment tilgjengelege. Standarden for søkjemotorimmunisering fungerer som ein beskjed i form av ein «lapp på døra» til søkjerobotar og er ikkje noko faktisk hinder for at ein søkjerobot kan få tilgang til den aktuelle sida. Beskjeden hindrar ikkje tilgangen til sida dersom ein kjenner sidenamnet.
Til dette kjem at sider som har robots.txt, vil kunne dukke opp ved eit Google-søk på sidenamnet med lenkje til sida og følgjande undertekst «Det finst inga tilgjengeleg beskriving for dette resultatet på grunn av robots.txt på nettstaden». Ein vil da få tilgang til sida ved å trykkje på lenkja. Også dette tilseier at robots.txt ikkje er å sjå på som ei tilgangsavgrensing.
Departementet meiner at det er viktig at også nettsider med søkjemotorimmunisering blir hausta inn. Utgangspunktet er at denne typen dokument er allment tilgjengelege. Søkjemotorimmunisering reduserer ikkje tilgangen til nettsidene dersom ein har adressa, men gjer at søkjemotorar ikkje listar sidene ved stikkordbaserte søk. At ei side bruker robots.txt, betyr altså ikkje det same som at ho er tilgangsavgrensa.
Det er verdt å merkje seg at det blir presisert på den uavhengige informasjonssida robotstxt.org at robotar kan ignorere sider med robots.txt, og at sider som bruker denne protokollen, er offentleg tilgjengelege. På robotstxt.org blir det også presisert at robots.txt ikkje bør brukast dersom ein ønskjer å skjule informasjon. Google tilrår også på si eiga side om robots.txt å avgrense tilgangen til «konfidensiell» informasjon med til dømes passord.
Ei nærare vurdering av bruken av robots.txt og andre tilsvarande søkjemotorimmuniseringar viser at dei i svært stor grad blir brukte som forretningsmessig skjerming. Relevante sider som bruker denne protokollen, er regjeringa.no, som bruker robots.txt for å hindre nedlasting av dublettsider i mobilformat. Lovdata bruker robots.txt for å hindre konkurrentar i å indeksere gjeldande lover.
I fleire andre land som haustar Internett for kulturhistoriske formål (til dømes Danmark, Finland, Island og Canada), haustar og bevarer dei også nettsider med søkjemotorimmunisering. Dersom Nasjonalbiblioteket skulle la vere å samle inn sider med denne typen metainformasjon, meiner departementet at ein ville gå glipp av mykje viktig bevaringsverdig materiale. Ei slik avgrensing ville ramme heile sider som kunne vere av verdi for forskinga, og samtidig bety at ei rad nettsider ville bli svært mangelfulle. Til dømes bruker mange profesjonelle aktørar, til dømes nettaviser, robots.txt for å hindre indeksering av biletmaterialet. Det betyr at berre sjølve teksten frå desse nettavisene vil bli hausta inn.
Sjølv om robots.txt først og fremst blir brukt som ein industristandard, er det private som bruker robots.txt for mellom anna å hindre arkivering av nettsider, etter tilråding av Datatilsynet og Personvernnemnda. Det er umogleg å gjere eit overslag over omfanget av private sider som bruker robots.txt for å forhindre indeksering. Departementet har også gjort ei nærare kost-nytte-vurdering av å sile ut private nettsider som bruker robots.txt for å hindre tilgang til sida. Nasjonalbiblioteket anslår at kostnader ved manuell vurdering av nettsider med robots.txt varierer mellom 1,5 årsverk (dersom 1 pst. av private nettsider har robots.txt) og 15 årsverk (dersom 10 pst. har robots.txt). Basert på eit første anslag for dei private nettsidene ein har oversikt over i dag, vil vurdering av nye private nettsider krevje mellom 0,3 og tre årsverk. Det vil derfor vere uforholdsmessig kostnadskrevjande å vurdere alle private nettsider med robots.txt.
På denne bakgrunnen legg departementet til grunn at sider med søkjemotorimmunisering bør vere avleveringspliktige. Departementet meiner at dersom nokon vil sikre seg mot at eigne nettsider blir hausta inn og lagra, må dei leggja inn ei tilgangsavgrensing slik at sidene berre blir tilgjengelege for ein slutta krins. Dette kan til dømes gjerast ved hjelp av passord. For å sikre personvernet må det etablerast gode tiltak og rutinar i samband med innsamling og lagring. Tilstrekkeleg informasjon om at nettsider med søkjemotorimmunisering vil bli hausta og lagra, både før og under sjølve lagringa, er ein føresetnad. Departementet legg også opp til at det skal vere høve til å krevje at innsamla materiale på nærare vilkår skal kunne klausulerast eller slettast.
6.7.3 Passordverna sider
Passordverna sider er sider der tilgangen til informasjonen på sida er avgrensa fordi det er nødvendig med brukarnamn og passord for å få tilgang til heile eller delar av nettsida. Departementet erkjenner at det er behov for ei grundigare vurdering av kvar grensa for innsamling av slike sider bør gå. Ein vil kunne gå glipp av fleire interessante dokument for forskinga om slike sider ikkje blir hausta. I motsetnad til robots.txt er passordvern ei faktisk tilgangsavgrensing. Som fleire høyringsinstansar har peikt på, vil innsamling av slike sider kunne vere utfordrande for personvernet.
For å kome høyringsinstansane i møte og syte for betre sikring av personvernet har departementet kome til at passordverna sider som hovudregel ikkje skal samlast inn. Unntatt frå denne hovudregelen vil vere informasjon frå passordverna sider som ville blitt vurdert som allment tilgjengelege og dermed omfatta av avleveringsplikta dersom innhaldet hadde vore utgitt på papir. Døme på informasjon som vil vere avleveringspliktig etter dette unntaket, er medlemsblad ein må vere logga inn for å lese, informasjonssider og betalingsbaserte løysingar for nettaviser og tidsskrift. Andre døme kan vere nettbaserte læreverk eller oppgåver og liknande frå utdanningssektoren.
Nasjonalbiblioteket vil i samarbeid med eigar av sida måtte gjere ei vurdering av kva for informasjon som vil vere å rekne som allment tilgjengeleg. Det er også eit krav at «motytinga» for å få tilgang til materialet kan kome frå kven som helst, altså gjennom anten betaling eller registrering. Passordverna sider, som ein må vere invitert for å få tilgang til, vil ikkje vere å rekne som allment tilgjengelege og er dermed heller ikkje omfatta av avleveringsplikta.
Lukka medlemsprofilar, medlemslister eller lukka fora vil ikkje vere omfatta av avleveringsplikta, da profilane ikkje ville vere allment tilgjengelig dersom det blei utgitt i papirform. Til dømes vil profilar som nordmenn har på datingsider (til dømes sukker.no og match.com), ikkje bli samla inn.
På Facebook vil sider som er opne for alle, kunne samlast inn fordi dei må reknast som allment tilgjengelege og dermed omfatta av avleveringsplikta. Sider som krev venneførespurnad med svar frå profileigar, vil ikkje vere omfatta av avleveringsplikta og kan dermed ikkje samlast inn, med mindre Nasjonalbiblioteket og profileigar avtaler at innsamling kan skje.
Personopplysningar som finst i medlemsblad eller liknande, vil på same måte som personopplysningar i avisartiklar måtte reknast som allment kjende. Personopplysningar frå medlemsprofilar vil derimot ikkje bli rekna som allment kjende. Dette skiljet er i samsvar med den løysinga Personvernnemnda la til grunn i si avgjerd i den såkalla Nettby-saka.41 Der har Nasjonalbiblioteket fått avlevert dei opne sidene etter at nettsamfunnet Nettby blei nedlagt, mens dei lukka medlemssidene ikkje er avleverte.
6.7.4 Anonymisering, forholdet til menneskerettane og «the chilling effect»
Som det går fram av kapittel 6.6, har Datatilsynet tilrådd bruk av anonymisering av persondata. Anonymisering betyr at ein fjernar informasjon som kan brukast for å identifisere ein enkeltperson. Ei slik anonymisering vil vere problematisk i eit kulturarvperspektiv. Anonymisering inneber mellom anna eit inngrep i og sensurering av innsamla informasjon, som igjen vil føre til at han taper seg i verdi eller mister verdien som kjeldemateriale for forsking og dokumentasjon. Anonymisering av nettsider vil vere både kostnadskrevjande og lite praktisk. Departementet tilrår derfor at personvernet blir sikra på andre måtar enn gjennom anonymisering.
Advokatforeningens IKT-utvalg sa i høyringssvaret sitt at forslaget ikkje sikrar omsynet til personleg integritet og personvern i tilstrekkeleg grad. Ein av medlemmene i utvalet utdjupar dette synspunktet i eit eige høyringssvar. Han hevdar der at dei foreslåtte endringane kan utgjere eit så stort inngrep i privatlivet at dei kjem i strid med Den europeiske menneskerettskonvensjonen (EMK) art. 8.
EMK artikkel 8 nr. 1 vernar mot inngrep frå staten retten til privatliv, familieliv, heim og korrespondanse. Dette vernet er ikkje absolutt. Offentlege styresmakter kan gripe inn i privatlivets fred dersom det er fastsett i lov og nødvendig i eit demokratisk samfunn for å sikre eitt eller fleire legitime formål, jf. EMK artikkel 8 nr. 2. Vurderinga av kva som er nødvendig i eit demokratisk samfunn for å sikre eitt eller fleire legitime formål, er skjønnsbasert og kviler på ei konkret avveging av ei rad ulike omsyn. I dette tilfellet må kulturvernsomsyn og behovet for forsking og dokumentasjon vegast opp mot personvernomsyn. Dette er legitime omsyn i eit demokratisk samfunn. Spørsmålet som må vurderast, er om ei slik innsamling er nødvendig av omsyn til kulturvernet, noko departementet meiner er tilfellet. Erfaring viser at det notida meiner har vore viktig å bevare, ikkje nødvendigvis er det same som ettertida har hatt behov for. Ei brei innsamling er viktig for kulturvernet, og det er derfor nødvendig å leggje til rette for slik innsamling.
Klare reglar for kva som skal samlast inn, og for korleis dette skal sikrast, og klare informasjonsrutinar både før og under sjølve innsamlinga vil gjere at alle som legg ut informasjon på nettet, kan ta nødvendige skritt for å avgrense tilgangen til informasjonen før innsamling der det ikkje er meininga at informasjonen skal vere allment tilgjengeleg. Forslaget opnar også for at innsamla materiale kan klausulerast eller i visse tilfelle slettast etter nærare opplyste føresetnader. Departementet meiner personvernet på denne måten blir sikra på ein god måte.
Når ein skal vurdere om slik innsamling av informasjon frå nettet er å rekne som brot på privatlivets fred, er det også relevant for vurderinga at det som blir samla inn, er informasjon som allereie er allment kjend, og som den det gjeld, sjølv i dei fleste tilfelle har valt å gjere offentleg tilgjengeleg gjennom publisering på Internett. Departementet meiner at forslaget ikkje er i strid med menneskerettane, og da heller ikkje EMK artikkel 8 om vern av retten til privatlivets fred.
«The chilling effect» er eit argument som blir brukt for å avgrense tilgangen til brei innsamling og lagring av nettsider. Teorien går ut på at informasjonsinnsamling og lagring av nettsider med ytringar av privat karakter vil kunne avgrense ytringsfridommen fordi det kan føre til at kommunikasjonen blir hemja. Ein går ut frå at enkeltpersonar vil vere varsame i ytringane sine på nett i frykt for at synspunkta deira blir lasta ned og lagra for ettertida. Det er enda ein gong viktig å understreke at det berre er ytringar som er gjorde allment tilgjengelege på nett, altså informasjon som alle kan gjere seg kjende med, som skal omfattast av pliktavleveringslova. Ytringsfridommen inneber fridom frå førehandssensur, men ikkje nødvendigvis høve til å fjerne ytringane etterpå. I eit demokratisk samfunn er det viktig at det er rom for å seie imot ytringar frå andre og gjere dei som har ytra seg, ansvarlege for det dei har sagt.
Det kan hevdast at om ein veit at offentlege ytringar vil bli lagra for ettertida, vil ein lett vere tilbakehalden med kva ein skriv i det offentlege rommet, og ikkje ytre seg i same grad i digitale medium som ein elles ville gjort. Det er ikkje mykje som tyder på dette når ein ser på utviklinga i nettdebattane dei siste åra. I kjølvatnet av terrorhandlingane 22. juli 2011 endra leiande aviser praksis, slik at debattantar ikkje lenger kunne vere anonyme, men måtte skrive under med fullt namn. Tanken var at dette ville gi ein meir gjennomtenkt og kvalifisert debatt. Det finst lite dokumentasjon som kan underbyggje påstanden om «chilling effect» i denne samanhengen. I realiteten har ikkje tonen i debatten endra seg noko særleg. Det same er tydeleg i de pågående debattane om netthets mot kvinner og innvandrarar som ytrar seg offentleg. Eit krav om å skrive under fullt namn ser ikkje ut til å ha ein kjølande effekt på ytringane.
Datatilsynet gjennomførte i november 2013 ei undersøking av eventuell slik nedkjøling av debatten i Noreg.42 Undersøkinga viser at forholdsvis mange opplyser at dei legg band på eigen aktivitet på nett fordi dei er usikre på korleis opplysningane kan bli brukte seinare.
Mellom 18 og 27 pst. av dei spurde svarte at dei ville vere forsiktige med nettsøk, ytringar i sosiale nettsamfunn, å skrive under på opprop/kampanjar, korleis dei formulerer seg, eller kven dei kommuniserer med på nett, dersom norsk og utanlandsk etterretning overvaka og lagra innbyggjarane sin elektroniske kommunikasjon og nettbruk.
Departementet viser igjen til at det berre er allment tilgjengeleg informasjon som skal samlast inn, og at det innsamla materialet berre skal nyttast til forsking og dokumentasjon, med klare reglar for kven som kan få tilgang. Det innsamla materialet skal ikkje brukast til etterretning. Departementet meiner det er lite truleg at innsamling frå Internett for å bevare den digitale kulturarven vil ha kjølande effekt på ytringsmangfaldet.
Departementet meiner vidare at eit nettarkiv som inneheld alle offentlege ytringar på nett, vil vere ei viktig og sentral forskingskjelde som i framtida kan kaste lys over den debatten som går føre seg i det offentlege rommet i dag.
6.8 Forslag frå departementet
Departementet foreslår ein ny § 4 a som heimlar å samle inn norsk materiale som er gjort allment tilgjengeleg via nettet. Nettsider med robots.txt vil som utgangspunkt vere å rekne som allment tilgjengelege og derfor avleveringspliktige etter pliktavleveringslova. For passordverna sider vil det vere nødvendig med ein dialog med sideeigaren for å avklare om sida er omfatta eller ikkje.
Departementet foreslår ikkje endring i gjeldande lovtekst når det gjeld avgrensinga av kva norsk digitalt materiale på Internett omfattar. Utgangspunktet både for fysiske og digitale dokument er pliktavleveringslova § 4, jf. § 3: dokument som er gjorde tilgjengelege for allmenta i Noreg. Dokument som er laga i utlandet, skal avleverast dersom dei er laga for ein norsk utgivar eller særskilt tilpassa allmenta i Noreg. Dette vil til dømes omfatte dokument som er gjorde tilgjengelege av ein norsk utgivar på utanlandsk domene utan at materialet er særskilt tilpassa norske forhold.
Arkivering av Internett vil vere eit augneblinksbilete av korleis nettsidene såg ut på dette tidspunktet. Arkiveringa kan gi ei oversikt over breidda av tilgjengeleg informasjon, eller ho kan gå i djupna for å dokumentere innhaldet på ei side. Ei tredelt innsamling av Internett vil samla sett sikre eit godt utval av digitale dokument for ettertida. Dette vil omfatte:
tverrsnittsinnsamling: heile .no og norsk materiale frå andre domene blir hausta med jamne mellomrom
selektiv innsamling: utvalde nettsider blir hausta med kortare intervall, som aviser og offentlege sider som regjeringa.no og stortinget.no
hendingsinnsamling: utvalde sider blir lasta ned med kortare intervall i samband med større nasjonale hendingar
Denne kombinasjonen svarer til den vanlegaste løysinga for innsamling av nettdokument i andre land. Dette vil gi ei automatisert arkivering av breidda og djupna av alt innhald og dessutan sikre arkivering av innhald som ein reknar med har bevaringsverdi.
Nasjonalbiblioteket må dessutan etablere gode informasjonstiltak som både syter for informasjon om korleis ein kan avgrense tilgangen til kvar enkelt nettside og informasjon om at innsamling av ei nettside har skjedd, og kva ein eventuelt kan gjere dersom ein meiner denne innsamlinga er i strid med lova.
Det vil framleis vere mogleg å sikre seg mot at eigne ytringar blir hausta inn og lagra. Ved å sikre sidene med passord kan ein halde ytringane innanfor ein slutta krins slik at dei ikkje blir avleveringspliktige.
Det skal gjerast ei konkret vurdering ved innsamling av passordverna sider som likevel blir rekna som allment tilgjengelege. Det er berre passordverna sider som klart hadde vore rekna som allment tilgjengelege om dei var utgitte i eit anna format, til dømes på papir, som skal avleverast. Til dømes vil passordverna medlemssider for fagforeiningar vere å sjå på som allment tilgjengelege, men ikkje alt innhaldet ville vore omfatta av avleveringsplikta om informasjonen vart utgitt i eit anna format. Innhaldet på medlemssidene til ei fagforeining vil kunne vere sensitivt, da medlemskap i fagforeiningar er definert som sensitive personopplysningar, jf. personopplysningslova § 2 nr. 8. Personopplysningar frå passordverna sider som ikkje er allment kjende, skal ikkje samlast inn. Dette er ei innstramming i forhold til vilkåret i høyringsnotatet om at det berre var sensitive personopplysningar som ikkje skulle samlast inn.
Innsamling av nettdokument vil føre til at Nasjonalbiblioteket framstiller eit eksemplar av dokumentet. I Danmark og Finland er det tilsvarande gitt ein eigen heimel for slik eksemplarframstilling, slik at sjølve innsamlinga ikkje skal vere i strid med reglane i åndsverklova. Ingen av høyringsinstansane hadde merknader til dette forslaget. Departementet foreslår derfor at det blir teke inn ei føresegn i pliktavleveringslova om dette. Forslaget gjeld berre den eksemplarframstillinga som er nødvendig for at den faktiske innsamlinga skal kunne skje. Ei eventuell seinare tilgjengeleggjering av pliktavlevert materiale følgjer av åndsverklova og vil bli regulert i forskrift.
Fotnotar
Direktiv 95/46/EF
Kartlegging av materiale på nettet av Anders Fagerjord ved Institutt for medium og kommunikasjon ved Universitet i Oslo og Vidar Falkenberg ved Retriever
Dokument om Noreg eller med norsk opphavsmann
http://www.alexa.com/topsites/countries/NO. Alexa er eit selskap som driv webinformasjon.
PVN-2009-11
NOU 2009: 1 Individ og integritet
Ot.prp. nr. 52 (1988–89) Lov om avleveringsplikt for allment tilgjengelege dokument punkt 3.2.1 og NOU 1984: 3
NOU 1997: 19 Eit betre personvern og Ot.prp. nr. 92 (1998–99) Behandling av personopplysninger
I 2012 var det hausta inn og lagra over ti petabytes med data. Det er om lag 800 000 unike IP-adressar som besøker Wayback kvar dag (i mars 2015), jf. https://archive.org/stats/ (lesedato: 06.03.2015).
International Internet Preservation Consortium (IIPC) i dag har 48 medlemmer fra totalt 27 land: Austerrike, Australia, Canada, Chile, Danmark, Estland, Finland, Frankrike, Island, Israel, Japan, Kina, Kroatia, Nederland, New Zealand, Norge, Polen, Portugal, Slovenia, Spania, Sveits, Sverige, Storbritannia, Sør-Korea, Tsjekkia, Tyskland og USA. For ei oversikt over relevant lovgiving i dei ulike landa, sjå http://netpreserve.org/legal-deposit. (lesedato 11.03.2015).
EU-rekommandasjon av 27. oktober 2011 (2011/711/EU).
Lov om pligtaflevering af offentliggjort materiale av 22. desember 2004 nr. 1439.
LBK nr 202 af 27/02/2010 Bekentdgørelse af lov om ophavsret (ophavsretsloven).
Det vil seie innsamling av heile det danske domenet (dessutan eventuelt andre nettstader med innhald retta mot dansk publikum) ca. fire gonger i året.
Dette inneber innsamling av nokre utvalde nettstader, gjerne temabasert.
Sjå pligtafleveringsloven § 8 stk. 1.
Rekvirering inneber at mottaksinstitusjonen krev at materialet blir avlevert.
For ein nærare gjennomgang av korleis avleveringspliktig informasjon på Internett skal avleverast, viser vi til dokumentet «Pligtaflevering af dansk materiale, offentliggjort på Internett frå 1. juli 2005», som er tilgjengeleg via nettstaden www.pligtaflevering.dk.
Eit dokument kan vere tilgjengeleg for allmenta sjølv om ein må logge seg på for å kunne lese dokumentet. Det avgjerande er i kor stor grad folk med relevante føresetnader og interesser kan få tilgang.
Sjå Bemerkningene til lovforslaget avsnitt 5.5.2.3. «Ulovligt materiale og fejlagtige oplysninger».
Sjå Bemerkningene til lovforslaget avsnitt 2 «Baggrund».
Rundt rekna femti medieføretak og offentlege myndigheiter (såkalla overgangsleverandørar) har vore pliktige til å levere elektroniske dokument publiserte etter 31. mars 2013.
Sjå E-pliktlagen § 2.
Sjå Yttrandefrihetsgrundlagen (1991:1469) kap. 1 §§ 6 og 9.
Dei unntaka som er oppstilte i e-pliktlagen §§ 6–9, gjeld ikkje for styresmaktene.
Sjå Prop. 2011/12:121 (Leveransplikt för elektroniskt material) side 12.
Förordning (2002:287) om behandling av personuppgifter i Kungl. bibliotekets digitala kulturarvprojekt
28.12.2007/1433
Upphovsrättslag 8.7.1961/404.
Dvs. «material som finns tillgjängligt på datanät», jf. den finske pliktavleveringslova kap. 1 § 3 nr. 5.
Sjå den finske pliktavleveringslova kap. 3 § 8, «Skyldighet att möjliggöra hämtning av nätmaterial och att överlåta sådant».
The National Foundation for Scientific Computing (FCCN).
På webarkivets eigne nettsider minner dei om opphavsretten til materialet (utan å ta stilling til eiga kopiering og tilgjengeleggjering). Forholdet til eventuelle personopplysingar i dei innhausta nettsidene er ikkje omtala. For nærare informasjon, sjå: http://sobre.arquivo.pt/legal-notices (lesedato: 06.03.2015).
Avleveringsinstitusjonane er Rome National Central Library og Firenze National Central Library.
Avleveringsplikt for og innsamlingsrett til den franske delen av Internett følgjer av den franske åndsverklova «Loi relative au droit d'auteur et droits voisins dans la société de l'information» av 1. august 2006 nr. 2006-961 (DADVSI) kap. IV. For Luxembourg gjeld «Règlement grand-ducal du 6 novembre 2009 relatif au dépôt», sjå særleg art. 1 nr. 3 og art. 6 tredje leden.
Jf. http://www.bnf.fr/en/professionals/digital_legal_ deposit/a.digital_legal_deposit_web_archiving.html (lesedato: 06.03.2015).
Bekendtgørelse om pligtaflevering af offentliggjort materiale (Bekendtgørelse nr. 636 af 13. juni 2005)
Lov nr. 429 af 31. mai 2000 om behandling af personoplysninger
Lov av 4. juli 2003 nr. 83 om elektronisk kommunikasjon
PVN-2012-03 Nettby
Datatilsynet og Teknologirådet (2014): Personvern 2014 – tilstand og trender. Oslo, januar 2014