Data bij de bron. Maar welke?
Het programma ‘Data bij de bron’ dat onze overheid al enkele jaren voert, stelt: “Data bij de bron is een belangrijk uitgangspunt voor de digitale transformatie van de Nederlandse overheid. Data hoort zo veel mogelijk op één logische plek te staan, bij de eigenaar van die gegevens.” Dat is vreemd, moet data nu bij de bron staan of bij de eigenaar. Zijn eigenaar en bron identiek? Als ik een boek wil lezen, hoef ik niet naar de auteur, de bron van de inhoud. Als het eigendom is overgedragen aan derden dan heeft vorige eigenaar wellicht die data niet eens meer. Moet ik voor email naar de verzender gaan om die email te raadplegen? Nee hoor, ik heb deze immers in mijn eigen inbox staan. En mogelijk heeft de bron, de zender, die mail allang gewist. Is ‘data bij de bron’ een reëel uitgangspunt voor digitale transformaties?
De koning is dood, leve de koning
Doel van het programma is: “Het tegengaan van kopieën door het gestandaardiseerd ontsluiten van databronnen.” En vervolgens “dit leidt tot transparantie en dataminimalisatie.” Ook daar valt nog wel het één of ander op af te dingen. Er is immers niets tegen het maken en gebruiken van kopieën, zolang je maar wéét dat het een kopie is. Een kopie kan handig zijn voor tijdelijk gebruik, waarna je de kopie ‘gewoon’ mag weggooien. Als je een nieuw kopie nodig hebt, kun je die immers maken bij de bron. Maar staat de originele informatie nog steeds bij die bron? Digitalisering maakt het mogelijk originele bron-informatie (zoals tekst) van de originele drager (zoals papier) te scheiden. Bron- of masterdata kan immers overal worden opgeslagen.
Toen ik in de jaren tachtig/negentig in de vliegtuigindustrie werkte, gingen we over van fysieke tekeningen naar de eerste digitale 3D-modellen en daarvan afgeleide tekeningen. Bij de overgang van de F27 Friendship, die in de jaren vijftig was ontworpen op basis van calques, oostindisch inkt en fysieke mallen, moesten we deze tekeningen en mallen ‘omzetten’ naar digitale masterdata voor de Fokker 50. Scanners en numeriek gestuurde meetinstrumenten creëren die nieuwe digitale masterdata. Essentie was dat ná de digitalisering de oude calques en mallen formeel de status ‘kopie’ kregen. En net zoals bij koningen geldt: Als de master dood gaat, leve de master! Als nieuwe masterdata ontstaat, vervalt automatisch de oude masterdata.
Beheren, bewaren of weggooien?
Het is dus zaak om de masterdata van een organisatie goed te beheren en te bewaren. Immers daar wordt de geldigheid met alle legitimiteit, compliance en governance van afgeleid. Van zowel proces als product of dienst. De vraag is nu: bewaar je die data bij de bron (de creator), bij de eigenaar of een aangewezen beheerder van masterdata? Een formele beheerder die de verantwoordelijkheid heeft de ontvangen data te registreren, te labelen, beschikbaar te stellen en voor de instandhouding zorgt. Deze beschrijving lijkt verdraaid veel op de rol en functie van een archivaris.
Maar van oudsher is een archivaris (bijna) nooit de bron van data. We archiveren toch immers pas aan het einde van de levenscyclus van informatie? Als niemand het meer nodig heeft. We bekijken of het document nog waarde heeft om bewaard te worden. Of dat wet- of regelgeving verplicht, dit document een bepaalde periode te bewaren. Of te vernietigen. Of er nog kopieën hiervan rondzwerven, weet natuurlijk niemand, maar die informatie heeft geen (rechts-) geldigheid meer. Oude kopieën zijn historische informatie geworden voor een museum.
Wat is een geldige bron van data?
Als we over de geldigheid van data spreken, wie bepaalt dat dan? De creator, opdrachtgever, huidige eigenaar, uitgever, hoofdgebruiker, beheerder of archivaris? Zeg het maar, elke bron die je daarvoor benoemt, is goed. Zolang het maar één bron is! Zolang de data maar duidelijk en eenduidig is vastgelegd, geldig is, toepassingen kent, terugvindbaar is en gegarandeerd leverbaar is. En aan wet- en regelgeving voldoet. Wellicht zelfs de context bevat waarom en waarbinnen die data ooit is gemaakt. Het programma ‘Data bij de bron’ stelt: “Data bij de bron leidt tot hogere datakwaliteit, meer veiligheid en betere bescherming van privacy”. Dat geldt alleen als die bron veilig, goed beschermd en van hoge kwaliteit is. En niet elke bron is dat.
Het programma stelt: “Data bij de Bron is een randvoorwaarde voor verdere digitalisering, overheden maken gebruik van de gegevens uit de bronsystemen”. Wat is het verschil tussen een bron en een bronsysteem? Is dat een speciaal ontworpen en toegewezen systeem dat de enige bron wordt van geldige informatie? Dat vaststelt welke data ‘brondata’ is en dus gecontroleerd en algemeen beschikbaar moet worden gesteld? Dat is niet data die in afzonderlijke, vaak afdeling of departement gebonden content management systemen staat zoals Filenet, Opentext of Documentum. Of in interne kantoorsystemen als Sharepoint of Dropbox. Dat zijn geen bronsystemen die kunnen delen, formele geldigheden/toepassingen van die informatie kennen, snel doorzoekbaar en – last but not least – publiek toegankelijk zijn.
Het digitale archief als bronsysteem!
Een nieuwe gedachte in de wereld van digitalisering is het oude archief ‘naar voren te halen’. Immers veel – zo niet alle – digitale informatie is onveranderlijk zodra het is gepubliceerd. Een email wijzigt niet meer, zodra deze verzonden is. Er ontstaan hooguit ‘replies & forwards’, die op hun beurt ook weer onveranderlijk zijn. Chats zoals sms, whatapp en social media berichten zijn data-verkeer dat onveranderlijk wordt op het moment van verzenden. Wie of wat houdt ons dan tegen die data op dat moment direct te archiveren?
In blogs sprak ik al tien jaar geleden over email-archiveren bij of bron of ontvangst. Net zoals we vroeger brieven in de postkamer een verzend- of ontvangstnummer gaven en dat in een boek registreerden. De nieuwe archiefwet eist dat alle belangrijke documenten en berichten binnen onze overheid op een gestructureerde wijze moeten worden gearchiveerd. Dat kan aan het einde van een levenscyclus, maar veel makkelijker is dat direct bij creatie of ontvangst te doen. Bij de bron – of beter nog – in het daarvoor aangewezen bronsysteem: de gecertificeerde bron van alle ‘onveranderlijke’ informatie die in, door of uit een organisatie gaat of komt.
Het archief: het bronsysteem voor digitale data
De archivaris niet als eindgebruiker, waar ik ooit een blog aan wijde ‘de archivaris als enige échte eindgebruiker’, maar de archivaris als de bron van alle (formele) data. Data bij de bron? Ja, maar dan een gecertificeerd, gestructureerd, veilig en compliant bronsysteem, zoals een digitaal archief. Documenten én berichten met metadata gelabeld inclusief de juiste zoekinformatie. Keurig volgens regel- en wetgeving opgeslagen en terugvindbaar. Veilig wat betreft privacy, eventueel geanonimiseerd of de-personificeerd, zoals bijvoorbeeld in rechtbankverslagen.
Nieuwe machine learning en AI-taalmodellen en algoritmes bieden ons de intelligentie om dat allemaal automatisch en enorm schaalbaar te doen. Dit idee is afgelopen jaren door een groep ontwikkelaars opgepakt en staat nu op het punt beschikbaar te komen. Komende weken meer over deze interessante paradigma-verandering in het denken over data bij de bron en waar en wanneer te archiveren. Digitalisering verandert immers de wijze hoe we ooit met papieren informatiedragers omgingen. Toen informatie – de inhoud – los kwam van de drager – het papier of de calque – bleken heel andere wegen mogelijk die ook naar Rome leidden. Nieuwe eieren van Columbus die opeens in een klap veel problemen oplossen. Een uitvinding zo simpel als de bekende paperclip om informatie te bundelen . . . maar nu in digitale vorm.
Door: Hans Timmerman