26 februari 2025

Kunnen we het data-vliegwiel vertragen?

Digitale data ontstaat bijna moeiteloos. Surveillancecamera’s, IoT-sensoren, chats, social media en herinneringsmeldingen pompen onafgebroken een stroom informatie de wereld in—waarvan het merendeel nooit wordt bekeken. Datalakes voor analyses, digitale archieven om niets te vergeten, AI-databases om trends te signaleren: het vliegwiel draait steeds sneller. Het resultaat? Een explosie van ‘zwarte data’—informatie zonder duidelijke oorsprong en inhoud, die nooit zal worden geanalyseerd en die vaak wordt bewaard uit pure onzekerheid, soms tegen alle (privacy) regels in.

Kunnen we het data-vliegwiel vertragen? image

De wereld is onverzadigbaar

Er wordt geschat dat we in 2028 ruim 400 zettabytes aan data genereren. Dat is 400 miljoen petabyte. En één petabyte is een miljoen gigabyte. We creëren zelfs (veel) meer data dan we fysiek kunnen opslaan. De dataproductie groeit jaarlijks met 24%, terwijl de opslagcapaciteit slechts met 17% toeneemt. Dit heeft twee belangrijke gevolgen: de prijs van dataopslag zal stijgen, en bedrijven zullen steeds strategischer moeten bepalen welke data ze (nog) willen bewaren en hoe ze deze data opslaan en op de lange termijn beheren.

Het efficiënt en zorgvuldig classificeren en vastleggen van metadata van bedrijfsdata in archieven en AI-ondersteunde datalakes wordt voor steeds meer organisaties een uitdaging. De achterstand in het archiveren van digitale informatie groeit jaarlijks, wat in sommige gevallen leidt tot wat we ‘digitale dementie’ noemen: het verlies van overzicht over de eigen data. Je verleden vergeten. Het niet meer kunnen terugvinden of zelfs herinneren. Datagedreven werken is een mooie strategie, maar als je je eigen data niet meer kunt terugvinden, doe je toch iets verkeerd!

Probleem van elke tijd

Eén van mijn eerste blogs in 2010 ging al over dit onderwerp. Lees de blogRuim je data toch eens op’ er maar op na. IT-afdelingen worstelen met de enorme hoeveelheden data die de organisatie produceert en die ergens opgeslagen moeten worden. De business geeft echter nog steeds te weinig richtlijnen over de waarde, houdbaarheid, veiligheid en duurzaamheid van de gegenereerde data. Destijds stelde ik al dat als je niet direct bij de bron iets over de verwachte of geplande lifecycle van de informatie vermeldt, de data onbedoeld een eeuwig leven in de vergetelheid kan krijgen.

Denk aan de factuur uit 1995 die formeel allang vernietigd had moeten zijn. De sollicitatiebrief uit 2002 die nog rondzwerft van een kandidaat die nooit is aangenomen. Een beoordelingsgesprek met een medewerker die al jaren niet meer in dienst is, opgeslagen in een oud dossier van een manager. Of de zelfgemaakte kopieën van een medewerker uit een bedrijfsdossier. Naast bewaarplicht is er een vernietigingsplicht. Bestuurders kunnen erop aangesproken worden als documenten niet of te laat worden verwijderd. De vernietigingsplicht is vooral in de wet opgenomen ter bescherming van persoonsgegevens, zoals vastgelegd in de Wet bescherming persoonsgegevens (WBP).

Noodvernietiging

In enkele gevallen mag zelfs eerder worden overgegaan tot vernietiging van documenten. Dit heet ‘noodvernietiging’ (zie ook de Archiefwet, art. 9, lid 2). Dit is vooral toegestaan in tijden van oorlog of als geheime documenten in verkeerde handen dreigen te vallen. Denk aan uitzonderlijke situaties zoals het binnenvallen van een buitenlandse vijand of de bestorming van een ambassade.

Een historisch verhaal uit de VOC-tijd beschrijft hoe Martinus Bruno, die in 1672 aanmonstert als tweede schrijver op een VOC-schip, een noodvernietigingsprocedure meemaakt. Het schip loopt in een storm op een zandbank en wordt vervolgens gekaapt door de Engelsen. Uit verslagen blijkt dat de kapitein van het VOC-schip een noodvernietigingsprocedure toepaste om te voorkomen dat het scheepsarchief in handen van de vijand zou vallen. De methode was simpel: de kapitein haalde een pakket documenten uit zijn hut, verzwaarde dit met stukken lood en gooide het overboord. Een effectieve en beproefde methode die in veel militaire verslagen terugkomt.

Als EMC leverden we aan het leger zelfs storageboxen met zowel noodwisprocedures als ingebouwde explosieven. Bij nood konden alle schijven effectief worden gewist, of als daar geen tijd meer voor was, met één druk op de knop fysiek worden vernietigd.

Automatisering van archivering en vernietiging

Een effectieve oplossing om achterstanden in zowel archivering als vernietiging te voorkomen, is om een digitaal document—of het nu een brief, dossier, chat of e-mail is—direct bij vrijgave formeel te archiveren. Compleet met de juiste metadata, zodat het document later door het archiefsysteem op tijd en op de juiste wijze kan worden vernietigd. Immers, niet alleen mag er geen toegang meer zijn tot het document, ook alle digitale versies die op andere plaatsen zijn opgeslagen, moeten aantoonbaar zijn gewist.

Daarom worden archiefplatformen steeds belangrijker. Een DMS of archiefapplicatie zoals ArQiver kan wel de opdracht geven tot vernietiging, maar uiteindelijk moeten diep in het datacenter alle bestanden—van master tot uitwijk en back-up—daadwerkelijk worden verwijderd. Deze platformen moeten zelfstandig, los van een DMS of archiefapplicatie, de in de metadata verankerde lifecycle van de gearchiveerde documenten beheren en zonodig zelfstandig tot vernietiging kunnen overgaan. Immers zowel DMS-en als applicaties hebben nu eenmaal niet het eeuwige leven.

Het archiefplatform moet zorgdragen dat de gearchiveerde documenten, vanuit business continuity-oogpunt, veilig zijn opgeslagen op meerdere locaties, die zonodig verspreid zijn over verschillende energiegebieden. Daarnaast moet het platform ervoor zorgen dat bestanden digitaal leesbaar blijven zolang de verplichte archiveringsperiode loopt en regelmatig hierop controles uitvoeren. En last but not least, moet het uiteindelijk – aantoonbaar! – alle bestanden fysiek kunnen vernietigen.

Op archivering gerichte storageplatformen

De afgelopen twintig jaar kregen steeds meer storageplatformen specifieke ingebouwde archieffuncties. De door EMC in 2002 gelanceerde Centera was een van de eerste versies die online te archiveren bestanden, inclusief hash en timestamp, veilig en gedistribueerd kon opslaan. Vooral in de wereld van grote bestanden, zoals MRI-scans, bleek deze vorm van dataopslag zeer effectief. Voor de echt lange termijn blijft zelfs tape nog steeds een energiezuinige en efficiënte vorm van opslag. Daarnaast bieden steeds meer cloudaanbieders diverse vormen van archiefopslag aan, wat een interessante optie is mits ze daar de noodzakelijke archief- en opslagplatformen voor hebben.

Zodra archieven een restrictievere vorm van bescherming, opslag, beschikbaarheid en geografische locatie vereisen, worden soevereine oplossingen interessant. Hierbij moet binnen landsgrenzen voldoende uitwijk en decentralisatie mogelijk zijn voor continuïteit, beschikbaarheid en veiligheid. Een recent ge-update platform dat aan deze eisen voldoet, is het Hitachi Content Platform (HCP). Dit platform biedt een solide fysieke basis voor digitale archieven die conform e-depotnormen wettelijk bewaard moeten worden. Daarboven zorgen SaaS-oplossingen zoals ArQiver ervoor dat alle relevante documenten uit verschillende contentplatformen en kantoorsystemen, voorzien van de noodzakelijke metadata, via hubs op deze fysieke opslagplatformen kunnen worden opgeslagen.

In een tijd waarin data exponentieel groeit, wordt een goed doordachte en geautomatiseerde archiveringsstrategie steeds belangrijker. Het is tijd om grip te krijgen op het data-vliegwiel.

Door: Hans Timmerman (foto)

Copaco Vision on Security BW + BN
Dutch IT Awards beeld entertainment BN + BW

Wil jij dagelijkse updates?

Schrijf je dan in voor onze nieuwsbrief!