De onmisbare datawetenschapper

21-11-2017 | door: Blog

De onmisbare datawetenschapper

Digitale data zijn de bouwstenen van de digitale maatschappij en economie. Wie beheerst de data die wordt gecreëerd? Zijn het de bedrijven die deze maken? Zij die het collecteren? De servers en opslagsystemen waarop die data staat? De kabels en satellieten waarmee het wordt verspreidt? Of wellicht de wetgeving die zorgt dat data in goede handen komt en weg blijft uit verkeerde handen?

Data Governance

Welkom in wereld van de data governance. Het is één van de meest belangrijke practices geworden om de juiste business intelligence te ontwikkelen, in te zetten en te borgen. Slim master data management is steeds belangrijker om de maximale waarde uit data te krijgen. Data staat daarnaast steeds meer verspreid in wereldwijde clouds en datalakes en is door bandbreedtebeperkingen en compliance steeds lastiger bij elkaar te krijgen en te houden op één centrale plaats. Uw datahuishouding is verspreid over globale virtuele infrastructuren. Hoe daar overzicht op te houden en verantwoording over af te leggen?

In de kern is data governance een set processen die de belangrijke datastromen in een onderneming of organisatie managen. Maar als de IT-afdeling logische en flexibele control-mechanismen installeert om die data-assets te beheren, denken veel ondernemingen dat hiermee de juiste data op het juiste moment inderdaad naar de juiste persoon zal stromen. Deze simpele veronderstelling is ontstaan omdat we indertijd met onze eigen interne applicaties inderdaad op die manier veel informatieprocessen goed konden structureren, veiligstellen en borgen.

Enterprise Information Management

Tien jaar geleden was Enterprise Information Management nog een overzichtelijk vakgebied. We waren in de beginjaren van e-commerce, de cloud begon langzaam een begrip te worden, sociale media waren beperkt aanwezig en de mobile telefoon had nog fysieke toetsen. Datastromen waren te overzien, te beheersen en indien nodig, in te dammen.

Maar tien jaar later leven we ‘opeens’ in een wereld met big data, grote datalakes, digitale transformaties en veel bedrijfsdata is bij cloudproviders gestald. E-commerce is de standaard geworden en sociale media de basis voor marktcommunicatie. Marketingcampagnes zijn individueel en realtime; aankoop-historie is makkelijk te vinden en te bestuderen. Elke consument, organisatie of onderneming is steeds individueler te coderen en te labelen.

Datavervuiling

Echter niet alle data is meer te vertrouwen. Welke data is juist en welke niet? En dan heb ik het niet over nep-nieuws dat nu actueel is, maar gewoon over de basis-data voordat er informatie van gemaakt wordt. We hebben naast goede data ook ‘zachte data, vervuilde data, verkeerde data en misleidende data’. Hierover sprak gastspreker Deborah Frincke, onderzoekdirecteur bij de inlichtingendienst NSA, op een congres over data governance. Belangrijkste taak van een inlichtingendienst tegenwoordig is controleren òf de juiste data is verzameld en de hieruit afgeleide informatie überhaupt wel klopt.

Die taak wordt de laatste jaren moeilijker. Verspreiding van onjuiste data gaat geraffineerder, waardoor juistheid lastiger is vast te stellen. Veel data is vervuild, soms per ongeluk maar opzet komt steeds vaker voor. Bewust verkeerde data de wereld inbrengen die bestaande algoritmes beïnvloeden en daaruit dus verkeerde conclusies trekken. Inlichtingendiensten voeren datawetenschap op Olympisch niveau uit: reageren op verkeerde data is slecht, maar níet reageren op juiste data is nog veel erger. Inlichtingendiensten leven in een wereld van continue cyberoorlog.

Datawetenschappers

Voor datawetenschappers is er een groeiende markt. Steeds meer bedrijven begrijpen dat het professioneel verzamelen en analyseren van data meerwaarde heeft. Voor industrieën zoals de farmacie is datawetenschap al decennia heel gewoon. Elke door de overheid gereguleerde industrie moet vanaf research tot en met gebruik van het product, verplicht alle potentieel relevante informatie over product, ingrediënten en gevolgen verzamelen, bijhouden en gebruiken voor het borgen van de kwaliteit van het product.

Als achteraf blijkt dat al tijdens de researchfase van een medicijn volgens een publicatie bekend had kunnen zijn dat een ingrediënt een potentieel gevaar voor de volksgezondheid zou kunnen hebben, dan kan na een kostbare research en marktimplementatie dit product door de overheid zonder aarzelen van de markt worden gehaald. Alle publicaties verzamelen, doorwrochten, analyseren en de beargumenteerde resultaten goed archiveren, is de basis voor elk farmaceutisch onderzoek.

Vereisten

Wat maakt iemand tot een goede datawetenschapper? Verstand van wiskunde is handig, net zoals statistiek en aanvullende computerwetenschappen. Maar dat is slechts basisvaardigheid, naast kennis over hoe data kan worden verzameld. Maar belangrijker is wat de kwaliteit van data is: door wie gemeten, door wie opgeschreven of gerapporteerd, voor welk doel vastgelegd en voor welk publiek gepubliceerd? Dit vraagt verstand van aanliggende vakgebieden omdat de context waarvoor de data is verzameld en vastgelegd, flink kan variëren. Dit is het ervaringsdeel van het beroep.

Daarnaast is vooral een creatieve geest van belang. Data kan soms heel zacht en indirect zijn. Slechts indicatief en niet specifiek. Wat is de context, wat is achterliggende boodschap van de auteur. Hoe kan je de ervaringen uiteindelijk verwoorden en uitbeelden aan de bestuurders of organisaties waaraan wordt gerapporteerd? Dit vraagt kunstenaarschap, het kunnen vertalen van droge data in aansprekende beelden en begrijpelijke verhalen. De virtualisatie van de analyse en conclusies.

Gevoel en ethiek

Het meest lastige deel is het gebied waar ‘zachte vragen’ moeten worden beoordeeld die zijn gebaseerd op smaak, gevoel, normen en waarden. Dat leidt vaak ook tot ethische kwesties. Kunnen we mensen profileren op de data die we van een persoon hebben verzameld? Kunnen we gevoelige besluiten nemen op basis van verzamelde data waarvan we de juistheid niet volledig kunnen vaststellen? Wat mogen we meten van iemand, hoe persoonlijk mag de verzamelde data worden?

In de nieuwe digitale wereld van data governance zijn datawetenschappers onmisbaar. Een functie die commerciële en strategische keuzen in een organisatie kan beïnvloeden, maar ook een functie die steeds meer doordrenkt zal zijn met integriteit, regelgeving, privacy, ethische keuzes en persoonlijke verantwoordelijkheden en aansprakelijkheden. Allesweters met een hoge maatschappelijke verantwoordelijkheid om hun kennis economische én maatschappelijke verantwoord in te zetten. Hoort net als vroeger naast de digitale koopman wellicht wederom een digitale dominee te staan?

Door: Hans Timmerman (foto), CTO Dell EMC Nederland

Terug naar nieuws overzicht