Redactie - 07 september 2015

Het gemak van Data Lake en de dreigende chaos

In een samenleving die bol staat van verschillende soorten data, hebben we gelukkig de luxe om al die data, oud en nieuw, gemakkelijk op te slaan en verder te gaan met ons leven. Tot een aantal jaar geleden was het proces van opslaan en sorteren van data gelimiteerd tot het volgen van de ETL (extract, transform, load) design filosofie. Dit heeft geleid tot het transformeren en samenvoegen van diverse datasets om data marts en datawarehouses op te vullen. Dit proces heeft de opslag van uitgebreide data gelimiteerd, omdat elk onderdeel in de data marts en warehouses zorgvuldig is beoordeeld en het gebruik ervan duidelijk gedefinieerd; de uiteindelijke waarde van opgeslagen data was bepaald.

Het gemak

Maar het nieuwe concept van een Data Lake zorgt voor een enorme hoeveelheid diverse, ruwe data die wordt verzameld en opgeslagen in de veronderstelling dat het in de toekomst nodig zal zijn om problemen op te lossen en antwoord te geven op vragen die we nu nog niet hebben. Het gaat om de mogelijke waarde van data. Wanneer we het nodig hebben dan zal de data lake de mogelijkheid hebben om de benodigde data te organiseren, de bron te bepalen en de waarde ervan te bepalen. Dit “just-in-case” scenario zorgt voor meer snelheid en flexibiliteit en dat is precies de drijfveer achter dit bedrijfs-brede data-management platform. Data lakes concentreren zich op het opnemen van data en harmonisatie ervan om verspreide data snel op te slaan tegen lage kosten en zonder belemmeringen. Dit nieuwe concept probeert twee problemen op te lossen binnen data management; een oud en een nieuw probleem.

Het oude probleem is informatie opslag en daarbij de kosten van het managen van data. In tegenstelling tot traditionele data-management processen, die bestonden uit meerdere, onafhankelijk gemanagede collecties aan data, laten data lakes co-lokalisering van bronnen toe. Dat zorgt voor een toename in het gebruik en het delen van informatie, wat tegelijkertijd de vergunning- en serverkosten verminderd. Het nieuwe probleem is de informatie toegankelijkheid. Data lakes zorgen ervoor dat de verschillende bronnen van ruwe data makkelijker toegankelijk zijn wanneer het benodigd potentieel van de data is geïdentificeerd. Samenvattend: data lakes voorzien in snellere mogelijkheden om antwoorden te vinden op vragen die we nog niet hebben; data lakes creëren data-voorzieningen om achter het onbekende aan te gaan. 

Een data lake laat een bedrijf alle data opslaan in de lake, zowel gestructureerde als ongestructureerde data. Het voorziet in een basis voor gebruikers om hun eigen analyse methoden en gedachtegoed toe te passen en in het gebruik van de technologie die het best past bij de specifieke case, om uiteindelijk voor die case een specifieke data-analyse te maken. Dit leidt tot één van de vele voordelen voor data-management: de gebruiker directe toegang geven tot een scala aan data. Dit zorgt voor minder afhankelijkheid van de IT afdeling, wat flexibiliteit geeft aan de directe gebruiker in de aanpassing, hat gebruik en de vormgeving van data. Alles volgens de persoonlijke vereisten. Een bijkomend voordeel is dat een data lake ook het transport van data verminderd; alle data komt in de lake en blijft daar. Ook is de data niet langer gelimiteerd tot een bepaald type omdat de lake elk type data kan bevatten: clickstream, machinedata, extern, social media en zelf audio, video en tekst.

De data lake stelt gebruikers in staat een “data democratie” te creëren, aangezien het leveringen versneld, bedrijven in staat stelt snel hypotheses te testen en toegang geeft tot nieuwe types data en technologieën dat de kosten van data verwerking omlaag brengt en performance omhoog stuwt. Met de big-data technologieën van tegenwoordig hebben organisaties nu een economisch aantrekkelijke optie om die data bijeen te brengen in een enkel, schaalbaar model.

De chaos

Nu er meer en meer data aan de lake wordt toegevoegd en er meerdere actieve gebruikers tegelijkertijd gebruik van maken, bestaat een risico dat de data lake veranderd in een grote stortplaats. Met honderden of duizenden gebruikers worden grote hoeveelheden aan data verzameld en/of gecreëerd tegelijk. En met weinig kennis over wie een bepaalde dataset gebruikt en waarom, ligt er een directe uitdaging in het managen van de data lake. Het huidige idee rondom Data Lake legt minder de nadruk op geautomatiseerd metadata-management, stuurbaarheid, afstamming en traceerbaarheid. Daarnaast zal er vanwege de brede toegankelijkheid van data lake meer gebruik van worden gemaakt op ad-hoc basis. Daarom is het belangrijk om denkbeelden te ontwikkelen rondom gebruikspatronen zodat nieuwe gebruikers die dezelfde databronnen gebruiken in de lake een idee hebben van wie de data eerder heeft gebruikt, waarvoor de data is gebruikt en of deze gebruikers de gebruikte data aanbevelen voor verdere analyse – in essentie moet er een user feedback en rating mechanisme komen.

Tenzij dergelijke functies samen met best practices worden geïmplementeerd in het design en gebruik van de data lake, zal er chaos komen en een belemmering vormen in brede acceptatie en gebruik van Data Lake als een aanwinst voor ondernemers. 

Door Soumendra Mohanty, SVP, Global Data and Analytics, Mindtree

Trend Micro BW BN week 10-11-13-14-2024 Copaco | BW 25 maart tm 31 maart 2024
Trend Micro BW BN week 10-11-13-14-2024

Wil jij dagelijkse updates?

Schrijf je dan in voor onze nieuwsbrief!