Redactie - 14 maart 2019

Big Data 2019, Een data lake met Hybride Cloud

Infrastructuur Storage Data

James Dixon, CTO van Business Intelligence specialist Pentaho, gebruikte de term data lake voor het eerst in 2010 waarbij hij het verschil omschreef tussen gestructureerde versus ruwe data. Het gebruik van een data lake is relatief nieuw binnen de wereld van Big Data, maar al lang niet meer weg te denken uit moderne data omgevingen die zien dat de hoeveelheid ongestructureerde data werkelijk explodeert op dit ogenblik. En dat gegeven wordt almaar erger. M2M/sensor data, data uit security en camerasystemen, Video uit media en entertainment omgevingen en data uit retail/klant volgsystemen produceren zo enorm veel data dat opslag in gebruikelijke IT-storage infrastructuren onmogelijk wordt.

De groei van data, Data is het nieuwe goud.

De kracht van de Cloud bevindt zich met name binnen de capaciteit waarop het platform enorme ongestructureerde data hoeveelheden efficiënt en schaalbaar kan opslaan. Met de groei van Big Data neemt het belang van data-analyse toe. Hoe meer gegevens beschikbaar zijn, des te beter organisaties in staat zijn om data-onderwerpen te vergelijken en relaties hierin aan te leggen. Met als voorwaarde dat de analysing tools de enorme hoeveelheid vaak ongestructureerde data weten te interpreteren. Daarvoor verschijnen steeds meer analysing tools met een range aan algoritmes en structuren om karakteristieken van data bij te staan. Op deze wijze kunnen inzichten uit enorme datasets ook werkelijk gebruikt worden voor het verbeteren van de efficiëntie en organisatorische processen.

Gestructureerde en ongestructureerde data

Om analyses uit te kunnen voeren heeft u data nodig als grondstof nodig. Veel ruwe data dus. Data die (nog) niet in een database opgeslagen is en derhalve niet geclassificeerd, geïdentificeerd, gelabeld én makkelijk toegankelijk zijn. Gestructureerde en ongestructureerde data zijn echter zo verschillend, dat ze ook allebei anders te interpreteren zijn. De enige overeenkomst tussen deze twee is dat de data ofwel door computers (devices, machines of sensoren) ofwel door mensen gegenereerd wordt. Stel dat je subjectieve, ongestructureerde data bijvoorbeeld combineert met de objectieve, gestructureerde gegevens, krijg je een completer inzicht en dus een veel betere analyse output.

Wat is een data lake?

Feitelijk gezien is een data lake een data bewaarplaats waar enorme hoeveelheden ongestructureerde data bewaart kunnen worden die over het algemeen “on premisis” gehouden wordt. Verderop leggen we uit waarom de omvatrijke data omgevingen bij voorkeur binnen de eigen locatie gehouden wordt. Doordat ongestructureerde data over het algemeen bewaard wordt op goedkoper storage media is het makkelijker (lees betaalbaarder) dan opslag in de gemiddelde big data infrastructuur.

Over het algemeen is de data op goedkope data media traag te repliceren maar de komst van moderne software defined storage applicaties en archive tools veranderen de storage wereld compleet. De oplossing werkt met de inzet van een meta data managementsysteem als een multi layer storage platform waarbij een belangrijk deel van de ongestructureerde data naar “customer purpose” wens ingericht kan worden. In de engine van het platform wordt adequaat samengewerkt met de huidige voorhanden zijnde/bestaande storage oplossing. Delen van de metadata-management oplossing worden verdeeld over de flash, HA Tiers van de primaire storage omgeving en delen worden weggeschreven naar het flash denkvermogen van de object S3 en data lake solution.

Cloud en het Data lake brengen hier uitkomst.

De meest voorkomende Cloudinfrastructuur is gebaseerd op een door Amazon ontwikkeld protocol. S3, de Simple Storage Service. Deze online object store is inmiddels meer dan twaalf jaar oud en wordt gebruikt voor de opslag van miljarden objecten en deze omvang groeit met de dag. Ook de andere public Cloud aanbieders gebruiken een vergelijkbaar protocol.

Veel data verzamelaars die af wilden zijn van het onderhouden van “eigen” IT-infrastructuur namen massaal een vlucht naar de publieke Cloud echter gold dat niet voor organisaties die iets meer waarde hechten aan data veiligheid of door wetgeving geen data in openbare voorzieningen mochten opslaan. Ook nu met de komst van de GDPR onze wetgeving veranderd en verschillende openbare Cloud aanbieders enige vorm van “lekkage” vertoonden werd er massaal een terugtrekkende beweging gemaakt. Een van de meest voorkomende redenen voor de terugtrekkende bewegingen is wel het kosten aspect. Data brengen is relatief goedkoop. Data van en naar de public Cloud sturen omdat deze data met regelmaat gebruikt wordt voor analyses is heel kostbaar zou is gebleken.

Hybride Cloud en Private Cloud het gebruik van S3 tooling.

De S3 API is een application programming interface die het mogelijk maakt om objecten oftewel binaire databestanden in S3 op te slaan, te halen, in kaart te brengen en te verwijderen op basis van simpele opdrachten zoals put- en get-instructies.

Hierdoor kunnen veel op basis van S3 API werkende Big data tooling als een “app” aan uw eigen Cloud omgeving “gehangen” worden. Ik zeg app omdat het gebruik enigszins lijkt op het gebruik van de Apple app store. Je hebt de machinerie en infrastructuur maar haalt slimme tools als app naar binnen zodat uiteraard afhankelijk van de functionaliteit hun werk kunnen doen. Zo zijn er diverse API-tools die in grote bulk dataomgevingen (ongestructureerde data) allerlei verbindingen aan het licht brengen en adviezen aan belanghebbenden kunnen geven.

Vendoren moeten mee.

Omdat de S3 API vele jaren een prominente marktpositie weet te behouden en de functionaliteit het volwassenheidsniveau heeft bereikt, is de oplossing uitgegroeid tot de norm voor object-gebaseerde storageprotocollen. Logisch dat iedere zichzelf respecterende Vendor een API-omgeving aan haar omgeving gekoppeld heeft. Leveranciers die melden dat hun oplossing compatibel is met de native S3 API hebben dan ook de voorkeur. Zo kan er bijna nooit sprake zijn van een Vendor insluiting. (lock-in)

Groeiend gebruik van Artificial intelligence (AI) en machine learning.

Artificial intelligence (AI) en machine learning bieden het bedrijfsleven en de maatschappij oneindig veel mogelijkheden. De kern en inzetbaarheid van dit speelveld wordt bepaald door de mate waarin we data kunnen verzamelen en voor korte of langere tijd kunnen bewaren. De succesfactor van de business wordt de komende tijd bepaald door de wijze waarop organisaties data onder controle weten te houden. Het is dan ook de hoogste tijd om alle mogelijke potentiële strategische scenario’s in kaart te brengen.

Artsen die behandel adviezen ontvangen van IBM Watson, retailers die klantbewegingen en koopgedrag voorspelt krijgen uit massa-data of maak industrieën die productie en calculatie risico`s voorkomen op basis van data-analyse voortkomende uit enorme ongestructureerde data hoeveelheden laten zien dat er veel mogelijk binnen artificieel intelligence omgevingen.

Door het gebruik van een Cloud-archive ben je in staat om ook oudere (koele en koude) archief data on-line en snel beschikbaar te houden? De mogelijkheid bestaat om Meta data te verrijken zodat onderwerpen beter vindbaar zijn. Behalve dat je kennis maakt met “machine learning” en “artificial intelligence” die mogelijkheden bieden die hiervoor onmogelijk leken, ontlast je ook nog eens je productie omgeving hetgeen je TCO zeer ten goede komt.

Artificial intelligence (AI) en machine learning vragen derhalve om een nieuwe IT Strategie!

Hardware matig propaganderen we voor de opslag van ongestructureerde data een “use what you have” strategy waarbij de legacy hardware aangestuurd en aangevuld wordt met een multi tiering infrastructuur.

Door: Harold Koenders, Detron Lifecycle services

Tip de redactie