Redactie - 09 november 2017

Data lakes, vooruitzien is regeren

Data lakes, vooruitzien is regeren image

Data lakes zijn typisch het werkgebied van data scientists, ervaren vaak specialistisch opgeleide informatici die kennis en ervaring hebben met het gestructureerd doorzoeken van ongestructureerde data. Deze informatici begrijpen welke waarde sommige structuren kunnen hebben voor de relatie of ‘voorspelling’ van allerhande nieuwe informatie. Er wordt nu gesproken over het vak van de toekomst, omdat elk bedrijf in toenemende mate dit soort analysetechnieken zal gaan toepassen. Nu de traditionele datawarehouses vervangen gaan worden door data lakes is het goed hier eens iets meer over te vertellen.

Het bijeenbrengen van deze grote datahoeveelheden verzamelen we tegenwoordig in zogenaamde ‘data lakes’. Dit zijn grote hoeveelheden ongestructureerde data die als data grondstof ten behoeve van databases dienen en de plaats waar data owners intelligentie uit willen halen

Wist u dat 80% van bedrijfsdata  bestaat uit ongestructureerd data bestaat?
Ongestructureerde data groeit veel sneller dan gestructureerde data, de toevoeging van ”Rich content”, bijvoorbeeld foto’s en video’s  zoals CCTV, Healthcare, Broadcast, Media en Websites, vereisen meer data opslag . Data dat wordt geproduceerd door elementen die voorheen niet met het  Internet waren verbonden, elementen zoals Domotica, slimme thermostaten, horloges, verkoopautomaten, auto’s, robots, servers, smartphones en, nou ja alles wat op wifi of internet aangesloten is en data produceert, zijn een belangrijke oorzaak van de toename van de hoeveelheid data (‘Internet of Things’) .

Retail: ongestructureerde databronnen worden de belangrijkste grondstof voor klantinzichten Gecombineerd met gestructureerde data helpen ongestructureerde databronnen om een completer beeld van de behoeften en wensen van de klant te verkrijgen Ongestructureerde data is meestal subjectiever. Gestructureerde data geeft meestal antwoord op de “wat”-vraag , bijvoorbeeld van welke klanten is het waarschijnlijk dat zij een bepaald product kopen, of juist niet? Smart data kan gaan over klanten, prospects, de markt, de concurrentie, de economische en sociale omgeving, nieuwe ontwikkelingen, lifescience onderzoeken, et cetera. De kennis komt binnen het bedrijf beschikbaar middels rapportages en (statistische) analyses ten behoeve van strategische, tactische en operationele marketingbeslissingen.

Enterprise content management
Een Enterprise Content Managementsysteem (ECM) is er primair op gericht om de levenscyclus van ongestructureerde informatie, van initiële creatie via bijvoorbeeld publicatie tot aan archivering en verwijdering, te ondersteunen. Belangrijke aspecten hierin zijn het terugvinden van de betreffende informatie en uiteraard het bewaken van de integriteit er van. De terugvindbaarheid van content wordt onder andere geregeld door het toevoegen van metadata. Dit is informatie over de opgeslagen content, het vertelt dus iets over de daadwerkelijke data. Veel voorkomende soorten van metadata zijn auteur, trefwoord en bijvoorbeeld creatiedatum en ingeval van film en video een codex. De meeste oplossingen voor ECM bieden ruime mogelijkheden om zelf de gewenste vormen van metadata te definiëren. Ook het aanbieden van geavanceerde zoekmogelijkheden behoort tot de mogelijkheden.

Integriteit
Het bewaken van de integriteit van content gebeurt onder andere door het toepassen van versiebeheer, maar kan ook worden geregeld door de toegang tot bepaalde informatie te reguleren en het geheel Enterprise-breed inzichtelijk te houden. Deze functionaliteit is zeer wenselijk om de IT omgeving GDPR-compliant te maken en te houden.

Analytische applicaties
Het toepassen van vooraf gedefinieerde processen om content te creëren (workflow) behoort ook tot de mogelijkheden. Er komen steeds meer applicaties beschikbaar die snelle analyses uitvoeren op data lakes in combinatie met gestructureerde data. Een mooie ontwikkeling omdat het onderhouden van een data lake natuurlijk een stuk minder kostbaar is dan een SQL met de daarvoor noodzakelijke snelle storage.

IT en Business komen steeds dichter bij elkaar. Nu organisaties de noodzaak zien om IT te gebruiken als strategische middelen, en met deze gegevens opbrengst koopgedrag van klanten bepalen, voorspellend karakter bieden en daarmee het succes van de organisatie kan worden bepaald. Vooruitzien is tenslotte regeren.

Active Archive biedt behalve de hardware waarop een data lake kan landen ook de software(SDS) waarmee data uit traditionele storage kan worden gehaald en combineert deze al dan niet met een “software defined” datamanagement applicatie. De combinatie van S3 Object storage en LTFS Tape storage maakt dat data lakes bijna onbeperkt kunnen schalen. Het mooie van deze oplossing is dat hij probleemloos integreert in uw huidige IT omgeving.

Deze vorm van storage is het meest geschikt ten behoeve van ongestructureerde data, afbeeldingen, audio/video, documenten, back-ups, archieven, archivering en opslag van data van databases: logbestanden en meetgegevens uit diverse analytische applicaties.

De Active Archive solution groeit in mogelijkheden. Was het voorheen slechts een methode om grote archieven goedkoop maar efficiënt te ontlasten uit een primaire storage omgeving, biedt het nu vooral kansen om in lijn met de business te geraken, GDPR-compliant te worden, altijd zicht te houden en bereikbaarheid van alle data te verkrijgen en deze data integer en veilig te houden. Met de komst van nieuwe search-engines krijgt  data echt meerwaarde. Bouw uw data lake, private Cloud en Active Archive met Pronovus.

Harold Koenders, Director Active Archive Pronovus

Trend Micro BW BN week 10-11-13-14-2024 Copaco | BW 25 maart tm 31 maart 2024
Trend Micro BW BN week 10-11-13-14-2024

Wil jij dagelijkse updates?

Schrijf je dan in voor onze nieuwsbrief!