Redactie - 03 augustus 2022

Object storage beheerst data en IT-budgetten

Hardware Machine learning Security Software Cloud Storage Data

Al in 2018 hebben we al eens verslag gedaan van de enorme groei van het aandeel Object storage binnen IT-storageomgevingen. Duidelijk is dat gebruikers begrijpen dat er nog al wat verschillen op te merken zijn in de wijze waarop Object storage met data omgaat en dat het al langer wordt gebruikt in de ”echte“ grote dataomgevingen. Verschillende Object storage vendoren profiteren hiervan en groeien fors.

Storage protocollen, hoe zat dat ook alweer?

Binnen de IT-storagewereld kan je grofweg 3 opslagmethodieken onderscheiden: Block storage, File storage en Object storage.

In het geval van Block storage wordt opslagmedia geschikt gemaakt voor netwerkopslag waarbij een harddisk wordt ingedeeld in maximale logische volumes dat vervolgens aan een besturingssysteem wordt gekoppeld. De opgeslagen data in Block storage bestaat uit meerdere blokken van dezelfde grootte. In deze vorm van storage wordt data feitelijk in meerdere stukjes gehakt van exact dezelfde grootte (physical records). Blocks bevatten geen metadata zoals gebruikelijk in File en Object storage, maar krijgen wel elk een adres. Dit unieke adres komt overeen met de opgeslagen data. Wordt deze data aangeroepen dan controleert de technologie of de adressen kloppen. Block storage bevat over het algemeen gestructureerde data zoals SQL, Databases en dergelijke. ZFS is hier een variatie op, echter binnen ZFS -opslagpools hoeven geen partities te worden beheerd. ZFS gebruikt verder variabele blokgroottes tot 128KB in tegenstelling tot andere Block storage technologieën die steeds een vaste omvang voor hun datablokken gebruiken.

Block based storage data wordt meestal verzonden via Fibre Channel, iSCSI of AoE (ATA via Ethernet) protocollen. Block storage gebruikt in de meeste gevallen snelle tot zeer snelle storagemedia (Flash en Enterprise media) omdat het hier vaak gaat om configuraties die een snelle/hoge beschikbaarheid moeten garanderen.

File storage, zijn bestanden en directories die men dagelijks ziet en vormen een abstractie laag tussen het besturingssysteem en het filesysteem op het opslagmedium. Kenmerkend aan File storage is de hiërarchische manier van opslaan. Gegevens worden gestructureerd opgeslagen op schijven in mappen en directories. Een en ander kan lokaal via een webserver gebeuren, of centraal naar het datacenter dat via het netwerk is te bereiken. Dit laatste wordt ook wel Network Attached Storage (NAS) genoemd. De twee meest populaire protocollen die binnen dit bestandssysteem worden gebruikt zijn NFS en SMB/CIFS. File storage wordt in primary storage gebruikt voor bestanden die een hoge beschikbaarheid moeten hebben.

Object storage

Met de geboorte van Amazon`s S3-protocol werd ook een nieuwe storagemethode geboren die volop mogelijkheden zou gaan bieden aan met name bezitters van grote hoeveelheden ongestructureerde data. Hoewel Object storage de jongste telg is aan de storage boom, is het inmiddels een ervaren platform waar iedere dag slimmere applicaties aan kunnen worden gekoppeld. Object opslag wordt dan ook al langere tijd gebruikt voor doeleinden zoals het opslaan van foto's op Facebook (Haystack), muziek op Spotify, of bestandsvormen in onlinesamenwerkingsdiensten, zoals Dropbox en NetFlix. Bij de introductie van de S3 API in 2006 bood deze ondersteuning voor Rest-, Soap- en Bittorrent-protocollen en bijzondere software development sets voor de meest populaire programmeertalen zoals PHP, Java, NET en Ruby.

Hoe werkt het?

De object S3 storageomgeving communiceert via een Application Programming Interface (API). Een API is een verzameling aan definities waarmee softwareprogramma’s onderling kunnen communiceren. Het dient dus als een interface tussen verschillende softwareapplicaties waardoor de gebruikte code geautomatiseerd elkaars toegang tot informatie en/of functionaliteit regelt, zonder dat front-end ontwikkelaars hoeven te weten hoe het andere programma exact werkt. Er zijn vele API`s beschikbaar, API's bestaan voor (web)applicaties en besturingssystemen en kunnen voor allerlei doeleinden worden ingezet. Een groot voordeel voor front-end developers komt voort uit het feit dat API-software niet vanaf de grond af hoeft te worden opgebouwd, aangezien je functies kunt aanroepen in plaats van deze zelf te moeten programmeren.

Objecten worden gegroepeerd in logische containers die “buckets” worden genoemd en kunnen worden benaderd via een platte hiërarchie, die simpelweg verwijst naar de naam van het object, de naam van de bucket en de plaats binnen de objectstore waarin de gegevens liggen opgeslagen.

De metadata wordt binnen objectstorage losgekoppeld van de daadwerkelijke data en kan binnen het protocol gebruikt worden voor vele doeleinden. Er zijn diverse soorten metadata aan te wijzen die uiteenlopen van tekst die een en ander vermeld over het onderwerp, de plaats, en de locatie waar deze is opgeslagen, terwijl we in film- en CCTV-omgevingen weer metadata zien in de vorm van een Codec die iets verteld over het beeld, tellerstanden en audio-instellingen. Gebruikers kunnen de metadata ingesten/uitbreiden zodat omschrijvingen duidelijker en vindbaarder worden. Er zijn zelfs datamanagementsystemen waarin gebruikers metadata als werkelijke functionele data kunnen gebruiken, compleet met low-res filmfragmenten. Een toepassing die binnen de gezondheidszorg erg wenselijk is, maar er zijn meer voordelen. We noemen er een aantal:

Multi-tenancy - S3 - Feitelijk omschrijving is multi-user. Biedt ruimte voor talloze gebruikers/klanten, die elk een geïsoleerde en veilige weergave van hun data te zien krijgen.

Integriteit en Levenscyclusbeheer - Versiebeheer. Objecten kunnen tijdens hun levensduur in uiteenlopende versies in een bucket worden opgeslagen en verspreid over opslaglagen worden beheerd.

Veiligheid, De veiligheid van data is gewaarborgd, omdat data op meerdere en verschillende plaatsen wordt bewaard, met interne mechanismen zoals machine-learning wordt beschadiging en verlies van data tegengegaan door middel van replicatie en controle op consistentie. GDPR-waardig dus. Nu dataomgevingen extreem hard groeien en wij met de wetenschap leven dat in grote (PetaByte) RAID-omgevingen data ineen kan storten onder haar eigen gewicht, zogenoemde Bit Rate Error (BRE), is het goed om te weten dat Object storage aangevuld met Tape storage uw beste wapen is tegen dataverval.

Schaalbaarheid, Omdat object storage alleen in horizontale richting groeit, is het doorlopend en nagenoeg onbeperkt schaalbaar. Dit geldt onverminderd voor het gebruik van een Data lake op basis van een tapestorage omgeving. De belangrijkste reden dat Data Lakes betaalbaar kunnen blijven groeien, bestaat uit het feit dat tapestorage deze omgevingen efficiënt en uitermate schaalbaar ten uitvoer kan brengen. Active Archive biedt ruimte voor analytische applicaties. Het toepassen van vooraf gedefinieerde processen om content te creëren (workflow) behoort ook tot de mogelijkheden. Er komen steeds meer applicaties beschikbaar die snelle analyses uitvoeren op Data lakes in combinatie met gestructureerde data. Een mooie ontwikkeling omdat het onderhouden van een Data lake natuurlijk een stuk minder kostbaar is dan een SQL met de daarvoor noodzakelijke snelle storage.

Machine learning, Dit zal in de nabije toekomst echt het verschil gaan maken. De object storagefunctionaliteit en ‘deep learning’ mogelijkheden van verschillende object storage vendoren worden al in meerdere research en analytische omgevingen gebruikt. Deze technologie laat zien hoe de Object storage technologie bijdraagt aan ingrijpende verbeteringen van de kostenefficiëntie van gegevens- intensieve toepassingen zoals machine-learning. Overal ter wereld is sprake van een explosieve gegevensgroei. Deze trend zal alleen maar in een stroomversnelling raken door de niet te stoppen opmars van het Internet of Things (IoT) en footage die voortkomt uit machine-learning.

Active Archive object storage werkt op basis van een hybride structuur, wat betekent dat er diverse soorten media, soft- en hardware worden gebruikt. Denk hierbij aan Flash, HDD en Tape storage, verrijkt met software defined storage applicaties.

Stortrec, wat is ons aandeel?

We hebben in de loop der jaren als installateur, on-site break-fix en professional services specialist veel ervaring opgedaan met datamanagementsystemen die verschillende storage protocollen aanstuurden. Er zijn nog steeds veel hiërarchisch georiënteerde opslagsystemen die niet juist met ongestructureerde data omgaan. Juist deze ongestructureerde data groeien enorm binnen onze data omgevingen.

We hebben door onze ervaring met hardware en steeds efficiëntere software veel installaties mogen uitvoeren in omgevingen waar beide elementen samen komen. Daarnaast krijgt de gebruiker de mogelijkheid om een garantie of care-pack via vendor of distributeur aan te kopen.

Dit resulteerde al in een prachtige samenwerking met Object storage aanbieder Cloudian.

Recentelijk hebben een aantal van “oude bekenden” een prachtige storage solution gebouwd. Datamanagementspecialist Nodeum is een samenwerking aangegaan met DataCore en Central-one van Akquinet en komen met een opslag systeem wat de barrières tussen verschillende storage protocollen laat verdwijnen. Stortrec zorgt voor advisering, installatie, service en garantie afwikkeling.

Door: Harold Koenders (foto), Managing Director bij StorTrec Nederland

Tip de redactie

Object storage beheerst data en IT-budgetten

Storage protocollen, hoe zat dat ook alweer?

Object storage

Hoe werkt het?

Stortrec, wat is ons aandeel?

Dutch IT events

Meer over Hardware

Wil jij dagelijkse updates?