Data storage in de filmwereld

30-10-2019 | door: Blogger

Data storage in de filmwereld

Binnen de filmwereld wordt enorme veel content geproduceerd. Ook nog eens via verschillende media met content komende van websites, video`s en heel veel andere bronnen. De dringende vraag: hoe houden we al deze video files, audio fragmenten, foto’s enz. beheersbaar? Daarvoor komt er een Media Asset Management systeem (MAM) dat de hele mediaketen beschikbaar en toegankelijk maakt. Kerntaken van een MAM-systeem zijn media opslaan, media vindbaar maken en media gebruiken. Logisch dus dat een MAM workflow systeem feilloos moet kunnen samenwerken met een adequaat storage opslag systeem. Avid is een van de meest gebruikte media-solutions binnen de broadcast en media branche.

Storage samenwerking met Media Asset Management systemen.

Workflow meta data t.b.v. editing, rectrieving en archiverings toepassingen maken het mogelijk om b.v. in AVID omgevingen zoekargumenten in opslag media vele malen sneller te maken. AVID meta data tracking bestaat uit ruim 80 standaard fields en een ruim aantal customer-made fields. Beschreven worden onder meer Column Headers die details bevatten over namen, shoot datums, Tape locations, Start en stop momenten, duration, Take en scenes. enz. Verder kunnen project format types( NTSC, PAL, 720p , time codes en frames values genoteerd worden. Nu Tape storage een zelfde meta data verwerking en search toepassing gebruikt is de retentie snelheid enorm toegenomen. Er zijn zelfs datamanagementsystemen waarin gebruikers metadata als werkelijke functionele data kunnen gebruiken, compleet met low-res film fragmenten.

Het aandeel Object en tape storage binnen IT/ Media & Entertainment storageomgevingen groeit. Zeker nu meer gebruikers begrijpen dat er nog al wat verschillen op te merken zijn in de wijze waarop Object en tape storage met data omgaat en dat het al langer wordt gebruikt in de ”echte“ grote dataomgevingen. Object en tape storage vendors profiteren hiervan en groeien extreem hard.

Tijd voor wat extra uitleg
Binnen de IT storagewereld kan je grofweg 3 opslagmethodieken onderscheiden: Block storage, File storage en Object storage.

In het geval van Block storage wordt opslagmedia geschikt gemaakt voor netwerkopslag waarbij een harddisk wordt ingedeeld in maximale logische volumes dat vervolgens aan een besturingssysteem wordt gekoppeld. De opgeslagen data in Block storage bestaat uit meerdere blokken van dezelfde grootte. In deze vorm van storage wordt data feitelijk in meerdere stukjes (“blocks”) gehakt van exact dezelfde grootte (physical records). Blocks bevatten geen metadata zoals gebruikelijk in File en Object storage, maar krijgen wel elk een adres. Dit unieke adres komt overeen met de opgeslagen data. Wordt deze data aangeroepen dan controleert de technologie of de adressen kloppen. Block storage bevat over het algemeen gestructureerde data zoals SQL, Databases en dergelijke. ZFS is hier een variatie op, echter binnen ZFS -opslagpools hoeven geen partities te worden beheerd. ZFS  gebruikt verder variabele blokgroottes tot 128KB in tegenstelling tot andere Block storage technologieën die steeds een vaste omvang voor hun blocks gebruiken.

Block based storage data wordt meestal verzonden via Fibre Channel, iSCSI of AoE (ATA via Ethernet) protocollen. Block storage gebruikt in de meeste gevallen snelle tot zeer snelle storagemedia(Flash en Enterprise media) omdat het hier vaak gaat om configuraties die een snelle/hoge beschikbaarheid moeten garanderen.

File storage zijn bestanden en directories die men dagelijks ziet en vormen een abstractie laag tussen het besturingssysteem en het filesysteem op het opslagmedium. Kenmerkend aan File storage is de hiërarchische manier van opslaan. Gegevens worden gestructureerd  opgeslagen op schijven in mappen en directories. Een en ander kan lokaal via een webserver gebeuren, of centraal naar het datacenter dat via het netwerk is te bereiken. Dit laatste wordt ook wel Network Attached Storage (NAS) genoemd. De twee meest populaire protocollen die binnen dit bestandssysteem worden gebruikt  zijn NFS en SMB/CIFS. File storage wordt in primary storage gebruikt voor bestanden die een hoge beschikbaarheid moeten hebben.

Object storage
Met de geboorte van Amazon`s S3-protocol werd ook een nieuwe storagemethode geboren die volop mogelijkheden zou gaan bieden aan met name bezitters van grote hoeveelheden ongestructureerde data. Hoewel Object storage de jongste telg is aan de storage boom, is het inmiddels een ervaren platform waar iedere dag slimmere applicaties aan kunnen worden gekoppeld. Object opslag wordt dan ook al langere tijd gebruikt voor doeleinden zoals het opslaan van foto's op Facebook (Haystack), muziek op Spotify, of bestandsvormen in online samenwerkingsdiensten, zoals Dropbox en NetFlix. Bij de introductie van de S3 API in 2006 bood deze ondersteuning voor Rest-, Soap- en Bittorrent-protocollen en bijzondere software development sets voor de meest populaire programmeertalen zoals PHP, Java, NET en Ruby.

Hoe werkt het
De object S3 storageomgeving communiceert via een Application Programming Interface (API). Een API is een verzameling aan definities waarmee softwareprogramma’s onderling kunnen communiceren. Het dient dus als een interface tussen verschillende softwareapplicaties waardoor de gebruikte code geautomatiseerd elkaars toegang tot informatie en/of functionaliteit regelt, zonder dat front-end ontwikkelaars hoeven te weten hoe het andere programma exact werkt. Er zijn vele API`s beschikbaar, API's bestaan voor (web)applicaties en besturingssystemen en kunnen voor allerlei doeleinden worden ingezet. Een groot voordeel voor front-end developers komt voort uit het feit dat API-software niet vanaf de grond af hoeft te worden opgebouwd, aangezien je functies kunt aanroepen in plaats van deze zelf te moeten programmeren.

Objecten worden gegroepeerd in logische containers die “buckets” worden genoemd en kunnen worden benaderd via een platte hiërarchie, die simpelweg verwijst naar de naam van het object, de naam van de bucket en de plaats binnen de objectstore waarin de gegevens liggen opgeslagen.

De metadata wordt binnen objectstorage losgekoppeld van de daadwerkelijke data en kan binnen het protocol gebruikt worden voor vele doeleinden. Er zijn diverse soorten metadata aan te wijzen die uiteenlopen van tekst die een en ander  vermeld over het onderwerp, de plaats, en de locatie waar deze is opgeslagen, terwijl we in film- en CCTV-omgevingen weer metadata zien in de vorm van een Codec die iets verteld over het beeld , tellerstanden en audio-instellingen. Gebruikers kunnen de metadata ingesten/uitbreiden zodat omschrijvingen duidelijker en vindbaarder worden. Dus juist specifieke meta data m.b.t. filmbeelden gebruikt in de media & entertaiment wereld vaart wel bij de verbrede inzetbaarheid van meta data ingestment toepassingen.

Tape storage

Het S3 protocol heeft ervoor gezorgd dat alle soorten opslag media naadloos met elkaar samenwerkt. Zo ook Tape storage. dat alle De belangrijkste reden dat bijvoorbeeld Data Lakes betaalbaar kunnen blijven groeien bestaat uit het feit dat tapestorage deze omgevingen efficiënt en uitermate schaalbaar ten uitvoer kan brengen. Alle publiek Cloud aanbieders zijn goede voorbeelden. Stuk voor stuk gebruiken ze Tape storage als opvang element voor omvatrijke data omgevingen.

Er zijn de nodige overeenkomsten op te merken tussen data voortkomende uit de Filmwereld en de gezondheidszorg. Grote scan bestanden zijn fysiek vrijwel het zelfde als grote filmbestanden en zijn over het algemeen even omvatrijk. De voordelen die moderne storage omgevingen bieden aan de filmwereld gelden onverminderd voor de opslag van data voortkomende uit de gezondheidszorg. Hoe zien die mogelijkheden en  voordelen eruit. Hieronder een opsomming.

Multi-tenancy - S3 - Feitelijk omschrijving is multi-user. Biedt ruimte voor talloze gebruikers/klanten, die elk een geïsoleerde en veilige weergave van hun data te zien krijgen.

Integriteit en Levenscyclusbeheer - Versiebeheer. Objecten kunnen tijdens hun levensduur in uiteenlopende versies in een bucket worden opgeslagen en verspreid over opslaglagen worden beheerd.

Veiligheid - De veiligheid van data is gewaarborgd, omdat data op meerdere en verschillende plaatsen wordt bewaard, met interne mechanismen zoals machine-learning wordt beschadiging en verlies van data tegen gegaan door middel van replicatie en controle op consistentie. GDPR-waardig dus. Nu dataomgevingen extreem hard groeien en wij met de wetenschap leven dat in grote (PetaByte) RAID-omgevingen data ineen kan storten onder haar eigen gewicht, zogenoemde Bit Rate Error (BRE), is het goed om te weten dat Object storage aangevuld met Tape storage uw beste wapen is tegen dataverval.

Schaalbaarheid - Omdat object storage alleen in horizontale richting groeit, is het doorlopend en nagenoeg onbeperkt schaalbaar. Dit geldt onverminderd voor het gebruik van een Data lake op basis van een tapestorage omgeving. De belangrijkste reden dat Data Lakes betaalbaar kunnen blijven groeien, bestaat uit het feit dat tapestorage deze omgevingen efficiënt en uitermate schaalbaar ten uitvoer kan brengen. Active Archive biedt ruimte voor analytische applicaties. Het toepassen van vooraf gedefinieerde processen om content te creëren (workflow) behoort ook tot de mogelijkheden. Er komen steeds meer applicaties beschikbaar die snelle analyses uitvoeren op Data lakes in combinatie met gestructureerde data. Een mooie ontwikkeling omdat het onderhouden van een Data lake natuurlijk een stuk minder kostbaar is dan een SQL met de daarvoor noodzakelijke snelle storage.

Machine learning – Dit zal in de nabije toekomst echt het verschil gaan maken. De object storagefunctionaliteit en ‘deep learning’ mogelijkheden van Object storage worden al in meerdere research en analytische omgevingen gebruikt.  Deze technologie laat zien hoe de Object storage technologie bijdraagt aan ingrijpende verbeteringen van de kostenefficiëntie van gegevens- intensieve toepassingen zoals machine-learning. Overal ter wereld is sprake van een explosieve gegevensgroei. Deze trend zal alleen maar in een stroomversnelling raken door de niet te stoppen opmars van het Internet of Things (IoT) en footage die voortkomt uit machine-learning.

Active Archive object storage werkt op basis van een hybride structuur, wat betekent dat er diverse soorten media, soft- en hardware worden gebruikt. Denk hierbij aan Flash, HDD en Tape storage, verrijkt met software defined storage applicaties.

Moderne storage solutions groeien in mogelijkheden en toepasbaarheid. Was het voorheen slechts een methodiek om grote archieven goedkoop maar efficiënt te ontlasten uit een primaire storage omgeving, biedt het nu vooral kansen om in lijn met de business te geraken, GDPR-compliant te worden, altijd zicht te houden en bereikbaarheid van alle data te verkrijgen en deze data integer en veilig te houden. Met de komst van nieuwe search-engines krijgt data echt meerwaarde. Bouw dus uw Data lake, Private Cloud en Active Archive solutions op basis van Object en tape storage.

Door: Harold Koenders, storage expert

Terug naar nieuws overzicht