Redactie - 22 september 2018

Fujitsu ontwikkelt platform technologie voor snelle verwerking van massieve gegevens

Fujitsu ontwikkelt platform technologie voor snelle verwerking van massieve gegevens image

Fujitsu Laboratories heeft aangekondigd dat het de Dataffinic Computing technologie heeft ontwikkeld die zowel snelle gegevensverwerking als opslag met hoge capaciteit in gedistribueerde opslagsystemen biedt, om de verwerking van steeds grotere hoeveelheden gegevens te versnellen.

Onlangs hebben Fujitsu klanten gezocht naar verbeteringen in de verwerkingssnelheid in opslagsystemen die alles verwerken tot aan gegevensanalyse. Dit is in antwoord op een groeiende behoefte aan technologieën als AI en machine learning voor de analyse en het gebruik van snel groeiende hoeveelheden gegevens, inclusief ongestructureerde gegevens, zoals video- en loggegevens. Dit vereist echter opslagsystemen die ongestructureerde gegevens die zijn opgeslagen in een gedistribueerd systeem efficiënt kunnen analyseren, terwijl ze hun oorspronkelijke opslagfunctionaliteit voor gegevensbeheer en gegevensverwerkingsmogelijkheden bieden.

Dataffinic Computing

Fujitsu Laboratories heeft nu "Dataffinic Computing" ontwikkeld, een technologie voor gedistribueerde opslagsystemen die de gegevensverwerking verzorgt en tegelijkertijd hun oorspronkelijke opslagfunctie vervult, om de verwerking van grote hoeveelheden gegevens te versnellen. Met deze technologie kunnen opslagsystemen grote hoeveelheden gegevens verwerken met hoge snelheden, inclusief ongestructureerde gegevens, waardoor efficiënt gebruik kan worden gemaakt van de steeds groter wordende hoeveelheden gegevens, in die gevallen waarbij gebruik wordt gemaakt van videocamera's voor bewakingscamera's, het analyseren van logboeken van ICT-systemen, met behulp van een sensor gegevens van auto's en het analyseren van genetische gegevens.

Database

Momenteel is er een trend in ontwikkeling van innovatie en bedrijfstransformatie door het gebruik van grote hoeveelheden gegevens gegenereerd op verschillende frontlinies. Het gegevensvolume neemt exponentieel toe omdat er conventionele gestructureerde gegevens worden beheerd in een database, zoals klantgegevens en POS-gegevens, evenals ongestructureerde gegevens, zoals video- en loggegevens. Om efficiënt gebruik te kunnen maken van deze grote hoeveelheid gegevens, is er behoefte aan AI, machine learning en andere technologieën om de analyse te stroomlijnen. Conventioneel werden gegevens geanalyseerd in verwerkingsservers, maar als gegevens konden worden verwerkt in dezelfde systemen waar het is opgeslagen, wordt verwacht dat dit de snelheid van de verwerking van gegevensanalyses zou verhogen.

Server en Storage

Voor gegevensverwerking moet de verwerkingsserver de gegevens uit het opslagsysteem lezen. Naarmate het volume van de gegevensstroom tussen het opslagsysteem en de verwerkingsserver toeneemt, kan de tijd die nodig is om de gegevens te lezen een knelpunt worden bij het gebruik van grote hoeveelheden gegevens. Aan de andere kant wordt gegevensverwerking met hoge snelheden mogelijk wanneer de verwerking wordt uitgevoerd op het opslagsysteem zonder de gegevens te verplaatsen. Dit maakt het echter moeilijk om ongestructureerde gegevens die over het opslagsysteem zijn gedistribueerd te analyseren en om stabiele bewerkingen in de oorspronkelijke opslagfunctionaliteit van het systeem te handhaven.

Fujitsu technologie neemt deze problemen weg door:

1. Contentbewuste data-dispositie die elke gedistribueerde data-items kan verwerken
Om de toegangsprestaties te verbeteren, slaan gedistribueerde opslagsystemen geen grote hoeveelheden gegevens op dezelfde plaats op, maar breken de gegevens op in formaten die gemakkelijk te beheren zijn voor opslag. In het geval van ongestructureerde gegevens zoals video's en loggegevens kunnen afzonderlijke stukjes gegevens echter niet volledig worden verwerkt wanneer het bestand systematisch wordt opgesplitst in stukken met een gespecificeerde grootte en afzonderlijk wordt opgeslagen. Het was daarom noodzakelijk om de gedistribueerde gegevens opnieuw samen te voegen voor verwerking, waardoor het systeem aanzienlijk wordt belast. Door nu ongestructureerde gegevens op te splitsen langs natuurlijke breuken in de verbindingen binnen de gegevens, slaat deze technologie de gegevens op in een staat waarin de afzonderlijke stukken nog steeds kunnen worden verwerkt. Daarnaast is informatie die essentieel is voor verwerking (zoals informatie over de koptekst) aan elk gegeven gekoppeld.

2. Adaptieve resourcecontrole met opslagfunctionaliteit en gegevensverwerkingsmogelijkheden
Naast het gewone lezen en schrijven van gegevens, worden opslagknooppunten geconfronteerd met verschillende systeembelastingen om gegevens veilig te beheren, inclusief automatische herstelverwerking na een fout, verwerking van gegevensherverdeling nadat meer opslagcapaciteit is toegevoegd en schijfcontroleverwerking als onderdeel van preventieve onderhoud. Deze technologie modelleert de soorten systeembelastingen die plaatsvinden in opslagsystemen en voorspelt bronnen die in de nabije toekomst nodig zullen zijn. Op basis hiervan beheerst de technologie de gegevensverwerkingsresources en de toewijzing ervan, om de prestaties van de opslagfunctionaliteit van het systeem niet te verminderen. Dit maakt gegevensverwerking op hoge snelheid mogelijk terwijl nog steeds stabiele bewerkingen worden uitgevoerd voor de oorspronkelijke opslagfunctionaliteit.

Bijwerkingen
Fujitsu Laboratories implementeerde deze technologie in Ceph , een open source softwareoplossing voor gedistribueerde opslag, en evalueerde de effecten ervan. Vijf opslagknooppunten en vijf verwerkingsservers waren verbonden met een 1 Gbps-netwerk en gegevensverwerkingsprestaties werden gemeten bij het extraheren van objecten zoals personen en auto's uit 50 GB videogegevens. Met de conventionele methode duurde het 500 seconden om de verwerking te voltooien, maar met deze nieuw ontwikkelde technologie, kon de gegevensverwerking op de opslagknooppunten worden gedaan, zonder de noodzaak om de gegevens bij elkaar te brengen. Bovendien was de verwerking voltooid in 50 seconden, 10 keer de snelheid van de vorige methode. Deze technologie maakt schaalbare en efficiënte verwerking van explosief toenemende hoeveelheden gegevens mogelijk.
Plannen voor de toekomst

Fujitsu Laboratories zal deze technologie blijven controleren voor commerciële toepassingen, planning voor Fujitsu Limited om het tot een product te maken binnen het fiscale 2019.

Wil jij dagelijkse updates?

Schrijf je dan in voor onze nieuwsbrief!