Betrouwbaarheid vs veerkracht vs fouttolerantie

Ekrem Koc

25-08-2022
Deel dit artikel:

Betrouwbaarheid vs veerkracht vs fouttolerantie

Niks is zeker behalve het onzekere. Deze stelregel is van toepassing op het leven, maar nog meer op een organisatie. Wanneer gegevens altijd beschikbaar en toegankelijk zijn, bestaan er veel onzekerheden die onderbrekingen in de gegevenstoegang veroorzaken. Deze onderbrekingen tasten gegevensintegriteit aan kunnen zelfs leiden tot gegevensverlies. Daarom hebben ze een direct nadelige invloed op de bedrijfscontinuïteit.

Het heeft gevolgen voor de omzet en winst als uw bedrijfskritische toepassingen en gegevens niet beschikbaar zijn wegens downtime. Uw bedrijf kan bijvoorbeeld te maken krijgen met inkomstenderving en productiviteitsdaling, maar ook uw operationele kosten kunnen hoger uitvallen door vertragingen bij het oplossen van een probleem en het herstellen van de status quo.

Er zijn er verschillende manieren om ervoor te zorgen dat gegevens op betrouwbare wijze worden opgeslagen en altijd beschikbaar en toegankelijk zijn, zodat het noodherstel goed verloopt en de bedrijfscontinuïteit niet in gevaar komt. Daarbij hebben IT-organisaties te maken met veel statistieken die helpen bij het definiëren van de Service Level Agreement (SLA's) die de kwaliteit van de dienstverlening inzichtelijk maken zodat ze voldoen aan compliance-eisen. Hieronder staat een aantal van deze data storage-statistieken en de mogelijke gevolgen voor het bedrijf.

1. Beschikbaarheid

Beschikbaarheid heeft betrekking op de uptime van het systeem. Dat wil zeggen: het percentage van de tijd dat het opslagsysteem beschikbaar en operationeel is, zodat gegevens kunnen worden geraadpleegd. Systemen met een hoge beschikbaarheid zijn ontworpen om downtime te minimaliseren en zo serviceverlies te voorkomen. Alle organisaties verwachten een hoge beschikbaarheid van hun toepassingen en zakelijke diensten. Dit kan niet worden bereikt door maar één IT-component. Hoge beschikbaarheid is namelijk afhankelijk van veel IT-infrastructuurcomponenten, waaronder de opslaghardware en -software. Deze moeten samenwerken en downtime minimaliseren door essentiële diensten snel te herstellen in het geval van een storing.

Beschikbaarheid wordt meestal berekend in het aantal negens. 1 negen = 90% beschikbaarheid, 2 negens = 99% beschikbaarheid, 3 negens = 99,9% beschikbaarheid, 4 negens = 99,99% beschikbaarheid, enzovoort. Het omgekeerde van beschikbaarheid is downtime. Dus als een opslagsysteem een jaarlijkse SLA heeft van 7 negens beschikbaarheid (99,99999%), dan heeft het over een jaar slechts 3,15 seconden downtime. U moet uw bedrijfsvereisten en de kosten daarvan volledig begrijpen om uw beschikbaarheidsdoelstellingen te kunnen bepalen en vaststellen. Ook serviceproviders bieden beschikbaarheids-SLA's aan als onderdeel van hun contracten.

Om de beschikbaarheid te verbeteren, maken organisaties doorgaans gebruik van replicatietechnieken waarbij redundante gegevenskopieën worden gemaakt om continue toegang tot gegevens mogelijk te maken. Het vermijden van ‘single points of failure’ is de sleutel tot het verbeteren van de beschikbaarheid van gegevens.

2. Duurzaamheid

Duurzaamheid verwijst naar continue gegevenspersistentie. Bedrijven hebben langetermijndoelen voor dataretentie. Dit wordt bereikt door de duurzaamheid van de data en de opslaginfrastructuur te verbeteren die deze gegevens bewaart. Vooral in de context van objectopslag, waar gegevens worden gearchiveerd en voor langere tijd worden bewaard, is het belangrijk om een hogere duurzaamheid te realiseren. Een hoog niveau van duurzaamheid zorgt er namelijk voor dat de gegevens niet lijden onder bitrot, degradatie, of een andere vorm van datacorruptie of gegevensverlies.

RAID alleen is onvoldoende. Door regelmatig backups te maken, door replication and erasure-coding en door WORM/immutability in te schakelen, kunnen gegevens worden verduurzaamd.

3. Betrouwbaarheid

Betrouwbaarheid wordt geassocieerd met de infrastructuur die de gegevens opslaat. Het verwijst naar de waarschijnlijkheid dat het opslagsysteem naar verwachting zal werken. Een opslagsysteem kan gedurende een bepaalde periode beschikbaar zijn, maar werkt misschien niet zoals verwacht. In dat geval zal de betrouwbaarheid laag zijn. Verschillende factoren dragen bij tot de betrouwbaarheid van een systeem. Het is niet eenvoudig om de betrouwbaarheid te meten. Een statistiek die wordt gebruikt om de betrouwbaarheid aan te geven is de gemiddelde tijd tussen storingen (Mean Time Between Failure, MTBF). MTBF is de voorspelde verstreken tijd tussen inherente storingen van een opslagsysteem tijdens normale werking. Als de MTBF hoog is, is dat een indicatie van een lage betrouwbaarheid.

Het opstellen van uitgebreide testprocedures kan nuttig zijn om het opslagsysteem te wapenen tegen storingen. Een juiste configuratie en goed onderhoud van hard- en software dragen ook bij aan een hogere betrouwbaarheid.

4. Veerkracht

Veerkracht beschrijft het vermogen van een opslagsysteem om zichzelf na een incident te herstellen. Hoge veerkracht betekent niet per se dat er een hoge beschikbaarheid van gegevens is. Het betekent alleen dat de opslaginfrastructuur voldoende is uitgerust om verstoringen te overwinnen. Veerkracht is geen op zichzelf staande norm; het omvat bedrijfscontinuïteit, respons op incidenten en hersteltechnieken om de omvang en duur van verstorende gebeurtenissen te beperken.

Een indicatie van veerkracht is het meten van de gemiddelde hersteltijd (Mean Time To Repair, MTTR), die aangeeft hoe lang het duurt om de opslaginfrastructuur weer operationeel te krijgen na een storing. Als de MTTR lager is, is de veerkracht beter.

De veerkracht van een opslagsysteem kan worden verbeterd door redundantie en failover en door software-defined intelligence in te bouwen voor de automatische detectie van problemen en zelfherstel.

5. Fouttolerantie

Fouttolerantie is vergelijkbaar met het concept van beschikbaarheid, maar het gaat nog een stap verder om downtime te minimaliseren. Terwijl een opslagsysteem met hoge beschikbaarheid een minimale onderbreking kent, kent een fouttolerant systeem geen onderbreking van de dienstverlening. Een fouttolerant systeem heeft een complexer ontwerp en is doorgaans vrij duur in onderhoud: er moeten constant active-active kopieën van gegevens worden gemaakt. Daarbij is automatisering nodig om over te schakelen als een onderdeel van een opslagsysteem defect raakt en downtime veroorzaakt. Deze failover wordt niet verstoord, zodat toepassingen en gegevenstoegang geen enkele impact ondervinden en het bedrijf blijft functioneren zoals verwacht.

Synchronous mirroring wordt veel gebruikt in de opslagwereld om fouttolerantie mogelijk te maken. Gegevens van het primaire opslagmedium worden synchroon gespiegeld naar een ander opslagmedium dat zich op dezelfde locatie of in een metrocluster bevindt. Automatische failover-, synchronisatie- en failback-mechanismen zorgen voor continue gegevenstoegang en bedrijfsactiviteiten die downtime te boven gaan. Recovery Point Objective (RPO) en Recovery Time Objective (RTO) worden op nul gehouden voor een volledig fouttolerant systeem.

Beschikbaarheid vs Duurzaamheid vs Betrouwbaarheid vs Veerkracht vs Fouttolerantie
Hopelijk heeft u een een beter begrip gekregen van deze bedrijfskritische data-opslag-statistieken en de verschillen daartussen. Architecten maken, als gevolg van de noodzakelijke, toenemende kosten, voortdurend afwegingen om hogere niveaus van deze vijf dimensies te bereiken. Zorg ervoor dat u hiermee rekening houdt bij het bouwen en optimaliseren van uw opslaginfrastructuur.

Door: Ekrem Koc (foto), Sales Director Benelux van DataCore Software

Terug naar nieuws overzicht