AWS: teveel server toevoegingen leidde tot storing

30-11-2020 | door: Redactie

AWS: teveel server toevoegingen leidde tot storing

Amazon heeft meer details gegeven over de oorzaak van haar recente storing, die onder andere een MSP dienst van Connectwise raakte. De oorzaak ligt bij het toevoegen van servers waardoor de maximumcapaciteit werd bereikt.

Op 25 november rond 19 uur Nederlandse tijd gingen een aantal AWS-diensten onderuit. Het ging om de Kinesis servers in de US-EAST-1 regio. De panne duurde vrijwel de hele avond en nacht, waarbij verschillende clouddiensten het lastig kregen.

AWS geeft nu meer uitleg over de storing. Het probleem is ontstaan doordat Amazon extra capaciteit (servers) had toegevoegd aan haar Kinesis service, een dienst die zowel door klanten als door de eigen operaties van AWS worden gebruikt.

Die servers moeten onderling communiceren en elke server maakt threads aan voor de communicatie met andere Kinesis servers. Maar het gaat hier om een vloot van duizenden servers waardoor het bij een uitbreiding al snel een uur kan duren voor die extra toepassingen in de hele vloot zijn opgenomen.

Service

De problemen zijn specifiek ontstaan omdat door de uitbreiding het maximum aantal threads is overschreden. Dat probleem werd aangepakt, maar verplichtte AWS tot een herstart van de service. Maar omdat dat slechts kan met een paar honderd servers tegelijk, duurde de herstart bijzonder lang.

Threads

AWS zegt dat het probleem nu op lange termijn wordt aangepast. In eerste instantie door servers met krachtigere CPU's en meer geheugen in te zetten, waardoor er minder servers in totaal nodig zijn, en dus minder threads worden aangemaakt. Tegelijk werkt het aan het alarm om tijdig te zien dat er te veel threads worden gebruikt, en worden bepaalde grote diensten, zoals CloudWatch, afgescheiden van de servervloot, zodat zij minder last hebben van gelijkaardige problemen.

In samenwerking met Datanews

Terug naar nieuws overzicht
Cloud