Martijn Kregting - 23 juni 2022

Aanpassing prefix-beleid leidde tot megastoring bij Cloudflare

Aanpassing prefix-beleid leidde tot megastoring bij Cloudflare image

Een niet onaanzienlijk deel van websites en online diensten wereldwijd was onlangs tot enkele uren niet bereikbaar toen content delivery-netwerk Cloudflare zelf een storing veroorzaakte. Het incident begon om 0627 UTC (08.27 Nederlandse zomertijd) en duurde tot 0742 UTC (09.42 NL zomertijd) voordat het bedrijf erin slaagde al zijn datacenters weer online te krijgen en te verifiëren dat ze correct werkten.

De storing, aldus Cloudflare zelf, werd veroorzaakt door 'een verandering die deel uitmaakte van een langlopend project om de veerkracht op onze drukste locaties te vergroten'. In de praktijk was volgens The Register de directe aanleiding een wijziging in het prefix-beleid, wat resulteerde in de intrekking van een kritieke subset van prefixen.

Niet meer bereikbaar

Cloudflare maakt gebruik van BGP (Border Gateway Protocol). Als onderdeel van dit protocol bepalen operators welk beleid (aangrenzende IP-adressen) wordt bekend gemaakt aan of geaccepteerd door netwerken (of peers). Het wijzigen van beleid kan ertoe leiden dat IP-adressen niet meer bereikbaar zijn op internet.

De problemen voor Cloudflare begonnen al om 0356 UTC op 21 juni, toen de wijziging op de eerste locatie werd aangebracht. Deze locatie gebruikte een oudere architectuur in plaats van de nieuwe "flexibelere en veerkrachtigere" versie van Cloudflare, intern bekend als MCP (Multi-Colo Pop.). MCP verschilde van eerdere architecturen door een routeringslaag toe te voegen aan een netwerk van verbindingen. De theorie is dat onderdelen van het interne netwerk uitgeschakeld konden worden voor onderhoud. Cloudflare heeft MCP al uitgerold naar 19 van zijn datacenters.

Desastreus gevolg

Op 0617 UTC werd de wijziging doorgevoerd op een van de drukste locaties van het bedrijf, maar niet op een locatie met MCP. Tegen 0627 UTC had de verandering impact op de MCP-compatibele locaties en schakelde alle 19 locaties uit. Volgens The Register een desastreus gevolg dat men had moeten voorzien.

Vijf minuten later meldde het bedrijf een 'groot incident'. Binnen een half uur was de oorzaak gevonden en begonnen technici de wijziging ongedaan te maken. Toch duurde het tot 0742 UTC voordat alles compleet was. "Dit werd vertraagd omdat netwerkingenieurs elkaars wijzigingen doorliepen en de vorige terugzetten terugdraaiden, waardoor het probleem sporadisch opnieuw verscheen", aldus Cloudflare. The Register heeft Cloudflare om toelichting gevraagd.

Wil jij dagelijkse updates?

Schrijf je dan in voor onze nieuwsbrief!