De storing van 4 november, wat ging er mis?

In de middag van woensdag 4 november 2015 hebben wij de grootste storing in ongeveer vier jaar meegemaakt. Tijdens de voorbereiding van spoedonderhoud werd per abuis een configuratie in productie gebracht die nog niet af was. We balen er enorm van dat al onze klanten hier last van hebben gehad. In dit blog leggen wij uit wat er mis ging, en maken wij onze excuses.

Het leek een goed idee: ’s nachts onderhoud en overdag voorbereiden. Op die manier zouden alle aanpassingen klaar staan en kon het onderhoud snel uitgevoerd worden. Het is ons al jaren bekend dat ’s nachts het minst aantal klanten online zijn. Daarom voeren we altijd pas onderhoud uit als de grafieken aangeven dat het aantal actieve klanten op zijn laagst is.

Schermafbeelding 2015-11-05 om 10.01.03

Murphy’s Law dicteert dat alles dat fout kan gaan fout gaat. Zo kwam het dat een deel van onze voorbereidingen per ongeluk zijn weg vond naar de zogenaamde ‘live’ omgeving. Dat betekent dat zij al werden doorgevoerd zonder dat dit de bedoeling was. Op dat moment is het alle hens aan dek. Wat kort daarvoor een éénmansoperatie was, is binnen een minuut een probleem dat heel het bedrijf in zijn greep houdt.

Je kunt je voorstellen dat tijdens een grote storing de telefoon bij ons roodgloeiend staat. We spreken zo snel als mogelijk een storingsmelding in, die bellende klanten laat weten dat wij ermee bezig zijn. Daarnaast moet op de website duidelijk zijn dat wij van de storing weten. De ervaring leert dat onze klanten zeer schappelijk zijn, zolang zij weten dat er aan hun storing gewerkt wordt.

Geluk bij een ongeluk

Toen de storing optrad stonden wij voor een moeilijke keuze: doen we een zogenaamde ‘rollback’ en proberen we de configuratie terug te brengen naar wat hij kort daarvoor was, of pakken wij dapper door en ronden we het onderhoud dan ook maar af? Na een mislukte poging tot een rollback besloten wij voor dat laatste te kiezen.

Op ons interne chatkanaal was de stress goed zichtbaar. Vele berichten stroomden over het scherm terwijl de voltallige technische dienst naarstig werkte aan een oplossing. Hoewel een storing natuurlijk bijzonder vervelend is, geeft dat toch ook een stukje teamwork. De schaamte en frustratie werd dus deels afgewisseld met het warme gevoel dat je als één team aan het probleem werkt.

Schermafbeelding 2015-11-05 om 09.59.07

Ons spoedonderhoud was mede bedoeld om de ‘haperingen’ in pauzeren, opnemen en video-on-demand voor Sparql tegen te gaan. Al enkele weken waren er tijdens piektijden onverklaarbare haperingen zichtbaar. En dat was gek, want geen enkele router, server of netwerkverbinding gaf aan vol te zitten. We zouden die drukte dus gemakkelijk aan moeten kunnen.

Inmiddels lijkt het er voorzichtig op dat de update verbetering met zich meebrengt. Hoewel het wat vroeg is om te juichen, hebben wij de symptomen die eerder zichtbaar waren nog nauwelijks teruggezien. Dat betekent niet dat wij op onze lauweren zullen rusten, maar wel dat we een stap in de goede richting hebben gemaakt.

Een hart onder de riem

Op Twitter was een aantal klanten gelukkig erg sympathiek. We hebben erg gelachen om een aantal mensen dat zich afvroegen of wij wel genoeg koffie in huis hadden. Ook is ons van alle kanten succes gewenst met het oplossen van de storing.

Schermafbeelding 2015-11-05 om 10.29.11

We hebben erg leuke klanten en daar zijn we heel dankbaar voor. Hartelijk dank voor jullie steun en het hart onder de riem. Het heeft ons goed gedaan! En vanzelfsprekend ons welgemeende excuses voor dit ongemak. Wij zien alvast uit naar een nieuw record aan storingsvrije jaren!

Twitterbericht over de storing van 4 november

Category : Algemeen
Tags :