In de middag van woensdag 4 november 2015 hebben wij de grootste storing in ongeveer vier jaar meegemaakt. Tijdens de voorbereiding van spoedonderhoud werd per abuis een configuratie in productie gebracht die nog niet af was. We balen er enorm van dat al onze klanten hier last van hebben gehad. In dit blog leggen wij uit wat er mis ging, en maken wij onze excuses.
Het leek een goed idee: ’s nachts onderhoud en overdag voorbereiden. Op die manier zouden alle aanpassingen klaar staan en kon het onderhoud snel uitgevoerd worden. Het is ons al jaren bekend dat ’s nachts het minst aantal klanten online zijn. Daarom voeren we altijd pas onderhoud uit als de grafieken aangeven dat het aantal actieve klanten op zijn laagst is.
Murphy’s Law dicteert dat alles dat fout kan gaan fout gaat. Zo kwam het dat een deel van onze voorbereidingen per ongeluk zijn weg vond naar de zogenaamde ‘live’ omgeving. Dat betekent dat zij al werden doorgevoerd zonder dat dit de bedoeling was. Op dat moment is het alle hens aan dek. Wat kort daarvoor een éénmansoperatie was, is binnen een minuut een probleem dat heel het bedrijf in zijn greep houdt.
Je kunt je voorstellen dat tijdens een grote storing de telefoon bij ons roodgloeiend staat. We spreken zo snel als mogelijk een storingsmelding in, die bellende klanten laat weten dat wij ermee bezig zijn. Daarnaast moet op de website duidelijk zijn dat wij van de storing weten. De ervaring leert dat onze klanten zeer schappelijk zijn, zolang zij weten dat er aan hun storing gewerkt wordt.
Geluk bij een ongeluk
Toen de storing optrad stonden wij voor een moeilijke keuze: doen we een zogenaamde ‘rollback’ en proberen we de configuratie terug te brengen naar wat hij kort daarvoor was, of pakken wij dapper door en ronden we het onderhoud dan ook maar af? Na een mislukte poging tot een rollback besloten wij voor dat laatste te kiezen.
Op ons interne chatkanaal was de stress goed zichtbaar. Vele berichten stroomden over het scherm terwijl de voltallige technische dienst naarstig werkte aan een oplossing. Hoewel een storing natuurlijk bijzonder vervelend is, geeft dat toch ook een stukje teamwork. De schaamte en frustratie werd dus deels afgewisseld met het warme gevoel dat je als één team aan het probleem werkt.
Ons spoedonderhoud was mede bedoeld om de ‘haperingen’ in pauzeren, opnemen en video-on-demand voor Sparql tegen te gaan. Al enkele weken waren er tijdens piektijden onverklaarbare haperingen zichtbaar. En dat was gek, want geen enkele router, server of netwerkverbinding gaf aan vol te zitten. We zouden die drukte dus gemakkelijk aan moeten kunnen.
Inmiddels lijkt het er voorzichtig op dat de update verbetering met zich meebrengt. Hoewel het wat vroeg is om te juichen, hebben wij de symptomen die eerder zichtbaar waren nog nauwelijks teruggezien. Dat betekent niet dat wij op onze lauweren zullen rusten, maar wel dat we een stap in de goede richting hebben gemaakt.
Een hart onder de riem
Op Twitter was een aantal klanten gelukkig erg sympathiek. We hebben erg gelachen om een aantal mensen dat zich afvroegen of wij wel genoeg koffie in huis hadden. Ook is ons van alle kanten succes gewenst met het oplossen van de storing.
We hebben erg leuke klanten en daar zijn we heel dankbaar voor. Hartelijk dank voor jullie steun en het hart onder de riem. Het heeft ons goed gedaan! En vanzelfsprekend ons welgemeende excuses voor dit ongemak. Wij zien alvast uit naar een nieuw record aan storingsvrije jaren!
De eerste wat ik deed toen de internet het niet meer thuis deed was kijk via mijn telefoon op tweak.nl. Ja hoor, daar stond het bericht. Ik heb het oplossen van het probleem rustig afgewacht. Geen probleem, kan gebeuren.
Zijn wij de enigen bij wie het nu nog steeds niet in orde is? Vrijwel dagelijks gedoe: opnieuw opstarten, wachten, opnemen lukt niet en afspelen van eerder opgenomen uitzendingen ook niet…
Dat is vervelend om te horen. Het klinkt wel als een individueel probleem dat niet direct met deze storing te maken heeft. Je kunt natuurlijk altijd contact met ons opnemen, dan zoeken wij een oplossing!