01 nov

Storing shared hosting (opgelost)

Op het moment ervaart PCextreme een onderbreking aangaande onze shared hosting dienstverlening. Het probleem lijkt wederom te worden veroorzaakt door onze opslag omgeving. Technici werken aan een oplossing.

Uiteraard pogen wij de hinder tot een minimum te beperken.

17:00
Op basis van de vorige ervaring hebben we naast onze eigen mensen direct de leverancier van het platform ingeschakeld. Ons systeembeheer kan namelijk tot slechts een bepaalde hoogte ingrijpen. De technici van deze leverancier zijn hier inmiddels mee bezig.

17:40
De veroorzaker van het probleem lijkt inmiddels te zijn gevonden in hardware falen van één van de caches van het storage platform. We werken aan herstel of een workaround.

19:00
De hardware die de problematiek in eerste instantie veroorzaakt heeft is uit het systeem verwijderd. We werken er in samenwerking met de leverancier aan om het platform met deze ingreep weer in te regelen. Dit proces duurt onverhoopt langer als verwacht.

20:18
Tot onze spijt wil het systeem maar niet op de gewenste snelheid komen waardoor we de diensten niet kunnen herstellen. We hebben alle mogelijke specialisten ingeschakeld om het probleem op te kunnen lossen. Zodra de dienstverlening is hersteld zullen we onze klanten een uitgebreide toelichting doen toekomen.

20:54
We zijn momenteel druk in overleg met specialisten uit de VS, we hopen dat samen zo snel mogelijk tot een oplossing te komen.

21:14
We lijken dichter in de buurt van de oorzaak van de problematiek te komen. Het lijkt te liggen bij het vertraagd schrijven van data-blokken (write-latency) naar het onderliggende opslagmedium.

21:37
Inmiddels zijn er aanpassingen gemaakt aan het platform. We gaan diensten na deze aanpassingen weer inschakelen en meten hoe het storage platform op de wijzigingen reageert.

22:12
Ongeveer de helft van de dienstverlening is nu voorwaardelijk online. We hopen aan de hand hiervan in te kunnen schatten of het systeem voldoende is om weer voor 100% online te gaan.

22:38 
Bij het inschakelen van meer diensten traden er helaas vertragingen op, we hebben dit moeten afbreken. We hopen spoedig weer een poging te wagen.

23:13
De lees/schijf transacties naar het onderliggende opslagmedium op het systeem gaan nog te langzaam. Er is nu gekozen om een failover te doen naar een “verse” node om verdere analyse te doen.

23:50
Ook het bovenstaande mocht niet baten, we krijgen nog steeds dezelfde waardes. Er zijn voor de zekerheid extra egineers naar het datacenter gestuurd, om in geval van worst-case senario delen of zelfs het gehele platform opnieuw op te bouwen.

00:00
In overleg is besloten de zogenaamde SAS-switches die het storage systeem met elkaar verbinden volledig weg halen. Hiervoor moet het systeem voor korte tijd uit. Een test heeft uitgewezen, dat deze switches mogelijk de oorzaak van de hoge latency zouden kunnen zijn. Wij verwachten deze handeling binnen de komende 30 minuten uit te voeren, en hopen uiteraard op een positief resultaat.

00:58
Het systeem is inmiddels weer online zonder de SAS-switches. Alles op de e-mail na is nu online. We zetten de e-mail zo snel mogelijk online wanneer het storage platform stabiel is. We willen benadrukken dat het weg halen van de SAS-switches geen invloed heeft op de redundantie van het systeem.

01:22
Het lijkt er op dat het bovenstaande niet veel effect heeft gehad. Bij het inschakelen van de e-mail kwam het latency probleem weer naar boven. We hebben de e-mail helaas weer uit moeten zetten. We kijken naar nu naar andere mogelijke oorzaken.

02:00
Er wordt momenteel een nieuw platform gebouwd/ingericht waar we met de data aan de slag willen. We hopen dat het niet zover komt dat deze ook daadwerkelijk ingezet hoeft te worden, maar nemen geen risico’s.

02:43
We lopen momenteel nog steeds tegen de beperkte schrijfsnelheid aan van het platform, waarvan de oorzaak maar niet te traceren lijkt. Dit probleem lijkt tevens ook aandeel gehad hebben in voorgaande storingen maar is toen niet aan het licht gekomen. Alle mogelijke resources worden geraadpleegd om het probleem te tackelen.

03:18
Onze leverancier heeft extra specialisten ingezet, we hopen hiermee sneller tot een oplossing te komen. We lijken tegen een complex probleem aan te lopen, welke zoals het er nu uit ziet nooit eerder is voorgekomen.

We vinden het zeer vervelend dat deze storing zolang blijft aanhouden, wij bieden nogmaals onze welgemeende excuses aan voor dit ongemak,

04:11
Er zijn wederom aanpassingen gemaakt waardoor we nu wel zichtbare verbetering zien van de snelheid waarop naar het systeem geschreven wordt. Inmiddels zijn ook de diensten weer zo’n 15 minuten online, echter is er nog één reboot van het platform nodig om enkele zaken uit te sluiten.

04:36
Alle diensten zijn weer online gekomen na de reboot en alles lijkt weer als vanouds te functioneren. Ons hele platform wordt nauwlettend gemonitord totdat we er zeker van zijn dat het probleem niet kan terug keren.