16 nov

SQL10 database server (opgelost)

Momenteel kampt PCextreme met een storing aan database server sql10.pcextreme.nl.
Websites die hiervan gebruikmaken kunnen een foutmelding geven.

Er wordt hard gewerkt e.e.a. z.s.m. weer online te hebben.

Update:
PCextreme heeft de storing snel weten op te lossen, alles zou weer naar behoren moeten werken.

15 nov

Veel inkomend verkeer (opgelost)

Op dit moment ervaart PCextreme explosief veel inkomend verkeer. Dit zou mogelijk een DDOS aanval kunnen zijn.
Hierdoor kunt u hinder ondervinden bij het bereiken van uw website.

Technici zijn de situatie aan het onderzoeken en doen hun uiterste beste om zo snel mogelijk een oplossing te vinden.

17:50 Er is inderdaad sprake van een aanval. Technici nemen nu de benodigde maatregelen om deze af te wenden.

17:50 Het afwenden is succesvol. PCextreme blijft het in de gaten houden en wanneer nodig grijpen technici in.

14 nov

Storing vps-pool-13 (opgelost)

Op dit moment ondervindt PCextreme een storing met vps-pool-13. De machine blijkt niet door te willen starten.

Ttechnici zijn op de hoogte en zijn op dit moment druk bezig de server weer zo spoedig mogelijk online te krijgen.

07:00 De machine had te kampen met een defecte disk. Deze is nu verwijderd en de raidset is aan het rebuilden.
De vpsen worden nu gestart. Tijdens het rebuilden kunt u een verminderde performance ervaren.
Naar verwachting zal dit binnen het uur zijn voltooid.

09:00: Omdat er een 2de disks gefaald is zullen beide disks per direct worden vervangen.

13 nov

Inkomende DDoS aanval (opgelost)

Op dit moment ondervind het netwerk van PCextreme een inkomende DDoS aanval.

Hierdoor kunt u problemen hebben bij het maken van IPv6 verbindingen en IPv4 verbindingen kunnen packetloss vertonen.
Technici zijn druk bezig verkeer om te routeren via andere kanalen om de overlast van de DDoS tot een minimum te beperken.

Update 19:47: Wij hebben de dDos weten af te wenden door het target IP te nullrouten. De problemen zouden vanaf nu verholpen moeten zijn.

08 nov

spoedonderhoud: vps-pool-08.kvm.pcextreme.nl

Tijdens routine werkzaamheden eerder vanavond schoot het root FileSystem van vps-pool-08.kvm.pcextreme.nl in read-only. Uw vps draai op een apart raidset en ondervind hierdoor geen hinder van dit incident. Echter kunt wel u problemen ondervinden met het gebruik van de vps-console.

Vannacht om 00:00 zullen wij de server rebooten om alles weer op orde te maken. Wij verwachten dat de server bij deze reboot en een korte FileSystem controle zonder problemen weer online zal komen. Naar verwachting zal de server met een kleine 30 minuten weer te bereiken waarna wij na enkele controles uw vps weer zullen starten.

Onze excuses voor het ongemak.

00:15: De server kwam bij de reboot zonder problemen online. bij het upgraden van de systeem software kwam echter een fout aan het licht. Er is besloten deze fout te verhelpen voordat uw vps weer zal worden gestart.

00:45: Om de fout te verhelpen is meer tijd nodig als geplanned. Wij doen ons best de server zo snel mogelijk weer beschikbaar te hebben.

01:15: De problemen lijken zich te bevinden in de (aparte) disk welke het root Filesystem bevat. Deze disk wordt momenteel vervangen en er zal een nieuwe installatie worden gedaan. Omdat uw vps-data op een apart raidset staat zal na de herinstallatie uw vps zonder data verlies worden opgestart. Naar verwachting zal het vervangen van de disk, herinstallatie en configuratie ongeveer 2 uur in beslag nemen.

03:20: De root disk is vervangen en uw vps’en zijn zojuist weer online gebracht.

07 nov

Storing dedi-pool-02.kvm (opgelost)

Op dit moment ondervindt PCextreme we een storing met dedi-pool-02.kvm.pcextreme.nl .

Er zijn enkele disks in de raid sets die op dit moment vervangen worden.
Hierna zal een rebuild proces van deze raid sets volgen.
Tijdens dat proces zullen de dedicated servers wel weer bereikbaar zijn, maar wellicht is een verminderde performance wel merkbaar.

22:45 De disks zijn vervangen en de dedicated servers zijn weer gestart.

02 nov

Storing router (opgelost)

Op het ogenblik ondervindt een deel van de colocatie dienstverlening bij PCextreme problemen met de connectiviteit als gevolg van een verstoring op een van onze routers.

De netwerkbeheer is inmiddels met dit incident bezig en werken uiteraard aan zo spoedig mogelijk herstel.

14:20
Inmiddels is de beperkte connectiviteit naar delen van ons netwerk herstelt. Excuses ten slotte voor het ontstane ongemak.

01 nov

Storing shared hosting (opgelost)

Op het moment ervaart PCextreme een onderbreking aangaande onze shared hosting dienstverlening. Het probleem lijkt wederom te worden veroorzaakt door onze opslag omgeving. Technici werken aan een oplossing.

Uiteraard pogen wij de hinder tot een minimum te beperken.

17:00
Op basis van de vorige ervaring hebben we naast onze eigen mensen direct de leverancier van het platform ingeschakeld. Ons systeembeheer kan namelijk tot slechts een bepaalde hoogte ingrijpen. De technici van deze leverancier zijn hier inmiddels mee bezig.

17:40
De veroorzaker van het probleem lijkt inmiddels te zijn gevonden in hardware falen van één van de caches van het storage platform. We werken aan herstel of een workaround.

19:00
De hardware die de problematiek in eerste instantie veroorzaakt heeft is uit het systeem verwijderd. We werken er in samenwerking met de leverancier aan om het platform met deze ingreep weer in te regelen. Dit proces duurt onverhoopt langer als verwacht.

20:18
Tot onze spijt wil het systeem maar niet op de gewenste snelheid komen waardoor we de diensten niet kunnen herstellen. We hebben alle mogelijke specialisten ingeschakeld om het probleem op te kunnen lossen. Zodra de dienstverlening is hersteld zullen we onze klanten een uitgebreide toelichting doen toekomen.

20:54
We zijn momenteel druk in overleg met specialisten uit de VS, we hopen dat samen zo snel mogelijk tot een oplossing te komen.

21:14
We lijken dichter in de buurt van de oorzaak van de problematiek te komen. Het lijkt te liggen bij het vertraagd schrijven van data-blokken (write-latency) naar het onderliggende opslagmedium.

21:37
Inmiddels zijn er aanpassingen gemaakt aan het platform. We gaan diensten na deze aanpassingen weer inschakelen en meten hoe het storage platform op de wijzigingen reageert.

22:12
Ongeveer de helft van de dienstverlening is nu voorwaardelijk online. We hopen aan de hand hiervan in te kunnen schatten of het systeem voldoende is om weer voor 100% online te gaan.

22:38 
Bij het inschakelen van meer diensten traden er helaas vertragingen op, we hebben dit moeten afbreken. We hopen spoedig weer een poging te wagen.

23:13
De lees/schijf transacties naar het onderliggende opslagmedium op het systeem gaan nog te langzaam. Er is nu gekozen om een failover te doen naar een “verse” node om verdere analyse te doen.

23:50
Ook het bovenstaande mocht niet baten, we krijgen nog steeds dezelfde waardes. Er zijn voor de zekerheid extra egineers naar het datacenter gestuurd, om in geval van worst-case senario delen of zelfs het gehele platform opnieuw op te bouwen.

00:00
In overleg is besloten de zogenaamde SAS-switches die het storage systeem met elkaar verbinden volledig weg halen. Hiervoor moet het systeem voor korte tijd uit. Een test heeft uitgewezen, dat deze switches mogelijk de oorzaak van de hoge latency zouden kunnen zijn. Wij verwachten deze handeling binnen de komende 30 minuten uit te voeren, en hopen uiteraard op een positief resultaat.

00:58
Het systeem is inmiddels weer online zonder de SAS-switches. Alles op de e-mail na is nu online. We zetten de e-mail zo snel mogelijk online wanneer het storage platform stabiel is. We willen benadrukken dat het weg halen van de SAS-switches geen invloed heeft op de redundantie van het systeem.

01:22
Het lijkt er op dat het bovenstaande niet veel effect heeft gehad. Bij het inschakelen van de e-mail kwam het latency probleem weer naar boven. We hebben de e-mail helaas weer uit moeten zetten. We kijken naar nu naar andere mogelijke oorzaken.

02:00
Er wordt momenteel een nieuw platform gebouwd/ingericht waar we met de data aan de slag willen. We hopen dat het niet zover komt dat deze ook daadwerkelijk ingezet hoeft te worden, maar nemen geen risico’s.

02:43
We lopen momenteel nog steeds tegen de beperkte schrijfsnelheid aan van het platform, waarvan de oorzaak maar niet te traceren lijkt. Dit probleem lijkt tevens ook aandeel gehad hebben in voorgaande storingen maar is toen niet aan het licht gekomen. Alle mogelijke resources worden geraadpleegd om het probleem te tackelen.

03:18
Onze leverancier heeft extra specialisten ingezet, we hopen hiermee sneller tot een oplossing te komen. We lijken tegen een complex probleem aan te lopen, welke zoals het er nu uit ziet nooit eerder is voorgekomen.

We vinden het zeer vervelend dat deze storing zolang blijft aanhouden, wij bieden nogmaals onze welgemeende excuses aan voor dit ongemak,

04:11
Er zijn wederom aanpassingen gemaakt waardoor we nu wel zichtbare verbetering zien van de snelheid waarop naar het systeem geschreven wordt. Inmiddels zijn ook de diensten weer zo’n 15 minuten online, echter is er nog één reboot van het platform nodig om enkele zaken uit te sluiten.

04:36
Alle diensten zijn weer online gekomen na de reboot en alles lijkt weer als vanouds te functioneren. Ons hele platform wordt nauwlettend gemonitord totdat we er zeker van zijn dat het probleem niet kan terug keren.

storingsoverzicht-logo
Privacyoverzicht

Deze site maakt gebruik van cookies, zodat wij je de best mogelijke gebruikerservaring kunnen bieden. Cookie-informatie wordt opgeslagen in je browser en voert functies uit zoals het herkennen wanneer je terugkeert naar onze site en helpt ons team om te begrijpen welke delen van de site je het meest interessant en nuttig vindt.