[Onderhoud] Preventief vervangen fileserver cluster 1

[Update] 02:25 – De ssh server van cluster 1 is door het vele wisselen van fileserver verstoord geraakt en is daardoor korte tijd onbereikbaar geweest. De server heeft een reboot gehad en is weer bereikbaar.

[Update] 02:15 – We zijn zojuist overgeschakeld naar de nieuwe fileserver hardware. Alles ziet er goed uit, behalve dat 1 van de disken de verhuizing niet tot het einde mee heeft mogen maken. We gaan de disk vervangen en dan is het onderhoud afgerond.

[Update] 02:00 – Nog een kleine tegenslag: Door een vreemde error werkten de synchronisatie scripts niet goed. We hebben ondertussen een oplossing gevonden, en hebben de synchronisatie naar de nieuwe fileserver gestart. Vanwege de enorme hoeveelheid data kan dit even duren.

[Update] 01:45 – Door de vertraging eerder bij het plaatsen van de nieuwe hardware, lopen we waarschijnlijk iets uit na 02:00 uur.

[Update] 01:32 – De nieuwe fileserver is geconfigureerd en klaar voor gebruik. We onderwerpen de machine nog even aan een paar kleine tests voordat we de data gaan overzetten. We gaan nu de fileserver van cluster 4 tijdelijk op read only zetten, om te zorgen dat we veilig een snapshot kunnen maken.

[Update] 01:20 – De machine is geboot en heeft netwerk connectiviteit. Zometeen als alle disken gecontroleerd zijn, kunnen we inloggen en beginnen met het overkopieren van het snapshot. Als dit klaar is schakelen we weer terug van de tijdelijke fileserver naar de nieuwe snelle fileserver voor cluster 1.

[Update] 01:15 – De disk arrays en de nieuwe fileserver hangen in de kast en zijn van stroom voorzien. De machine is aan het booten en zal dan zijn disken gaan controleren. Dit duurt even bij zo’n grote hoeveelheid disken.

[Update] 01:00 – We zijn nog steeds bezig met het omschroeven van het rack. Dit kost even wat tijd. We zijn ongeveer op de helft. Als de server zo in het rack hangt, opgestart is en verbonden is met het netwerk, is, zullen we een “snapshot” van de data zoals deze nu op de tijdelijke fileserver staat overzetten naar de nieuwe hardware. Maar eerst moet de server natuurlijk op zijn plek hangen.

[Update] 00:35 – We lopen in het datacenter tegen wat kleine pechjes aan. Omdat de disk arrays van de fileserver wat afwijken in de breedte (big data?), past het allemaal net niet in de kast! Onze technicus staat momenteel half in het rack, half op een ladder met een schroevendraaier afdekplaatjes te demonteren, om het allemaal in de kast puzzelen.

[Update] 00:20 – Cluster 1 draait momenteel tijdelijk op de fileserver waar ook cluster 4 al op draait. Op dit moment is onze technicus in het datacenter bezig met het verplaatsen van de oude fileserver, en de nieuwe daar voor in de plaats in het rack te hangen.

[Update] 00:00 – We gaan beginnen met het vervangen van de fileserver in cluster 1. De toegang tot de ssh server wordt uitgezet, en de schrijftoegang vanaf de webservers stopgezet.

[Update] 23:45 – We zijn begonnen met de voorbereidingen voor het fileserver onderhoud. Op dit moment maken we een extra backup. Zometeen om 12 uur stoppen we de schrijftoegang vanaf de web en ssh servers in cluster 1, om de downtime zo kort mogelijk te houden.

—

In de nacht van maandag 28 op dinsdag 29 april tussen 00:00 en 02:00 vervangen wij preventief de primaire fileserver van cluster 1 voor een nieuw exemplaar. Dit doen we omdat het huidige exemplaar het einde van haar levensduur nadert.

Indien je website op cluster 1 staat zullen je bestanden tijdens het onderhoudsvenster tweemaal enige minuten uitsluitend leesbaar zijn (read-only). Dit kan mogelijk de werking van je website beïnvloeden.

Je kunt via het Service Panel nagaan of jouw website(s) van dit cluster gebruik maakt/maken.

Storingsoverzicht.nl

Alle storingen op een rij

[Onderhoud] Preventief vervangen fileserver cluster 1