10 feb

Grote storing Prolocation datacenter

begintijd 10 februari 2015 – rond 11:00
eindtijd 11 februari 2015 – ochtenduren

Momenteel ondervinden websites van onder andere de Rijksoverheid storing en zijn niet bereikbaar. Oorzaak ligt bij een significante storing bij de hosting provider Prolocation.

De oorzaak lijkt te liggen op netwerk niveau. De routing laat zien dat de backbone van Prolocation traffic dropt. In ieder geval komt er geen traffic vanuit Openpeering, waar de meeste verbindingen via routen naar hun netwerk, meer door.

Update 11 februari 2015 – 11:40

Prolocation directeur plaatste eerder vanochtend in de reacties van het artikel de volgende verklaring:

Beste Klant,

Gisteren om 09:45 uur is geconstateerd dat de bereikbaarheid van een aantal van de gehoste websites en diensten is weggevallen.

Na eerste analyse bleek dat het een grote verstoring in de datacentra betrof en zijn er twee teams van engineers ter plaatse gegaan voor analyse en oplossing. Het probleem was dermate complex, dat er voor de analyse veel tijd nodig was: de symptomen wezen in eerste instantie op een technische verstoring, echter bleek het om een aanval van buitenaf te gaan. De aanval had het karakter van een DDOS, zonder dat het heel veel verkeer genereerde. Na deze constatering is er direct begonnen met het wegfilteren van dit verkeer, dat er toe leidde dat begin van de avond (19:07 uur) de websites weer beschikbaar was. De aanval is hierna gestopt, waardoor we geen diepgaande loggings (dumps) hebben kunnen zeker stellen. Vervolgens zijn de laatste werkzaamheden verricht en hebben we technische testen uitgevoerd om vast te stellen dat de websites weer goed functioneren.

Telefonisch zijn we tijdens deze periode niet altijd even goed bereikbaar
geweest. Onze telefooncentrale maakt gebruik van een VOIP verbinding die over ditzelfde netwerk liep. We gaan dit de komende dagen aanpassen. Excuus daarvoor. We zullen dat verbeteren.

We willen jullie bedanken voor het begrip en steun tijdens het oplossen.
Er zal een outage report worden opgesteld die op onze website te downloaden zal zijn. Of op verzoek sturen we deze natuurlijk graag toe.

Natuurlijk zijn we de rest van de week beschikbaar voor het beantwoorden van aanvullende vragen. Om eventuele onduidelijkheid weg te nemen.

Met vriendelijke groet,
Raymond Dijkxhoorn – Prolocation

Update 11 februari 2015 – 10:15

De Rijksoverheid heeft zojuist een verklaring afgegeven over de storing en bevestigt officieel de DDoS aanval.

Update 11 februari 2015 – 09:43

Volgens Prolocation ligt de oorzaak van de storing bij een DDoS aanval op hun netwerk. Hierbij is volgens Prolocation samengewerkt met het NCSC (Nationaal Cyber Security Centrum). Een uitgebreide verklaring is nog niet voorhande.

Wat erg verbaasd is dat het zo lang heeft moeten duren om tot de verklaring te komen. Een DDoS aanval, wat feitelijk betekent dat veel computers de pijplijnen naar een server of meerdere servers dichtgooien door gigantisch veel verkeer er naartoe te sturen, is vrij direct aan het begin van een dergelijke aanval te zien. Het roept verschilende vragen op:

Waarom werd er niet gecommuniceerd over een DDoS, terwijl het feitelijk al heel snel gespot kon worden? Hadden ze het gewoon niet door?

Wanneer is de DDoS werkelijk gespot intern en wanneer is men werkelijk gestart met DDoS mitigation? Welke middelen zijn daarbij ingezet?

Is het Prolocation netwerk of zijn belangrijke delen ervan voorzien van DDoS protectie?

Hoe kan het gehele core netwerk van zo’n belangrijke partij door een DDoS geraakt worden, terwijl andere partijen hun core spreiden/segmenteren om dit soort redenen?

Update 11 februari 2015 – 09:30

De storing is inmiddels zo goed als verholpen. Een samenvatting van de gebeurtenissen:

1. Op dinsdag 10 februari 2015 11:00 krijgen wij steeds meer signalen dat er iets mis is in een datacenter in de omgeving van Amsterdam. Het bleek uiteindelijk om Prolocation te gaan. De storing treft direct sites als Rijksoverheid.nl, GeenStijl.nl en Telfort.nl

2. Er wordt rond het middaguur gesproken over glasvezelbreuk, maar het bericht blijft de uren erna onbevestigd.

3. Rond 14:30 melden enkele partijen weer verbinding te hebben, maar dit wordt vrijwel direct ingetrokken. De storing duurt voort.

4. De uren erna wordt zichtbaar dat men vanalles probeert om het verkeer weer op gang te krijgen, maar zonder enig resultaat. Het netwerk van Prolocation is volledig onbereikbaar. Ook de informatievoorziening van Prolocation blijft uit. Inmiddels hebben we monitoring opgezet op verschillende paden, om de ontwikkelingen real-time in de gaten te houden vanuit Amsterdam en Londen.

5. Om 19:10 meldt één monitoring pad dat de routing naar het Prolocation netwerk weer doorkomt. Het blijkt om een webserver cluster te gaan bij Prolocation, waar kleinere sites op gehost worden. Na wat testen blijken inderdaad de sites op die cluster weer bereikbaar. Dit is de eerste melding vanaf het begin van de storing, dat er weer werkelijk herstel heeft plaatsgevonden.

6. Niet veel later blijken Rijksoverheid.nl en Telfort.nl via IPv6 bereikbaar te zijn. Rond 19:50 kunnen ook normale verbindingen, via IPv4, bij de sites en zijn vanaf dan hersteld. Helaas is op dat moment nog steeds een deel van het netwerk down.

7. Net na 22:00 zien we de resterende sites online komen. De storing lijkt bijna geheel voorbij, al zien we dat de site van Prolocation zelf het amper doet en houden slag om de arm.

Update 10 februari 2015 – 00:00

De dag eindigt met nog steeds de aanhoudende problemen op de site van Prolocation zelf en waarschijnlijk een klein deel sites/applicaties welke van klanten nog niet bereikbaar zijn.

Update 10 februari 2015 – 23:18

Het is even in de gaten gehouden en de Prolocation site laadt maar af en toe en heel traag, maar klapt er ook weer vaak uit. Vermoeden dat er toch nog een klein deel niet goed loopt.

Update 10 februari 2015 – 22:55

De storing is nog niet voorbij. Onder andere de site van Prolocation zelf is nog niet bereikbaar.

Update10 februari 2015 – 22:35

Prolocation heeft afgelopen weekend nog werkzaamheden uitgevoerd aan haar netwerk.  De directeur van Prolocation bestempelt het op Facebook als ‘Weekendje fiberen’. Of dit ermee te maken heeft, is nog onduidelijk. Op basis van alle grote storingen die wij hebben gemeld in de afgelopen jaren, komt recentelijk onderhoud hoog op de lijst uit als oorzaak van storingen. Prolocation heeft de hele dag nog geen enkele update gegeven omtrent de grote storing op haar netwerk.

Prolocation directeur sleutelt aan Prolocation netwerk

bron: ISPam.nl

Update10 februari 2015 – 22:25

Ook het deel wat eerder niet bereikbaar was, is zojuist online gekomen. Of de gehele storing daarmee is opgelost, is nog lastig te zeggen. Het grootste gedeelte is in ieder geval weer online.

Update 10 februari 2015 – 20:00

Het is nog niet voor iedereen feest. Een deel ligt er nog steeds uit. We krijgen signalen dat de problemen liggen bij de core switches van Prolocation. Dit kunnen we niet vanuit onze observaties direct bevestigen, maar de routing problematiek kan wel verband houden met het falen van dergelijke switches.

Update 10 februari 2015 – 19:50

Rijksoverheid.nl en Telfort.nl zijn zojuist weer online!

Update 10 februari 2015 – 19:25

Een webserver cluster van Prolocation lijkt weer bereikbaar. We kunnen nu enkele sites op die cluster bereiken. Het gaat hier om wat kleinere sites (voorbeeld1, voorbeeld2) die bij Prolocation gehost worden. De grote jongens liggen er nog steeds uit, routing paden komen daar nog steeds border routing van Prolocation niet voorbij.

Update 10 februari 2015 – 19:14

Eerste lichtpuntje van de avond. Eén van de paden liet plots een volledig pad zien en na het checken is dit de eerste webserver die vanaf Prolocation weer reageert:

prolocation storing

Het routing pad loopt via OpenPeering zonder enige omleiding. Routing lijkt op dit stuk goed te gaan.

Update  10 februari 2015 – 18:48 uur

Men lijkt weer sinds enkele minuten te sleutelen aan de routing. Een deel van de paden eindigt wederom in een routing loop. Een ander deel lijkt nu via Interoute te lopen, wat ook weinig uithaalt.

Update 10 februari 2015 – 18:20 uur

Nu is de vraag bij sommige: wie of wat is Prolocation? Prolocation is een bedrijf wat je het beste kan omschrijven als managed hosting/network service provider. De gemiddelde persoon stapt voor z’n website naar een hosting provider en neemt een hosting pakket voor een paar euro af.

De grotere sites of meer professionele instanties hebben zodanig verkeer en/of servers nodig, dat men die zorgen liever uit handen geeft. Dergelijke sites vergt gewoon meer techniek, kennis en zijn veeleisend, zoals het eisen van high availability (= dat de site eigenlijk in alle omstandigheden blijft werken en de infrastructuur daarin voorziet). Er hangt hier ook een flink prijskaartje aan en deze providers doen ook meestal enkel partijen zoals de overheid en partijen waarvan de website zeer bedrijfskritisch is.

Je kan zowel connectiviteit (dan koop je feitelijk enkel de verbinding en plaats je servers en andere datacenter faciliteiten die je zelf koopt) of ook managed servers (dat zijn servers door hun gekocht en ook in hun beheer) bij dit soort partijen afnemen. Een site als GeenStijl neem bijvoorbeeld beide af.

Men spreekt ook vaak iets over SLA af, wat inhoudt dat de hosting partij minimaal een bepaalde beschikbaarheid van de site of server moet leveren. Doen ze dat niet, dan heeft dat (financiële) gevolgen. Ook kunnen er zaken afgesproken worden over redundantie, security, etc.

Update  10 februari 2015 – 18:00 uur

Eet smakelijk! Ondertussen bereikt de storing zelfs nu de politiek. PVDA wilt nu opheldering hebben waarom de site van Rijksoverheid er zo lang uit kan liggen en geen backup voorhande is.

Update 10 februari 2015 – 17:30 uur

Afgelopen 45 minuten geen nieuwe ontwikkelingen. Alle paden zijn constant en laten geen nieuwe omleiding pogingen zien.

Update 10 februari 2015 – 17:07 uur

Prolocation heeft zelf ongeveer een uur geleden op Twitter aangegeven dat ze ‘momenteel een netwerkstoring ondervinden’. Alhoewel de rest van Nederland dat al wist, laat men ook weten de oorzaak nog niet achterhaald te hebben.

Update 10 februari 2015 – 16:56 uur

Zien nu inderdaad dat het niet geheel gelijk is qua routing. Eén van onze locaties komt vanaf Telia  en die geven nog routing via Atrato naar Prolocation. De rest komt wel direct op OpenPeering weer uit en willen via daar naar Prolocation. Beide raken de border routing van Prolocation nu wel aan, maar komen niet verder.

Update 10 februari 2015 – 16:47 uur

Op dit moment monitoren we de routing paden vanaf drie locaties, waaronder een datacenter nabij die van Prolocation en een datacenter in Londen. Drie verschillende backbones en dus ook internationaal. Alle paden komen momenteel uit op dezelfde routing.

Dit gebeurt om zeker te weten dat we vanaf verschillende netwerken kunnen zien of er echt progressie is en om te kijken of bepaalde netwerken geen aparte omleiding hebben als dubbelcheck.

Update 10 februari 2015 – 16:40 uur

Het omleiding avontuur lijkt voor nu even voorbij. De routing paden gaan nu allemaal weer richting en via OpenPeering. Terug bij af.

Update 10 februari 2015 – 16:35 uur

Een paar grote sites zijn de storing blijkbaar zo zat, dat ze tijdelijk een ander onderkomen hebben gezocht. Zo zijn GeenStijl.nl en Glamora.ma tijdelijk bij Tumblr ondergebracht en serveren nu een wat kalere site.

Update 10 februari 2015 – 16:24 uur

Zien nu ook Telia voorbij komen in de verwoede pogingen om weer verbinding te krijgen. Het verkeer vliegt af en toe alle kanten op over verschillende paden, maar vliegt vervolgens ook weer in het niets met routing die volledig in de soep loopt.

Update 10 februari 2015 – 16:04 uur

Na wat vage routing loops ook via de nieuwe omleiding, is er nog weinig vooruitgang in het afgelopen half uur geboekt.

Update 10 februari 2015 – 15:48 uur

We zien nu wat men probeert te doen. Het pad naar OpenPeering is er bij 1 zojuist uitgegooid en routen nu via Atrato naar dezelfde border router bij Prolocation. Wat verder nog hetzelfde resultaat oplevert.

Update 10 februari 2015 – 15:45 uur

We zien plots op één van de routing paden omleidingen naar Telia en Atrato IP verschijnen. Al zien we ook gelijk dat die niet goed geconfigureerd zijn en uitmonden in zogenaamde routing loops. Feitelijk daarmee even ver van huis.

Update 10 februari 2015 – 15:40 uur

Zojuist is een nieuwe deel van de backbone even online geweest. Het is de routing meer richting de endpoints (= servers).  Ook hier weer zware package losses en daarna offline.

Update 10 februari 2015 – 15:31 uur

Zojuist wordt hier de gehele routing naar de Prolocation backbone zichtbaar. Het klappert als een gek. Het komt heel even op en vliegt er ook geheel weer uit. Men is duidelijk op de backbone bezig de zaken online te krijgen.

Update 10 februari 2015 – 15:27 uur

Prolocation border router die OpenPeering accepteert, lijkt nu stabiel. De rest van de Prolocation backbone is echter nog niet zichtbaar.

Update 10 februari 2015 – 15:20 uur

Nog meer leven! De tweede routing hop achter de border routing die OpenPeering traffic accepteert meldt zich weer. Package loss op beide suggereert dat beide nog geen raad weten met de traffic en gewoon vrijwel alles droppen.

Update 10 februari 2015 – 14:55 uur

De sites die melden dat ze bereikbaar zijn, routen allen via Telia. Of dit de standaard routing of omleidingen zijn, is niet te zien. Alles wat niet via Telia route, lijkt nog down.

Update 10 februari 2015 – 14:41 uur

Volgens de laatste berichten gaat het toch om een glasvezelbreuk richting een TeleCity datacenter. Engineers blijken ook onsite te zijn en reparaties uit te voeren. De oplossing lijkt nu nabij. Sommige sites melden voorzichtig, dat deze weer bereikbaar zijn.

Voor wat we hier zien wordt de connectie inderdaad wel opgezet, maar de sites zelf laden nog niet. Via OpenPeering komt er in ieder geval nog geen traffic door.

Update 10 februari 2015 – 14:12 uur

De storing duurt voort. Er wordt nu gesuggereerd dat het toch niet aan een glasvezelbreak ligt. Waar het wel aan ligt? Dat is een vraag waar nog werkelijk niemand antwoord op lijkt te hebben, naast het feit dat de communicatie vrijwel nog steeds 0 is vanuit de getroffen hosting partij. Wederom kunnen we hierdoor geen mogelijke oplostijd melden.

Update 10 februari 2015 – 12:55 uur

Op dit moment is er nog geen oplossing in het vooruitzicht. De communicatie vanuit Prolocation is naar de meeste partijen toe vrijwel nihil. Oplostijd is daarom ook onbekend.

Update 10 februari 2015 – 12:00 uur

Er wordt nu gesproken over een gebroken glasvezel kabel in de regio van Amsterdam, die de peering richting hun datacenter verstoord.

Update 10 februari 2015 – 11:55 uur

Zowel providers (Domeinbalie, Telfort) als grote sites zoals GeenStijl.nl zijn getroffen door deze storing. Domeinbalie meldt inmiddels dat de problemen bij hun weer lijken te herstellen. Bij de overig getroffen zien we op dit moment nog geen herstel.

37 reacties op deze storing:

  1. Het is ook wat . de ooraak komt uit Rotterdam . er is maar een persoon die ( DDos) gebruikt om een geschil met de overheid , Uit te vechten.. zeg maar .. en het is zo opgelost . als je maar de juiste vrienden hebt ..

    • Beste Klant,

      Gisteren om 09:45 uur is geconstateerd dat de bereikbaarheid van een aantal van de gehoste websites en diensten is weggevallen.

      Na eerste analyse bleek dat het een grote verstoring in de datacentra betrof en zijn er twee teams van engineers ter plaatse gegaan voor analyse en oplossing. Het probleem was dermate complex, dat er voor de analyse veel tijd nodig was: de symptomen wezen in eerste instantie op een technische verstoring, echter bleek het om een aanval van buitenaf te gaan. De aanval had het karakter van een DDOS, zonder dat het heel veel verkeer genereerde. Na deze constatering is er direct begonnen met het wegfilteren van dit verkeer, dat er toe leidde dat begin van de avond (19:07 uur) de websites weer beschikbaar was. De aanval is hierna gestopt, waardoor we geen diepgaande loggings (dumps) hebben kunnen zeker stellen. Vervolgens zijn de laatste werkzaamheden verricht en hebben we technische testen uitgevoerd om vast te stellen dat de websites weer goed functioneren.

      Telefonisch zijn we tijdens deze periode niet altijd even goed bereikbaar
      geweest. Onze telefooncentrale maakt gebruik van een VOIP verbinding die over ditzelfde netwerk liep. We gaan dit de komende dagen aanpassen. Excuus daarvoor. We zullen dat verbeteren.

      We willen jullie bedanken voor het begrip en steun tijdens het oplossen.
      Er zal een outage report worden opgesteld die op onze website te downloaden zal zijn. Of op verzoek sturen we deze natuurlijk graag toe.

      Natuurlijk zijn we de rest van de week beschikbaar voor het beantwoorden van aanvullende vragen. Om eventuele onduidelijkheid weg te nemen.

      Met vriendelijke groet,
      Raymond Dijkxhoorn – Prolocation

  2. Wat veel erger is dat ik als klant de service desk niet kan bereiken en dat we sinds het probleem is opgetreden geen communicatie (in wat voor vorm dan ook – zelfs rooksignalen was okay geweest). Dit gaat nog een staartje hebben

    • Arie, ik heb liever dat ze keihard werken om de boel weer in orde te krijgen, dan dat ze urenlang aan klantenservice kwijt zijn. Prolocation is een altijd een zeer goede provider geweest en is dat nog, laten we eerst eens afwachten wat de oorzaak is alvorens te gaan piepen.

      • Dan kun je nog zo’n goede ISP zijn met hoge uptime, maar een melding richting de klanten kan er niet af? dan ben je als bedrijf geen knip voor de neus waard en respecteer je je eigen klanten niet. Natuurlijk gaan ze niet sub-klanten (klanten van klanten) informeren, maar zelfs rechtstreekse klanten krijgen geen melding of status update.

        Verwerpelijk gedrag

  3. Ik zie verschillende IX-en en noc’s voorbij komen
    o.a.
    prolocation.telecity2.nl-ix.net
    openpeering.nikhef.nl-ix.net
    openpeering.prolocation.net

    Intern is het een bende, ik las ergens dat ze mss problemen hebben met hun border switches (kan zo ff niet vinden waar)

  4. Dit is geen glasvezel probleem, dat is vanaf het begin een onzin verhaal. De routers bleven ten alle tijden bereikbaar voor de buitenwereld. Dit is een intern probleem bij de provider en kennelijk hebben ze geen redundancy. Dit is voor een hosting provider in deze tijd om je kapot te schamen.

    • Ik kan inderdaad ook niet anders concluderen dan dat dit geen glasvezel probleem kan zijn, het moet haast wel dat dit een intern probleem is.
      Zou zeggen leer je les van de grote websites die ondanks de storing wel online zijn gebleven en voer altijd alles netjes redundant uit over meerdere datacenters. Dit dus juist voor het geval een van de datacenters faalt.
      Zou me kapot schamen als ik als datacenter meerdere redundante verbindingen pretendeer te hebben maar een dergelijke storing toch mogelijk is door het wegvallen van een verbinding (waarvan de routers inderdaad tijdens de storing bereikbaar zijn gebleven voor de buitenwereld).

    • Dit verhaal klopt dus totaal niet. De hele backbone was een tijd geheel niet bereikbaar vanaf verschillende peering providers. De border routing kwam pas laat op de middag weer tot leven zoals de updates al laten zien.

      Sterker nog, zelfs die valt nu nog af en toe weg en de rest van de backbone heeft zich letterlijk een paar keer sporadisch laten zien. Het is zo instabiel als maar kan. De backbone mag voor zichzelf als onderlinge cluster misschien bereikbaar zijn, maar daar heb je als buitenwereld weinig aan.

      • Prachtig, maar je backbone ligt – normaliter – redundant in verschillende glasvezel paden, *niet* 50cm onder een stoeptegel. De kans dat beide van deze kabels geraakt worden is 0.

        Daarnaast testen jullie zo te zien pas sinds 14.00 +/- dus om te roepen dat de routers ook offline waren, erg onzinnig. De routers waren toen de storing begon prima te bereiken vanuit onze netwerken. Het leek direct vanaf het begin al een interne situatie, niets wat direct aanleiding had om een glasvezelbreuk als oorzaak aan te duiden. En áls dit al aan een fiber zou liggen is het dus evident dat er van redundancy, planning of capaciteitsbeheer geen sprake is. Totale aanfluiting.

      • Dit punt gaat meer over redundantie en de uitvoering ervan. Iedereen in de provider wereld weet dat redundantie een heel leuk buzzword is, maar ook bakken met geld kost om goed uit te voeren. Zeker als men het over de hele linie en op alle lagen van het hosting product wilt uitvoeren, naast de nodige kennis die vereist is. Dat was en zal voorlopig nog wel een lopende discussie blijven tussen redundantie en de kosten. Die twee lijken nog geen volmaakt huwelijk te hebben.

      • Het klinkt bijna alsof jullie erg veel eigenbelang hebben bij prolocation… maar zeggen dat het hier aan de glasvezel verbindingen zou liggen klopt echt niet of is slechts een heel klein deel van het verhaal.

  5. Een back-up route path mag nooit op de zelfde logical poort uitkomen op “een” router ergens. Dit moet liefst zelfs op een andere router uitkomen… maar tenminste een andere physical port.. Routing voor dummies !!

  6. Update svp. Ik heb klanten wachten !! Glasvezel lassen hoeft niet zo lang te duren…. ( de straat ligt toch al open, of in een comms-ruimte). Of re-route het verkeer… daar hebben we toch routing protollen voor…. er moet toch een back-up route zijn !? Kom op zeg !

  7. Op ttp://www.webhostingtalk.nl/hosting-nieuws/187670-nieuws-websites-telfort-en-rijksoverheid-offline-door-storing-bij-prolocation.html staat ook het een en ander.

    Het duurt wel lang voor zo’n grote partij moet ik zeggen. En hoe zit het met de retentie?

  8. Mihosnet geeft aan geen zaken te doen met Prolocation. Hun storing staat dus compleet los van de storing van Prolocation.

    • Ze hebben het zo gebracht dat ze er wat mee te maken hadden, dus niet heel slim van ze. Hier gaan we nu uit van wat we werkelijk kunnen zien, aangezien de informatievoorziening van Prolocation of anderen niet betrouwbaar genoeg lijkt.

    • Zien niet helemaal waar ze dat op baseren. De traffic lijkt nog niet door te komen. Wellicht dat eigen sites weer up zijn, maar de rest van grote sites ligt er nog uit. De sites van Mihos routen ook niet via OpenPeering, maar via Telia.

      • ik ervoer vooral nameserver problemen, zowel met deziweb als mihosnet. Beide zijn (bij mij als eindklant) opgelost, mijn traffic bouwt zich weer op… Maar misschien is er een omleiding aangelegd en is de feitelijk storing nog niet verholpen?

      • Dat is de vraag inderdaad. Het is wel heel opvallend dat alle sites die weer up zijn, ook allen via Telia routen. Alles via OpenPeering komt nog steeds niet door. Het is alleen niet direct te zien of de routing een omleiding betreft.

Reageren is niet meer mogelijk.