EuroDNS…che disastro!

I sistemi che ospitano servizi a pagamento non dovrebbero mai smettere di funzionare..ma qualche volta accade l’inimmaginabile e qualcosa si rompe.

Per molti (soprattutto per le aziende che basano il proprio business, la propria sopravvivenza su questi servizi) inizia il dramma.

Alcuni anni fa ci saremmo sorpresi se il sito istituzionale del nostro service provider preferito o il forum di supporto dello stesso, avesse omesso di segnalare un malfunzionamento dei servizi offerti. Poi sono arrivati i blog e, ultimamente, social network (facebook) e micro blogging (twitter). Possibile che per sapere che c’è un problema (ma naturalmente nn quale!) sia ancora necessario chiamare un numero di telefono che poi, risponde una volta in francese, un’altra in inglese, e la terza nuovamente in francese?

Prima telefonata, ore 10.00:

Io: Salve, i nostri domini non vengono più risolti…è successo qualcosa?

EuroDNS: forse…stiamo verificando, ne sapremo di più tra 2 o 3 ore.

…mh…tra 2 o 3 ore?!?! bah

Seconda telefonata, 0re 11:00:

Io: Ok…c’è sicuramente un problema…ho tutti i siti irraggiungibili…cos’è successo???

EuroDNS: I tecnici stanno risolvendo. Tutto dovrebbe tornare a funzionare per le 13.00.

mh…ok, almeno un orario preciso da comunicare alla dirigenza (inca$$ata e petulante)

Terza telefonata: 12.30:

Io: hey…sembra tutto risolto…vero? cos’è successo?

EuroDNS: si…il guasto è stato riparato.

ok…bene…ma…quale guasto? cos’è successo? è esploso il datacenter? Com’è possibile che tutti i domini registrati presso EuroDNS siano scomparsi improvvisamente dalla faccia della terra???

Qualche ora dopo un messaggio su Twitter, nascosto tra tonnellate di “I’m sorry” and “I apologize”, annuncia la pubblicazione di un chiarimento su una pagina del sito del provider:

If you have been affected by connectivity problems this morning, please read here: http://www.eurodns.com/alerts/view/20

Domanda numero uno: qualcuno ha avuto l’onore di scampare il disastro?

Domanda numero due: esiste una sezione “alerts” del sito?

Domanda numero tre: …perchè ca$$o non la usate?!? e perchè non è linkato da nessuna parte???

Chiaramente, a questo punto, vediamo cosa dicono…dopo oltre 4 ore di disservizio, ne hanno avuto di tempo per elaborare una scusa credibile…no?

Evidentemente no:

This was due to a hardware failure of one member of our main cluster database, which caused tables corruptions and faulty replication to our distributed DNS platform.

Non conoscendo i dettagli dell’architettura di EuroDNS, chiaramente nn è possibile giudicare ne immaginare cosa possa essere accaduto; ma certo che:

  • a cosa serve un cluster se, alla rottura di uno dei server che lo compongono si ferma tutto?
  • è plausibile che la rottura di un nodo causi, sul nodo stesso, la corruzione delle tabelle…ma non sugli altri nodi!!!
  • il sistema di replica ha propagato il problema sugli altri nodi? buffoni!!!!

Ok…preferisco pensare che abbiate fatto una ca$$ata e che non abbiate avuto il coraggio di ammetterlo, piuttosto che credere che centinaia di siti gestiti dall’azienda per cui lavoro siano rimasti inattivi per 4 ore a causa di un’architettura da peracottari!


Comments

Leave a Reply

Your email address will not be published. Required fields are marked *