Ieri, anzi, ieri pomeriggio è stato un pomeriggio di sfiga astrale concentrata in poche ore.
Con la testa che già si preparava al relax delle ferie, il dio dell'hardware, del software e del mondo virtuale ha deciso di risvegliare il mio cervello e di restringere il diametro del mio sfintere con una dose di ormoni di paura e tensione.
Ma cosa è successo?
Non voglio tediarvi con racconti tecnici, però qualcosa devo dirvi. Ecco un riassunto dei due eventi ben distinti che vi riporto in ordine cronologico:
Caso 1
Presso un'azienda con circa 80 utenti e 6 sedi, con tutti i server virtualizzati su piattaforma Hyper-V (una vera m***a!!) e sistema blade HP c3000 + storage MSA2012SAS (e anche qui avrei qualcosa da dire...), ci è stato raccomandato da HP di fare l'upgrade del firmware degli switch SAS per risolvere un certo problema. Veniamo ampiamente rassicurati dal produttore (HP dico.. non l'assemblatore sotto casa) che si può fare l'upgrade a caldo perchè gli switch sono ridondati e non ci saranno problemi. Così procediamo. Non proprio serenissimi, ma procediamo.
Mentre facciamo l'upgrade del primo controller alcune delle macchine virtuali perdono la connessione con lo storage e si spengono!!!!!!!!! Una di queste non riparte nemmeno più. E' un problema dell'hypervisor che non riconosce l'ID del disco.. mah. Seguiamo un workaround e la macchina riparte.
Passiamo ad aggiornare il secondo switch. Durante l'aggiornamento del secondo switch TUTTE le macchine virtuali perdono la connessione con lo storage e non ripartono.
Azienda ferma (senza preavviso), utenti incazzati, tecnici coi capelli ritti per il casino! Ma che è successo?
Bhe facile: I nodi non riescono più a vedere lo storage.. per cui col cucco che funzionano le VM!!!!
Alla fine, dopo una compilation di bestemmie da rabbrividire, riusciamo a far ripartire le VM.
Penso che tutto sia finito quand'ecco che si presenta il
Caso 2
Ci sono solo 3 utenti al lavoro alle 18.45; uno di questi è il direttore. E' un sistema virtuale semplice, con ESXi. Ma d'improvviso mentre un tecnico sta applicando delle modifiche ad una VM, si incarta l'hypervisor e si ferma tutto. Dopo 1 minuto già mi suona il cellulare: è ovviamente il direttore. Io sono fuori sede, impegnato con il caso 1. Dopo 10 minuti mi chiama il sistemista che sta seguendo il caso. Tutto molto strano, perchè mai si è incartato ESXi? Un aiutino ci viene da un essaggio di errore AIC7.... E' una scheda SCSI. Scolleghiamo la periferica SCSI collegata all'host e tutto riparte. Sono quasi le 20. Rimandiamo ad un altro momento l'approfondimento delle cause. Sono stanco. Incacchiato. Ho voglia di ferie.



