caliu.cat: Status

El Dissabte per la tarda vam rebre una notificació de que el servidor de Caliu estava caigut

Aquella mateixa tarda va haver-hi una tempesta per la zona de barcelona, i podria haver afectat al servidor.

Mirarem d’arreglar-ho l’abans possible.

Disculpeu les possibles molèsties ocasionades.

/DPini

Des de les 22:08 d’ahir el servidor de Caliu no respon. Encara no en coneixem el motiu i estic a l’espera de poder anar fins al CPD per veure què li passa.

Si s’ha produït un tall elèctric no programat, podria ser un problema amb les darreres versions del nucli, que té conflictes amb la gestió del disc extern de backups i provoca que no arrenqui la xarxa (sic).

09:30 - El servidor torna a respondre i encara no sabem què ha passat.

13:20 - A títol informatiu, els talls elèctrics els provocava un PC que ha costat una mica de localitzar.

/alexm

Aquest matí, cap a quarts de 12 he actualitzat els paquets pendents que afecten a les màquines virtuals i he reiniciat el servidor. La sorpresa ha estat que la màquina virtual que serveix la web de Caliu no arrencava i no hi havia forma que el disc de rescat trobés el sistema. Després d’investigar una mica he forçat un e2fsck al disc de sistema per corregir els problemes que feien que no arrenqués correctament.

Com ha passat això? Bé doncs, resulta que el disc de sistema no està particionat sinó que conté directament el sistema de fitxers, és a dir, /dev/vdb és / directament, sense cap taula de particions. Això que em va semblar una optimització que permetria fer crèixer en calent el disc sense reiniciar la màquina virtual resulta ser una molt mala idea: el disc de rescat no sap trobar aquesta partició i no ofereix la possibilitat de muntar-la. El procés de boot de la màquina virtual la munta però tampoc li acaba d’agradar i no ha estat capaç d’executar-hi el e2fsck automàticament. Quan investigava què passava, pensava que el disc de sistema estava amb LVM i no entenia per què no el detectava. Fins que he recordat que el logwatch envia cada dia un informe d’ocupació del disc i aleshores he mirat quins eren els dispositius reals que munta el sistema. Un cop vist que el dispositiu del sistema era /dev/vdb, ha estat immediat forçar-hi una comprovació i han començat a sortir errors pendents de corregir. La resta ja la sabeu… El servidor torna a funcionar.

/alexm

15:50: Sembla que hi ha problemes elèctrics al CPD que afecten el servidor de Caliu. Tots els serveis estan aturats.

16:50: Enlloc d’un problema elèctric es tractava d’un problema a la configuració de la xarxa del CPD. Ara tots els serveis tornen a estar disponibles.

El disc amb problemes ha estat reemplaçat. Tots els serveis funcionant com de costum.

El servidor de Caliu i tots els serveis hostatjats estan aturats. Un dels discs del servidor ha fallat i cal reemplaçar-lo.

Degut a un tall de corrent al Campus Nord de la UPC, que generosament hostatja el servidor de Caliu, els serveis del servidor resten aturats.

Es preveu resoldre la incidència al llarg del dia d’avui. En qualsevol cas, és possible que fins demà pel matí el servidor no torni a estar disponible.

Demà dimarts 5 de març a les 09:00 procedirem a fer un reboot del servidor de Caliu per tal d’actualitzar el nucli. Si tot va bé l’aturada no hauria de durar més de 30 minuts.

Actualització: el reboot s’ha efectuat a les 9:05 i ha acabat a les 9:10.

Demà dimarts 19 de febrer a les 11:00 procedirem a fer un reboot del servidor de Caliu per tal d’actualitzar el nucli. Si tot va bé l’aturada no hauria de durar més de 30 minuts.

Actualització (19 feb 12:00): el reboot s’ha efectuat a les 11:50 i ha acabat a les 12:00.

Avui a les 12h05 hem detectat que el servidor està inaccessible remotament. Cap dels serveis funciona. En les properes hores algú farà una visita al servidor per aconseguir més informació. Actualitzarem aquest avís amb la informació que anem obtenint.

Sembla ser que les actualitzacions automàtiques del servidor podrien haver causat l’incidència. Un cop reiniciat el servidor tots els serveis han passat a funcionar de nou cap als vols de la 1 del migdia. Investigarem quina ha sigut la causa de l’incidicent per evitar que torni a passar.

Contactes
Administradors: masovers@caliu.cat
Junta de Caliu: junta@caliu.cat
Twitter: @caliu_cat