caliu.cat: Status

Ens complau informar-vos que el servidor de Caliu torna a estar en marxa i tots els serveis funcionen correctament.

També volem aprofitar per fer públic el nostre agraïment als tècnics del departament de TSC per posar en marxa el servidor durant el període de serveis mínims a la UPC aquest agost.

D’altra banda, a la reunió del dia 6 de setembre farem una retrospectiva sobre aquesta incidència per estudiar com podem millorar el servei. Anunciarem els detalls a la llista de correu caliu-info.

Salut i moltes gràcies per la paciència.

@alexmuntada

Seguim amb el servidor de Caliu aturat i la previsió és que aquesta situació pot durar encara un parell de setmanes més, fins que s’acabin els serveis mínims d’agost al Campus Nord de la UPC.

Els serveis afectats són els següents:

  • Els miralls dels paquets i imatges de diverses distribucions.
  • La web principal de Caliu i els blogs.
  • Els wikis de Caliu i KDE.
  • El planeta Caliu.

Els serveis no afectats són aquests altres:

  • Les llistes de distribució.
  • El correu del domini caliu.cat.
  • El servei de XMPP/Jabber.
  • El canal d’IRC a Freenode.

Com que el servei de miralls és el que té més impacte us oferim un consell per triar el mirall més proper automàticament en les distribucions més populars: heu de canviar la URL del mirall al fitxer /etc/apt/sources.list segons el cas:

  • Debian

    deb http://http.debian.net/debian stable main
    
  • Ubuntu

    deb mirror://mirrors.ubuntu.com/mirrors.txt trusty          main restricted universe multiverse
    deb mirror://mirrors.ubuntu.com/mirrors.txt trusty-updates  main restricted universe multiverse
    deb mirror://mirrors.ubuntu.com/mirrors.txt trusty-security main restricted universe multiverse
    

Si necessiteu posar-vos en contacte amb nosaltres, podeu fer-ho al correu dels masovers a caliu punt cat per a qüestions tècniques relacionades amb el servidor i a junta a caliu punt cat per a qualsevol altra cosa.

@alexmuntada

El Dissabte per la tarda vam rebre una notificació de que el servidor de Caliu estava caigut

Aquella mateixa tarda va haver-hi una tempesta per la zona de barcelona, i podria haver afectat al servidor.

Mirarem d’arreglar-ho l’abans possible.

Disculpeu les possibles molèsties ocasionades.

/DPini

Des de les 22:08 d’ahir el servidor de Caliu no respon. Encara no en coneixem el motiu i estic a l’espera de poder anar fins al CPD per veure què li passa.

Si s’ha produït un tall elèctric no programat, podria ser un problema amb les darreres versions del nucli, que té conflictes amb la gestió del disc extern de backups i provoca que no arrenqui la xarxa (sic).

09:30 - El servidor torna a respondre i encara no sabem què ha passat.

13:20 - A títol informatiu, els talls elèctrics els provocava un PC que ha costat una mica de localitzar.

/alexm

Aquest matí, cap a quarts de 12 he actualitzat els paquets pendents que afecten a les màquines virtuals i he reiniciat el servidor. La sorpresa ha estat que la màquina virtual que serveix la web de Caliu no arrencava i no hi havia forma que el disc de rescat trobés el sistema. Després d’investigar una mica he forçat un e2fsck al disc de sistema per corregir els problemes que feien que no arrenqués correctament.

Com ha passat això? Bé doncs, resulta que el disc de sistema no està particionat sinó que conté directament el sistema de fitxers, és a dir, /dev/vdb és / directament, sense cap taula de particions. Això que em va semblar una optimització que permetria fer crèixer en calent el disc sense reiniciar la màquina virtual resulta ser una molt mala idea: el disc de rescat no sap trobar aquesta partició i no ofereix la possibilitat de muntar-la. El procés de boot de la màquina virtual la munta però tampoc li acaba d’agradar i no ha estat capaç d’executar-hi el e2fsck automàticament. Quan investigava què passava, pensava que el disc de sistema estava amb LVM i no entenia per què no el detectava. Fins que he recordat que el logwatch envia cada dia un informe d’ocupació del disc i aleshores he mirat quins eren els dispositius reals que munta el sistema. Un cop vist que el dispositiu del sistema era /dev/vdb, ha estat immediat forçar-hi una comprovació i han començat a sortir errors pendents de corregir. La resta ja la sabeu… El servidor torna a funcionar.

/alexm

15:50: Sembla que hi ha problemes elèctrics al CPD que afecten el servidor de Caliu. Tots els serveis estan aturats.

16:50: Enlloc d’un problema elèctric es tractava d’un problema a la configuració de la xarxa del CPD. Ara tots els serveis tornen a estar disponibles.

El disc amb problemes ha estat reemplaçat. Tots els serveis funcionant com de costum.

El servidor de Caliu i tots els serveis hostatjats estan aturats. Un dels discs del servidor ha fallat i cal reemplaçar-lo.

Degut a un tall de corrent al Campus Nord de la UPC, que generosament hostatja el servidor de Caliu, els serveis del servidor resten aturats.

Es preveu resoldre la incidència al llarg del dia d’avui. En qualsevol cas, és possible que fins demà pel matí el servidor no torni a estar disponible.

Demà dimarts 5 de març a les 09:00 procedirem a fer un reboot del servidor de Caliu per tal d’actualitzar el nucli. Si tot va bé l’aturada no hauria de durar més de 30 minuts.

Actualització: el reboot s’ha efectuat a les 9:05 i ha acabat a les 9:10.

Contactes
Administradors: masovers@caliu.cat
Junta de Caliu: junta@caliu.cat
Twitter: @caliu_cat