Source http://www.geekeden.com/topic/28914-gee ... ntry319605Vous avez probablement remarqué qu'il y a eu une panne cet après-midi.
Après une première analyse, un compte hébergement utilisait toutes les ressources disque ce qui a provoqué un ralentissement important.
Certains services comme http (afficher les pages web) et ssh (ligne de commande pour contrôler le serveur) ne répondaient plus.
Le redémarrage du serveur a alors lancé une vérification des fichiers (obligatoire pour ne pas avoir d'erreurs lors d'un redémarrage forcé). La vérification des fichiers a duré plus longtemps que d'habitude (1h30).
Demain je vais analyser plus en profondeur les causes de la panne et faire quelques vérifications supplémentaires.
Nous vous présentons toutes nos excuses pour ce désagrément.

Edit :
Bonjour,
Vous avez probablement remarqué que notre site Internet ainsi que notre serveur ns10.monarobase.net n'étaient pas joignables entre 15 h et 17 h le 9 juillet 2012.
Nous vous prions de nous excuser pour ce désagrément et nous vous informons que c'était une panne exceptionnelle et non prévisible.
IMPORTANT À SAVOIR : Aucun e-mail n'a été perdu pendant cette panne. Certains e-mails sont peut-être arrivés avec quelques heures de retard.
La cause de la panne était un script d'un de nos clients qui faisait beaucoup d'écritures sur le disque et qui rendait certains services injoignables.
La cause de la durée de la panne était la vérification des disques. En effet lors d'un redémarrage d'un serveur parce que celui-ci ne répond plus le système effectue un FSCK (équivalent Linux de CHKDSK sous Windows). Cette vérification permet de nous assurer qu'il n'y avait pas de fichiers ou de données corrompues. La durée de cette vérification dépend du nombre de fichiers à analyser ainsi que de la taille de chaque fichier. Cette vérification ne doit pas arriver souvent de manière non planifiée puisque les blocages sont normalement rares.
Nous vous rassurons que les interventions programmées se font et se feront toujours soit dans la nuit ou tôt le matin, de préférence le Weekend afin d'essayer de ne pas déranger les sociétés qui hébergent leur site Internet et leurs e-mails chez nous. Pour toute intervention programmée de plus de 20 minutes, nous vous envoyons un e-mail pour vous prévenir de la date et l’heure de l'intervention.
Nous avons mis en place un système de vérification des ressources disque utilisé afin d'essayer d'intervenir aussi rapidement que possible en cas de ralentissement et dans les mois à venir nous espérons pouvoir installer un système de limitation de ressources disque par compte. À l'heure actuelle, notre système dérivé des VPS/Cloud nous permet de limiter les ressources processeur et mémoire par compte utilisateur, il ne nous manque plus que la possibilité de limiter les ressources disque.
En deux ans de services, ceci est notre deuxième panne sur ce serveur. La première est arrivée tôt le matin (rétabli avant 7 h 30) suite à une coupure électrique dans le datacenter (après un an et demi sans coupure) et la panne d'hier après-midi était causée par un script PHP qui a maintenant été désactivé.
Ces deux pannes cumulées font environ 3 h 30 ce qui fait un taux de disponibilité de plus de 99,96 % cette année et 100 % l'année précédente, soit une moyenne de 99,98 %.
Cordialement,
Richard Hordern
--
Monarobase SARL