Bonjour à tous,
Je voudrais vous soumettre une énigme que j’ai beaucoup de mal à élucider :
Je dispose de plusieurs petits serveurs déployés, installés sur une base debian 6 (2.6.32-5-686)
Je rencontre depuis plusieurs mois, le souci suivant :
- Le serveur semble effectuer un hard reboot de façon intempestive
- Suite à ce reboot, au démarrage, le bios ne trouve plus son disque dur et affiche un message de type “cannot find boot device, press any key to continue”
– A ce stade, que ce soit par un CTRL-ALT-SUPP, le bouton reset, rien n’y fait, pas de boot possible sur le disque. - seule solution, couper électriquement le serveur puis le rallumer, démarrage ok sur le disque, situation normale.
De plus :
Les hard reboots provoquent des soucis aléatoires qui semblent être les conséquences de corruption de mémoire ou de données :
- reboot avec perte d’une partition (partition root bien sur … )
- corruption du filesystem (XFS)
- création de caractères aléatoires dans des fichiers, certains pouvant empêcher le démarrage correct)
- corruption de la MBR (données incohérente dans la structure de la MBR)
- perte de la configuration complète du BIOS (date, heure, settings personnalisés)
Précisions :
- Les serveurs sont installés soit sur disque SSD soit sur compact flash (tests d’au moins trois type différent de chaque)
- disques SSD SLC industriels wide temperature, carte CF industrielle WT
- mémoire SO DIMM industrielle
Dans le cas des hard reboot, rien dans les logs (ceux-ci s’arrêtent à l’heure précise du reboot, sans précision)
D’après les premières analyses, il semblerait qu’à un moment, on ne puisse plus du tout joindre le disque/carte à partir du système (j’ai déja vu des messages d’IO disque error avant un crash)
mes interrogations :
Comment e système peut-il avoir un lien avec une corruption du BIOS ? via la mémoire ?
Se pourrait-il que le système perde vraiment le disque dur (mise en veille, perte controleur, driver du kernel ?)
J’ai beaucoup de mal à voir l’interaction entre le hard reboot système et la corruption du BIOS (corruption temporaire puisque le fait de rafraichir électriquement la machine permet de repartir)
-l’ACPI pourrait-il être une cause de souci pour un serveur debian 6 ?
- Est-il possible de positionner plus de traces au niveau noyau pour analyser le crash initial et la cause du hard reboot ?
Le souci semble être plus fréquent si il y a beaucoup (c’est relatif) de volume qui transite.
Si vous avez quelques pistes ou outils d’analyse à me proposer, je vous en serait reconnaissant.
Bonne journée
Cordialement
