Plantage serveur debian

Bonjour,

j’ai configuré il y a quelques mois un serveur de données en raid 6 sous debian.
Ce serveur héberge également plusieurs machines virtuelles elles aussi sous debian.
Le problème est le suivant:
Avant-hier soir vers 00H00 et hier soir vers 23H45, le serveur a planté. Plus aucune réponse aux ping, plus d’activité réseau, plus d’affichage à l’écran.
J’ai été obligé de redémarrer le serveur au bouton.
Ce problème est, comme vous pouvez vous en douter, assez critique.

J’ai vérifier les logs et aucune entrée ne me semble inappropriée, j’ai également vérifié la crontab et aucune tache ne se lance aux alentours de 23H45.

Pour info, voici la distrib utilisée:

Linux 2.6.24-etchnhalf.1-amd64 #1 SMP Tue Oct 14 03:11:45 UTC 2008 x86_64 GNU/Linux

Avez-vous une idée sur la cause du plantage?

Merci d’avance.

a vue de nez je dirais … heu … mince, ou est ma boule de cristal ???

allez, au hasard … t’as payé EDF ?

J’ai déjà éliminé la cause électrique, le serveur est branché à un onduleur.
C’est vrai que les causes de pannes peuvent être multiples. Je me suis déja tapé tous les fichiers de logs sans résultats…
Pas d’autres idées?

reste un monitoring poussé de 23:00 à 01:00

Merci de votre réponse.

J’ai installé Cacti pour le monitoring mais il n’y a rien d’anormal (à part bien sur une abscence de données entre 00H et 9H).
J’ai également placé dans le cron un script qui me donne la liste des processus qui tournent et leur consommation mémoire mais la aussi, rien d’anormal.
Quelle solution de monitoring supplémentaire puis-je mettre en place?

Merci.

et les disques ?

Je viens de lancer un test du raid avec l’utilitaire fournit par le constructeur de la carte contrôleur, j’attends le résultat… Sinon, l’espace disque restant est suffisant. Reste un fschk mais j’attendrais ce soir qu’il n’y ai plus d’utilisateurs sur le serveur…

est ce que tu peux les monitorer depuis debian (smartmontools, agent snmp du constructeur …), ou est ce que l’utilitaire tu le lances lors du boot ?

je monitore le raid depuis debian via une interface web.

Un petit up?

Surchauffe d’un élément, GPU, CPU ,DD , Memoire (plus chian a repérer) , la MOB
tu log la températures ? je le fait personnellement dans un fichier toute les 60 sec :slightly_smiling:

Merci de ta réponse.
Selon moi, ce n’est pas une question de surchauffe: cacti monitor la température de la carte mère et du processeur et un script tourne pour éteindre la machine dès que le proc dépasse une certaine température.
Quels outils existent pour tester la ram?

Pour tester la mémoire ram tu peux utiliser le logiciel memtest.

Je connais memtest mais le seul problème est que c’est un serveur de production. Il m’est difficile de le rebooter pour effectuer le test. N’existe-t-il pas de logiciel pouvant effectuer le test “en live” ?

Merci

j’utilisai prim95, seulement il a surment évoluer donc matte le site officiel:

mersenne.org/freesoft/
il y a une version linux

sa permet de faire bosser cpu et ram et même le dd mai pas la cg :slightly_smiling:
note il doit tenr 3 jour non-stop par core. donc un proc 2 dualcore = 2 processus du même soft lancer :slightly_smiling:

Bon, je viens de nouveau d’avoir le problème de plantage il y a une heure…
Du coup, je m’oriente plus vers un problème matériel (apparemment, plusieurs séries de disques dur seagate subissent de nombreuse pannes et comme j’en possède 12…).
Je lance des tests hardware et je vous tiens au courant…

12 disque sa peut faire beaucoup pour une alim elle tape a combien watt ?550 600 ?

serveur data + machines virtuelles = attention, besoin de débit dans les accès disques

J’ai deux alims de chacune 900 watts…

A priori, cela viendrait de la ram. J’ai rencontré des erreurs lors du scan memtest.
Me voila bon pour tester les barrettes une par une…