Services au démarrage plantés

Bonjour,
Sur un serveur Dell PE2950 en production, j’ai eu des plantages du noyau 2.6.18-6.

kernel: Oops: 0002 [#1] kernel: SMP kernel: CPU:1

Ca arrivait tous les 10 à 15 jours.
Dernierement, il n’a pas redemarré correctement et il y avait des fautes de segmentation sur les services comme NFS, samba …
Le fait de les lancer à la main, fait que ceci fonctionne de nouveau.
J’ai compilé à la main le dernier noyau 2.6.28 de kernel.org et il m’a permis de voir que la librairie libc6 pose probleme.

rwhod[4951]: segfault at 274074b8 ip b7ec4d5b sp bff1de50 error 4 in libc-2.3.6.so[b7dc8000+127000] pkill[4991]: segfault at fd29d505 ip b7f4cd5b sp bfbc3fd0 error 4 in libc-2.3.6.so[b7e50000+127000] rpc.idmapd[5009]: segfault at e730d4b8 ip b7f10d5b sp bfc7b5e0 error 5 in libc-2.3.6.so[b7e14000+127000] getent[5016]: segfault at d2ee5d8 ip b7f2bd5b sp bfd859c4 error 4 in libc-2.3.6.so[b7e2f000+127000] getent[5020]: segfault at d2925d8 ip b7ecfd5b sp bfb27664 error 4 in libc-2.3.6.so[b7dd3000+127000] getent[5031]: segfault at d26c5d8 ip b7ea9d5b sp bfc03844 error 4 in libc-2.3.6.so[b7dad000+127000] cron[5061]: segfault at fd19c505 ip b7e8fd5b sp bfd03fc0 error 4 in libc-2.3.6.so[b7d93000+127000] lmutil[5072]: segfault at ddc43b8 ip b7ef7d5b sp bfd5a144 error 4 in libc-2.3.6.so[b7dfb000+127000]

En mettant des sleep 20 sur deux services, on a pu démarrer correctement.
J’ai fait une reinstallation de libc6 avec

mais je ne suis pas convaincu que tout rentrera dans l’ordre. Je n’ai pas encore redemarré.
Y a t’il un moyen de faire une vérification du systeme ? des paquets debian ?
Ou tout autre solution envisageable.
Les outils dell de diagnostiques n’ont rien trouvé de défectueux dans le matériel.
J’utilise une debian Etch stable en 32 bits.
Merci d’avance pour vos suggestions

*si la question est de vérifier la cohérence des paquetages :

aptitude update
aptitude upgrade
(mise à niveau des paquetages du système - que tout soit au même niveau).

  • apt-get check ou aptitude search ~b (à la recherche de paquetages cassées).
  • aptitude search ~c (les fichiers de configurations reliquats)
  • deborphan (fichier orphelins).
  • dpkg -l | grep ^pn (fichiers à réinstaller)

Là, comme ça, c’est tout ce que je vois.
Je ne sais pas si ça réponds vraiment à ta question.

Tu peux vérifier les fichiers de ton système par

~$ cd /tmp /tmp$ cat /var/lib/dpkg/info/*.md5sums | sort -u > MD5-ORG /tmp$ cd / /$ cat /tmp/MD5-ORG | awk '{print "md5sum "$2}' | grep -v -E "^md5sum *$" > /tmp/gre /$ sh /tmp/gre > /tmp/MD5 /$ cd /tmp /tmp$ diff -urN MD5-ORG MD5
Tu verras les fichiers différents. Il m’est arrivé d’avoir des fichiers changés suite à une erreur mémoire. C’est peut être ce qui t’est arrivé.

J’ai fait un programme qui teste l’intégrité du système toutes les erreurs (paquet surveillance), ça me permet de détecter une éventuelle intruision et un phénomène de ce type.

Eh hop, je me suis copié le truc… Utile!

Thx, Fran.

Merci pour le programme.
J’ai teste et il a trouvé une différence avec
/usr/bin/finger
Or j’ai vu que le finger provient de finger et de finger-ldap. C’est sans doute pour ca qu’ils n’ont pas le meme md5sum