Serveur qui se fige

Bonjour à tous,

J’ai un souci avec mon serveur (un orangepi) avec debian stretch.

Au bout de quelques heures il se fige et ne répond plus ni par ssh ni par requette http rien …

Pour le moment ce que je fait c’est que je le redémarre tous les 4h (par crontab) et ça fonctionne mais bon c’est pas top quand même … Et malgrès tout il m’arrive de rencontrer le problème quand même mais beaucoup moins souvent du coup !

Je ne sais pas du tout comment faire pour analyser le problème ! Je ne l’avais pas avant, j’ai migré sur la dernière version mais je n’arrive pas à voir si le problème vient vraiment de là et sincèrement je ne pense pas … On dirait une saturation mémoire ou le CPU qui se met en sécurité, comment on pourrai contrôler tout ça ?

Merci d’avance pour votre aide

Question peut-être idiote mais as-tu pensé à regarder du côté des températures du chip?
Il tourne, il chauffe, il plante ou se met en sécurité. Peut-être aussi la température de la ram sait-on jamais…

Tu peux jetter un œil au fichier /var/log/syslog, il est possible que tu y trouves des informations sur ce qu’il se passe avant que ça ne réponde plus.

Ainsi que le kern.log et dmesg, parfois ça permet de trouver des pistes.

Je ne l’ai pas suggéré car :

  • dmesg n’affiche que les messages du noyau de la session courante, si le serveur doit être redémarré, ça ne se verra pas
  • le fichier kern.log n’a que les messages du noyau, mais ça peut être une autre application qui provoque l’erreur et que le fichier syslog contient les messages du noyau aussi, mais cette reflexion suppose que la configuration du journal n’a pas été modifiée, bien sûr.
1 J'aime

Bonjour à tous,

Merci pour votre aide,

J’ai regardé les logs et je ne vois rien de particulier a part un redémarrage qui au vu de l’heure ne devait pas avoir lieu (faut je creuse cette partie mais bon au vu des logs le serveur a bien redémarré).

Côté températures j’ai un gros ventilo qui est mis dessus, le CPU est à 30° en fonctionnement nominal et vu le ventilo je doute que ce soit un problème de température.

D’autres idées ?

Dis, tu as un accès à la console locale de ton appareil ? Tu devrais essayer de te connecter dessus quand il cesse de répondre, tu aurais peut-être plus de détails…

J’y ai même pas pensé :sweat_smile: alors en l’état non je n’y est pas accès mais je peux le déplacer pour qu’il soit a côté d’un écran comme ça quand il plante je peu regarder ! c’est une très bonne idée !

Sinon je me suis souvenu que j’avais changé le gourvernor pour optimiser la température du proc (c’était avant que je mette le gros ventilo) alors je l’ai remodifié des fois que ça viennent de ça (la date de changement et le début des problèmes coïncident)

Bonjour,

J’ai changé le gorvernor qui été en schedutil et je l’ai mis en conservative ce qui a tout changé !

Il a planté une première fois au bout de 2j (c’est déjà beaucoup mieux que 4h) et là ça fait + de 3j sans plantage maintenant.