Diagnostiquer un serveur qui s'éteint brusquement

[DEBUT DE TARTINE]

Voilà, mon serveur domestique n’a jamais vraiment marché.
Même neuf (il y a des années), il lui arrivait sans raison de s’éteindre.
Pas d’intervalle particulier, la plupart du temps, il tient des mois, j’ai même eu une fois ~400 jours d’uptime.
Mais à part une ou 2 fois ou il s’était mis à s’éteindre même parfois dans la seconde aprés son allumage, et sur des durées de quelques heures où il était capricieux, globalement, il était utilisable: il est à coté de mon bureau, je rappuie sur le bouton, et comme c’est essentiellement un serveur mail et un nas, c’est juste un petit désagrément d’attendre la fin du fsck pour relever mes mails.
Mais là, ça fait 2 jours qu’il tient rarement plus d’1/2 heure.

Donc je viens de me racheter un petit coeur de machine à 300 balles (plutôt qu’un raspi) pour y remonter mes disques, mais bêtement, je n’ai pas pensé que l’IDE était obsoléte, et je me retrouve avec mon disque root qui n’est pas montable sur le nouveau coeur.
En attendant de m’acheter un petit ssd pour y cloner mon root (plutôt qu’une carte IDE), je me disais que ça serait un bon challenge de trouver quel composant foire, pendant qu’il est encore entier, pour éventuellement le recycler plus tard en machine pour mes enfants.

Voilà pour l’histoire de base.

Pour les détails:

  • installé en Lenny, il a connu tous les noyaux imaginables depuis 2013, même des customs compilé avec différentes “saveurs” de kernel.org, du préemptif, des patchs grsec, etc, plein de tests, jusqu’à maintenant ou il est resté en Jessie bien à jour même si je n’ai pas eu le temps de l’upgrader ces dernier temps, et il est en noyau 4.9 d’octobre denier,
  • il a déjà passé des chiées de fois le memtest
  • j’ai vérifié la température un nombre incalculable de fois, j’ai bien parfois des températures disques inquiétantes, mais niveau des sondes CM, il s’éteint même à 30°
  • j’avais vérifié les tensions de l’alim, mais rien ne m’avait paru bizarre (aprés, pas sur de ce qui est “normal” et je ne me souviens plus ou on regarde ça)
  • pour la première fois sur ces deux dernier jours, j’ai remarqué qu’il s’arrête systématiquement à un moment ou postfix/anvil me sort des stats dans le syslog. Il ne s’arrète pas à chaque fois qu’anvil fournit des stats, mais chaque fois qu’il s’arrête, c’est juste aprés les stas anvil. Plus bizarre, c’est, depuis 2 jours que je surveille systématiquement sur des stats concernant l’adresse 185.234.216.164:
root@emeraude:~# grep 185.234.216.164 /var/log/syslog
Mar  7 08:46:55 localhost postfix/anvil[3094]: statistics: max connection rate 1/60s for (smtp:185.234.216.164) at Mar  7 08:43:35
Mar  7 08:46:55 localhost postfix/anvil[3094]: statistics: max connection count 1 for (smtp:185.234.216.164) at Mar  7 08:43:35
Mar  7 08:51:33 localhost postfix/smtpd[26082]: connect from unknown[185.234.216.164]
Mar  7 08:51:33 localhost postfix/smtpd[26082]: lost connection after AUTH from unknown[185.234.216.164]
Mar  7 08:51:33 localhost postfix/smtpd[26082]: disconnect from unknown[185.234.216.164]
Mar  7 08:54:53 localhost postfix/anvil[26084]: statistics: max connection rate 1/60s for (smtp:185.234.216.164) at Mar  7 08:51:33
Mar  7 08:54:53 localhost postfix/anvil[26084]: statistics: max connection count 1 for (smtp:185.234.216.164) at Mar  7 08:51:33
Mar  7 08:59:28 localhost postfix/smtpd[26109]: connect from unknown[185.234.216.164]
Mar  7 08:59:28 localhost postfix/smtpd[26109]: lost connection after AUTH from unknown[185.234.216.164]
(...)
Mar  7 20:46:53 localhost postfix/anvil[3326]: statistics: max connection rate 1/60s for (smtp:185.234.216.164) at Mar  7 20:43:32
Mar  7 20:46:53 localhost postfix/anvil[3326]: statistics: max connection count 1 for (smtp:185.234.216.164) at Mar  7 20:43:32
Mar  7 20:46:53 localhost postfix/anvil[3326]: statistics: max cache size 1 at Mar  7 20:43:32 
( là il s'est éteint )

Questions, série 1:
Je pense que limiter le rythme de connexions depuis cette adresse, ou carrément la bloquer, vu qu’elle semble liée au blocage depuis 2j pourrait stabiliser un peu la machine.
Que pensez vous de cette adresse ? elle n’a pas de reverse, et je ne comprends pas trop ce qu’indique whois, donc est elle vraiment légitime/sérieuse comme source smtp ?
Comment feriez vous dans postfix: peut on refuser les adresses sans reverse dés la tentative de connection et est ce souhaitable?
Comment feriez vous au niveau d’iptables pour limiter le rythme sans empêcher le smtp et est ce même possible ?

Question pour revenir à ma préoccupation de base:
ce serveur s’éteint aussi en quelques minutes dés que je tente de travailler en session X (mais pas si je le laisse sur le dm), c’est constant depuis toujours, donc l’extinction ne vient pas spécifiquement d’une attaque depuis cette adresse.
Par ou commenceriez vous à chercher d’où vient le probléme de base, que je présume à 99.9% matériel pour les raisons indiquées plus haut ?

[/FIN DE TARTINE]

https://mxtoolbox.com/SuperTool.aspx?action=blacklist%3A185.234.216.164&run=toolpage

Pour le reste je dirais l’alimentation, est-tu sûre que ton alimentation encaisse bien lorsqu’il y a sollicitation ?

Je suppose que tu as testé ton système sur un autre matériel, donc à moins de trouvé une piste dans le kern.log, dmesg, syslog de parlante je ne vois que le matériel.