Plantage et redémarrages fréquents sur un serveur

Almtesh · Avril 19, 2022, 7:26pm

Bonjour,

J’ai un serveur de fichier chez moi qui redémarre tout seul fréquemment.
J’ai enfin pu capturer une erreur à l’instant, la voici :

Message from syslogd@Worm at Apr 19 21:08:01 ...                                                                                                                                                                                                                                                                               
 kernel: [    0.294000] mce: [Hardware Error]: CPU 0: Machine Check: 0 Bank 4: ba00000000200005                                                                                                                                                                                                                                
                                                                                                                                                                                                                                                                                                                               
Message from syslogd@Worm at Apr 19 21:08:01 ...                                                                                                                                                                                                                                                                               
 kernel: [    0.294009] mce: [Hardware Error]: TSC 0 MISC 4000000                                                                                                                                                                                                                                                              
                                                                                                                                                                                                                                                                                                                               
Message from syslogd@Worm at Apr 19 21:08:01 ...                                                                                                                                                                                                                                                                               
 kernel: [    0.294014] mce: [Hardware Error]: PROCESSOR 0:706a1 TIME 1650395179 SOCKET 0 APIC 0 microcode 26

Alors, vu l’horodatage du noyau, j’ai l’impression que ça n’a peut-être aucun rapport avec mon problème, mais si ça parle à quelqu’un, manifestez-vous.
Il s’agit d’un Debian 10 à jour avec les dépôts officiels et celui de Syncthing.

Merci à vous.

Zargos · Avril 19, 2022, 9:45pm

Salut,
As-tu vérifié la température du processeur? Quand les températures sont trop hautes on peut avoir ce genre de logs (mais pas exclusif d’un autre problème).
Il est vieux ton serveur (niveau matériel) ?

Almtesh · Avril 20, 2022, 6:36am

Même mieux, je graphe la température du processeur (dernier redémarrage vers 21h) :
cacti_graph_393
C’est une carte mère ASROCK J4105-ITX avec une barette de RAM Crucial 2 Go DDR4 à 2400 MHz achetées en juillet 2019.
lscpu retourne ça :

Architecture :                          x86_64
Mode(s) opératoire(s) des processeurs : 32-bit, 64-bit
Boutisme :                              Little Endian
Tailles des adresses:                   39 bits physical, 48 bits virtual
Processeur(s) :                         4
Liste de processeur(s) en ligne :       0-3
Thread(s) par cœur :                    1
Cœur(s) par socket :                    4
Socket(s) :                             1
Nœud(s) NUMA :                          1
Identifiant constructeur :              GenuineIntel
Famille de processeur :                 6
Modèle :                                122
Nom de modèle :                         Intel(R) Celeron(R) J4105 CPU @ 1.50GHz
Révision :                              1
Vitesse du processeur en MHz :          1340.255
Vitesse maximale du processeur en MHz : 2500,0000
Vitesse minimale du processeur en MHz : 800,0000
BogoMIPS :                              2995.20
Virtualisation :                        VT-x
Cache L1d :                             24K
Cache L1i :                             32K
Cache L2 :                              4096K
Nœud NUMA 0 de processeur(s) :          0-3
Drapaux :                               fpu vme de pse tsc msr pae mce cx8 apic sep mtrr pge mca cmov pat pse36 clflush dts acpi mmx fxsr sse sse2 ss ht tm pbe syscall nx pdpe1gb rdtscp lm constant_tsc art arch_perfmon pebs bts rep_good nopl xtopology nonstop_tsc cpuid aperfmperf tsc_known_freq pni pclmulqdq dtes64 monitor ds_cpl vmx est tm2 ssse3 sdbg cx16 xtpr pdcm sse4_1 sse4_2 x2apic movbe popcnt tsc_deadline_timer aes xsave rdrand lahf_lm 3dnowprefetch cpuid_fault cat_l2 pti cdp_l2 ssbd ibrs ibpb stibp ibrs_enhanced tpr_shadow vnmi flexpriority ept vpid ept_ad fsgsbase tsc_adjust smep erms mpx rdt_a rdseed smap clflushopt intel_pt sha_ni xsaveopt xsavec xgetbv1 xsaves dtherm ida arat pln pts umip rdpid arch_capabilities
``

jipete · Avril 20, 2022, 9:38am

Bonjour,

Depuis combien de temps ?

Depuis quand ? Depuis l’install ou depuis récemment ?

Almtesh · Avril 20, 2022, 10:16am

Je dirais depuis août 2011, pour celui-ci spécifiquement, c’est depuis juillet 2019. Je l’ai installé sous Debian 10 et il n’a pas bougé depuis.

Je ne saurais pas dire vraiment, quelques semaines.
La plupart du temps, il redémarre tout seul, mais des fois, je dois intervenir et utiliser l’extinction d’urgence.

jipete · Avril 20, 2022, 10:28am

Juillet 2019 à maintenant ça fait presque trois ans.

Quel est son environnement ? Salle blanche ou au grenier/au fond d’un placard poussiéreux ?

Au plus on s’éloigne de la salle blanche, au plus on a des risques de se retrouver avec une machine pleine de poussière et ça, c’est dramatique pour elle : faux-contacts entre les pinoches des chipsets soudés sur la carte-mère, faux-contacts entre une carte [je pense là à la mémoire] et le connecteur où elle est pluggée, ralentissement des ventilos, etc.

Clochette · Avril 20, 2022, 11:35am

Si il y a rien dans les kern.log, dmesg, et syslog ça va être compliqué à debug …

Almtesh · Avril 21, 2022, 6:42am

Il est dans ma pièce principale, la poussière est présente, mais je nettoie de temps en temps les machines pour limiter une trop grande concentration.

Cette machine n’a pas de ventilateur. Je n’avais pas besoin d’une très grande puissance de traitement, juste de stockage. Il y a juste un ventilateur dans l’alimentation, mais les redémarrages ne semble pas venir d’un problème de surchauffe de l’alimentation.

Je n’ai pas touché à la mémoire vive de cette machine depuis que je l’ai installée dedans en juillet 2019.
Je pense que je vais faire un petit nettoyage en profondeur et une inspection visuelle pour voir si je peux trouver quelque chose, je reviendrai si je trouve quelque chose ou que je tombe sur un message d’erreur qui peut aider à faire avancer le sujet.

Almtesh · Mai 5, 2022, 8:09pm

Et voilà, j’ai enfin la bonne erreur :

Debian GNU/Linux 10 Worm tty1

Worm login: [1105790.617549] Kernel panic - not syncing: Timeout: Not all CPUs entered broadcast exception handler
[1105791.690428] Shutting down cpus with NMI
[1105791.701180] Kernel Offset: 0x1a00000 from 0xffffffff81000000 (relocation range: 0xffffffff80000000-0xffffffffbfffffff)
[1105791.775635] Rebooting in 30 seconds..
_

Ensuite, la machine redémarre automatiquement, je ne sais pas si c’est au bout de trente secondes pile, mais ça va assez vite, je ne m’en plains pas.

Clochette · Mai 5, 2022, 9:09pm

En générale ça peut renvoyer avec un souci de compatibilité avec le microcode du CPU.
As-tu vérifier si un microcode ne pourrait pas bénéficier d’une mise à jour ?

Almtesh:

Debian GNU/Linux 10 Worm tty1

Worm login: [1105790.617549] Kernel panic - not syncing: Timeout: Not all CPUs entered broadcast exception handler
[1105791.690428] Shutting down cpus with NMI
[1105791.701180] Kernel Offset: 0x1a00000 from 0xffffffff81000000 (relocation range: 0xffffffff80000000-0xffffffffbfffffff)
[1105791.775635] Rebooting in 30 seconds..

C’est très light il y a quoi du coup dans le kern.log ?

Almtesh · Mai 6, 2022, 5:50am

Alors, là, ça dépasse largement mon domaine de compétence. En générale, pour ce qui est des microcodes et des pilotes, j’ai tendance à très vite abandonner.

Ben, en fait, le dernier message présent dans les journaux du noyau, c’est ça :

May  4 06:25:04 Worm kernel: [964030.130280] FAT-fs (sda1): Volume was not properly unmounted. Some data may be corrupt. Please run fsck.
May  4 10:55:15 Worm kernel: [980241.394517] usb 1-4: USB disconnect, device number 16
May  4 13:44:18 Worm kernel: [990384.325473] usb 1-4: new high-speed USB device number 17 using xhci_hcd
May  4 13:44:18 Worm kernel: [990384.484499] usb 1-4: New USB device found, idVendor=18d1, idProduct=4ee7, bcdDevice= 4.09
May  4 13:44:18 Worm kernel: [990384.484502] usb 1-4: New USB device strings: Mfr=1, Product=2, SerialNumber=3
May  4 13:44:18 Worm kernel: [990384.484505] usb 1-4: Product: FP3
May  4 13:44:18 Worm kernel: [990384.484506] usb 1-4: Manufacturer: Fairphone
May  4 13:44:18 Worm kernel: [990384.484508] usb 1-4: SerialNumber: A20A652T0202
May  4 19:41:47 Worm kernel: [1011832.931007] usb 1-4: USB disconnect, device number 17
May  5 06:25:08 Worm kernel: [1050434.844758] FAT-fs (sda1): Volume was not properly unmounted. Some data may be corrupt. Please run fsck.
May  5 06:29:23 Worm kernel: [1050689.692113] usb 1-4: new high-speed USB device number 18 using xhci_hcd
May  5 06:29:23 Worm kernel: [1050689.842423] usb 1-4: New USB device found, idVendor=18d1, idProduct=4ee7, bcdDevice= 4.09
May  5 06:29:23 Worm kernel: [1050689.842429] usb 1-4: New USB device strings: Mfr=1, Product=2, SerialNumber=3
May  5 06:29:23 Worm kernel: [1050689.842432] usb 1-4: Product: FP3
May  5 06:29:23 Worm kernel: [1050689.842436] usb 1-4: Manufacturer: Fairphone
May  5 06:29:23 Worm kernel: [1050689.842439] usb 1-4: SerialNumber: A20A652T0202

Donc, possiblement rien à voir, la machine ayant planté 55 101 secondes (15 heures, 18 minutes et 21 secondes) après le dernier message.
Je connecte mon téléphone sur cette machine depuis le 9 avril, mais ça fait beaucoup plus longtemps que j’ai ce problème.

jipete · Mai 6, 2022, 7:06am

Re-bonjour,

Quand je sélectionne ce message d’erreur puis clic-droit / Recherche ggl pour la-phrase, ça remonte pas mal d’infos dont chez moi les trois premières sont tagguées Solved, ça vaudrait peut-être le coup d’y aller voir ?

Clochette · Mai 6, 2022, 8:29am

Et avant de dire ça bien entendu tu as été voir et tu t’es rendu compte qu’a chaque fois les gars on soit rollback un kernel soit mis à jour et que le message reste tout de même assez générique …

C’est surtout les lignes du kern.log avant le kernel panic, il arrive parfois qu’il t’annonce ce qu’il l’ennui.

jipete · Mai 6, 2022, 8:42am

Non, pas du tout, j’ai suffisamment à faire avec mes problèmes. J’ai juste estimé qu’il serait bon d’explorer le web, en tout cas c’est comme ça que je fonctionne et ça m’a bien souvent sorti de la mouise.

Almtesh · Mai 7, 2022, 5:44am

Ben, non, pas cette fois, c’est bien le problème.

En tous cas, j’ai au moins pu résoudre

ce qui est toujours ça de gagné.