Freeze nécessitant hard reboot

Bonjour,

Depuis plusieurs mois, j’ai le système qui plante complètement et pas moyen de faire quoi que ce soit. Le problème apparaît de manière aléatoire bien que j’ai l’impression que ça devienne de plus en plus fréquent.
Jusqu’à maintenant, le pc était plutôt en iddle … jusqu’à aujourd’hui.
Il y a quelques temps, j’avais lancé memtest mais pas d’erreurs remontées.

dans syslog, j’ai trouvé :

8380 Feb 15 14:49:29 pc343b kernel: [22717.128744] rcu: INFO: rcu_sched self-detected stall on CPU
8381 Feb 15 14:49:29 pc343b kernel: [22717.128754] rcu:      3-....: (5249 ticks this GP) idle=58a/1/0x4000000000000002 softirq=222660/222660 fqs=2618
8382 Feb 15 14:49:29 pc343b kernel: [22717.128756] rcu:       (t=5250 jiffies g=743861 q=61)
8383 Feb 15 14:49:29 pc343b kernel: [22717.128760] NMI backtrace for cpu 3
8384 Feb 15 14:49:29 pc343b kernel: [22717.128763] CPU: 3 PID: 11737 Comm:  Tainted: P           OE     4.19.0-14-amd64 #1 Debian 4.19.171-2
8385 Feb 15 14:49:29 pc343b kernel: [22717.128764] Hardware name: Micro-Star International Co., Ltd. MS-7B78/X470 GAMING PRO CARBON (MS-7B78), BIOS 2.80 03/06/2019
8386 Feb 15 14:49:29 pc343b kernel: [22717.128765] Call Trace:
8387 Feb 15 14:49:29 pc343b kernel: [22717.128768]  <IRQ>
8388 Feb 15 14:49:29 pc343b kernel: [22717.128774]  dump_stack+0x66/0x81
8389 Feb 15 14:49:29 pc343b kernel: [22717.128777]  nmi_cpu_backtrace.cold.4+0x13/0x50
8390 Feb 15 14:49:29 pc343b kernel: [22717.128780]  ? lapic_can_unplug_cpu+0x80/0x80
8391 Feb 15 14:49:29 pc343b kernel: [22717.128784]  nmi_trigger_cpumask_backtrace+0xf9/0x100
8392 Feb 15 14:49:29 pc343b kernel: [22717.128787]  rcu_dump_cpu_stacks+0x9b/0xcb
8393 Feb 15 14:49:29 pc343b kernel: [22717.128789]  rcu_check_callbacks.cold.81+0x1db/0x335
8394 Feb 15 14:49:29 pc343b kernel: [22717.128792]  ? tick_sched_do_timer+0x60/0x60
8395 Feb 15 14:49:29 pc343b kernel: [22717.128795]  update_process_times+0x28/0x60
8396 Feb 15 14:49:29 pc343b kernel: [22717.128797]  tick_sched_handle+0x22/0x60
8397 Feb 15 14:49:29 pc343b kernel: [22717.128798]  tick_sFeb 15 15:54:23 pc343b systemd-modules-load[539]: Inserted module 'lp'

Je prévois de relancer un memtest mais est-ce qu’il y aurait d’autres pistes ? matériel ou logiciel ?

Bonsoir,

J’ai eu entre les mains une MSI X570 couplé à un RYZEN 3700X.
Elle ne tournait pas sous Debian mais sous Windows.

On m’a rapporté qu’elle plantait régulièrement. Parfois à l’allumage (écran noir), ou en fonctionnement (périodes de freeze).
Une mise à jour du BIOS a changé quelque peu son instabilité.

Le peu de temps que je l’ai eu après cette mise à jours (30 min), elle plantait encore avec la mémoire configurée en mode XMP (redémarrage intempestif).

En parcourant le WEB à ce sujet, j’ai découvert un bon nombre d’utilisateurs avec des problèmes similaires. Est-ce un problème propre à MSI ou plus général et relatif à AMD ?

Regardes déjà si tu peux mettre ton BIOS à jour.

Tu sembles tourner avec le noyau de Buster, tu peux aussi utiliser le noyau des backports qui doit être plus récent.

Effectivement, en faisant des recherches j’avais l’impression d’avoir beaucoup de résultat correspondant aux cartes MSI pour Ryzen.

Un lien intéressant qui semble dire que ce la n’est pas spécifique à MSI.
https://forum.malekal.com/viewtopic.php?t=64686

Il tendrait a dire qu’il faut être assez vigilent dans le choix de la mémoire vive sur les plateformes AMD récentes pour éviter ce genre de désagréments.

Sur le site MSI, il y a des listes de mémoires soit disant supportées à télécharger en fonction du processeur que l’on installe sur la carte mère.

faut peut-être voir avec un spécialiste par IRC

La config n’est pas récente et la ref de la RAM est bien dans la liste de compatibilité du constructeur.
Peu probable que le problème soit directement lié.

Dès que Linux passe dans cet état, un crash est inévitable « au bout d’un certain temps ».

Un module est la cause du « Tainted » qui déstabilise l’ensemble puis vient le crash.

Serait-ce ce module la cause ?

Encore un crash aujourd’hui, ça me manquait:
je filtre un peu les logs, je sais pas si c’est pertinent mais j’ai à nouveau (dernier log avant reboot):

45939 Apr  2 14:02:06 pc343b kernel: [18808.198381] watchdog: BUG: soft lockup - CPU#5 stuck for 22s! [CFileWriterThre:5129]
45940 Apr  2 14:02:06 pc343b kernel: [18808.198386] Modules linked in: fuse nft_chain_route_ipv4 xt_CHECKSUM nft_chain_nat_ipv4 ipt_MASQUERADE nf_nat_ipv4 nf_nat xt_conntrack nf_conntrack nf      _defrag_ipv6 nf_defrag_ipv4 libcrc32c ipt_REJECT nf_reject_ipv4 nft_counter xt_tcpudp nft_compat tun bridge stp llc devlink nf_tables nfnetlink rfkill squashfs zstd_decompress xxhash l      oop snd_hda_codec_hdmi wmi_bmof nvidia_drm(POE) drm_kms_helper joydev edac_mce_amd drm kvm_amd kvm irqbypass snd_hda_codec_realtek snd_usb_audio nvidia_modeset(POE) snd_hda_codec_gener      ic snd_usbmidi_lib xpad snd_rawmidi snd_seq_device ff_memless pcspkr pcc_cpufreq snd_hda_intel k10temp sp5100_tco snd_hda_codec snd_hda_core snd_hwdep snd_pcm ccp snd_timer snd sg soun      dcore rng_core evdev acpi_cpufreq nvidia(POE) ipmi_devintf ipmi_msghandler parport_pc ppdev sunrpc lp parport
45941 Apr  2 14:02:06 pc343b kernel: [18808.198416]  ip_tables x_tables autofs4 ext4 crc16 mbcache jbd2 crc32c_generic fscrypto ecb algif_skcipher af_alg dm_crypt dm_mod hid_logitech_hidpp h      id_logitech_dj hid_generic usbhid hid sd_mod crct10dif_pclmul crc32_pclmul crc32c_intel ghash_clmulni_intel pcbc ahci xhci_pci libahci xhci_hcd libata igb aesni_intel mxm_wmi usbcore a      es_x86_64 scsi_mod crypto_simd cryptd nvme glue_helper dca i2c_piix4 nvme_core i2c_algo_bit usb_common wmi gpio_amdpt gpio_generic button
45942 Apr  2 14:02:06 pc343b kernel: [18808.198437] CPU: 5 PID: 5129 Comm: CFileWriterThre Tainted: P           OEL    4.19.0-16-amd64 #1 Debian 4.19.181-1
45943 Apr  2 14:02:06 pc343b kernel: [18808.198438] Hardware name: Micro-Star International Co., Ltd. MS-7B78/X470 GAMING PRO CARBON (MS-7B78), BIOS 2.80 03/06/2019
45944 Apr  2 14:02:06 pc343b kernel: [18808.198443] RIP: 0010:smp_call_function_many+0x1f8/0x250
45945 Apr  2 14:02:06 pc343b kernel: [18808.198445] Code: c7 e8 6c de 5d 00 3b 05 4a 2d 02 01 0f 83 8c fe ff ff 48 63 d0 48 8b 0b 48 03 0c d5 20 f7 6e 8c 8b 51 18 83 e2 01 74 0a f3 90 <8b> 5      1 18 83 e2 01 75 f6 eb c8 48 c7 c2 20 df 92 8c 4c 89 fe 89 df
45946 Apr  2 14:02:06 pc343b kernel: [18808.198447] RSP: 0018:ffffb14d41bc3d18 EFLAGS: 00200202 ORIG_RAX: ffffffffffffff13
45947 Apr  2 14:02:06 pc343b kernel: [18808.198448] RAX: 0000000000000009 RBX: ffff9a660e763100 RCX: ffff9a660e8672e0
45948 Apr  2 14:02:06 pc343b kernel: [18808.198449] RDX: 0000000000000001 RSI: 0000000000000000 RDI: ffff9a660e763108
45949 Apr  2 14:02:06 pc343b kernel: [18808.198450] RBP: ffff9a660e763108 R08: 0000000000000003 R09: ffff9a660e763148
45950 Apr  2 14:02:06 pc343b kernel: [18808.198451] R10: ffff9a660e763108 R11: 0000000000000008 R12: ffffffff8b8686b0
45951 Apr  2 14:02:06 pc343b kernel: [18808.198452] R13: ffffb14d41bc3d60 R14: 0000000000000001 R15: 0000000000000200
45952 Apr  2 14:02:06 pc343b kernel: [18808.198453] FS:  0000000000000000(0000) GS:ffff9a660e740000(0063) knlGS:00000000eaedfb40
45953 Apr  2 14:02:06 pc343b kernel: [18808.198454] CS:  0010 DS: 002b ES: 002b CR0: 0000000080050033
45954 Apr  2 14:02:06 pc343b kernel: [18808.198455] CR2: 00007fbec7bdf000 CR3: 0000000261794000 CR4: 00000000003406e0
45955 Apr  2 14:02:06 pc343b kernel: [18808.198456] Call Trace:
45956 Apr  2 14:02:06 pc343b kernel: [18808.198462]  flush_tlb_mm_range+0xc3/0x110
45957 Apr  2 14:02:06 pc343b kernel: [18808.198466]  arch_tlb_finish_mmu+0xbd/0x100
45958 Apr  2 14:02:06 pc343b kernel: [18808.198468]  tlb_finish_mmu+0x1f/0x30
45959 Apr  2 14:02:06 pc343b kernel: [18808.198470]  unmap_region+0xdd/0x110
45960 Apr  2 14:02:06 pc343b kernel: [18808.198473]  do_munmap+0x27f/0x430
45961 Apr  2 14:02:06 pc343b kernel: [18808.198475]  vm_munmap+0x5f/0xa0
45962 Apr  2 14:02:06 pc343b kernel: [18808.198477]  __ia32_sys_munmap+0x20/0x30
45963 Apr  2 14:02:06 pc343b kernel: [18808.198479]  do_fast_syscall_32+0x98/0x1e0
45964 Apr  2 14:02:06 pc343b kernel: [18808.198483]  entry_SYSCALL_compat_after_hwframe+0x45/0x4d
...
45986 Apr  2 14:02:14 pc343b kernel: [18816.186414] watchdog: BUG: soft lockup - CPU#0 stuck for 22s! [DataStorage:3240]
45987 Apr  2 14:02:14 pc343b kernel: [18816.186415] Modules linkedApr  2 14:12:22 pc343b systemd-modules-load[588]: Inserted module 'lp'