Bug debian 9.5 watchdog cpu


#1

Bonjour,
Cela fait plusieurs semaines que je me bas à trouver une solution avec ce bug,
sur openmediavault sur debian 9.5
carte mère FM2A68M-HD+

39

Si quelqu’un à la solution à ce problème se serais sympas de m’aider

Merci d’avance.

  • Message sur putty :

    Message from syslogd@openmediavault-nas at Nov  3 12:11:13 ...
    kernel:[52288.037038] watchdog: BUG: soft lockup - CPU#2 stuck for 23s! [kswapd0:51]
    

    Message from syslogd@openmediavault-nas at Nov 3 12:11:41 …
    kernel:[52316.037035] watchdog: BUG: soft lockup - CPU#2 stuck for 23s! [kswapd0:51]

(en boucle le même message )

*syslog
Nov 3 12:02:30 openmediavault-nas systemd[1]: Started Run anacron jobs.
Nov 3 12:02:30 openmediavault-nas anacron[25335]: Anacron 2.3 started on 2018-11-03
Nov 3 12:02:30 openmediavault-nas anacron[25335]: Normal exit (0 jobs run)
Nov 3 12:02:30 openmediavault-nas systemd[1]: anacron.timer: Adding 3min 48.178918s random time.
Nov 3 12:09:00 openmediavault-nas systemd[1]: Starting Clean php session files…
Nov 3 12:09:00 openmediavault-nas systemd[1]: Started Clean php session files.
Nov 3 12:09:01 openmediavault-nas CRON[25591]: (root) CMD ( [ -x /usr/lib/php/sessionclean ] && if [ ! -d /run/systemd/system ]; then /usr/lib/php/sessionclean; fi)
Nov 3 12:10:48 openmediavault-nas kernel: [52262.857037] INFO: rcu_sched self-detected stall on CPU
Nov 3 12:10:48 openmediavault-nas kernel: [52262.857052] 2-…: (5249 ticks this GP) idle=9da/1/4611686018427387906 softirq=627599/627599 fqs=2522
Nov 3 12:10:48 openmediavault-nas kernel: [52262.857056] (t=5250 jiffies g=321624 c=321623 q=6647)
Nov 3 12:10:48 openmediavault-nas kernel: [52262.857063] NMI backtrace for cpu 2

Nov 3 12:10:48 openmediavault-nas kernel: [52262.857067] CPU: 2 PID: 51 Comm: kswapd0 Not tainted
4.18.0-0.bpo.1-amd64 #1 Debian 4.18.6-1~bpo9+1
Nov 3 12:10:48 openmediavault-nas kernel: [52262.857069] Hardware name: To Be Filled By O.E.M. To Be Filled By O.E.M./FM2A68M-HD+, BIOS P5.10 10/15/2018

Nov 3 12:10:48 openmediavault-nas kernel: [52262.857070] Call Trace:
Nov 3 12:10:48 openmediavault-nas kernel: [52262.857082]
Nov 3 12:10:48 openmediavault-nas kernel: [52262.857089] dump_stack+0x5c/0x7b
Nov 3 12:10:48 openmediavault-nas kernel: [52262.857093] nmi_cpu_backtrace+0x89/0x90
Nov 3 12:10:48 openmediavault-nas kernel: [52262.857097] ? lapic_can_unplug_cpu+0xa0/0xa0
Nov 3 12:10:48 openmediavault-nas kernel: [52262.857100] nmi_trigger_cpumask_backtrace+0xf5/0x130
Nov 3 12:10:48 openmediavault-nas kernel: [52262.857104] rcu_dump_cpu_stacks+0x9b/0xcb
Nov 3 12:10:48 openmediavault-nas kernel: [52262.857107] rcu_check_callbacks+0x79a/0x8e0
Nov 3 12:10:48 openmediavault-nas kernel: [52262.857111] ? update_wall_time+0x3f2/0x560
Nov 3 12:10:48 openmediavault-nas kernel: [52262.857113] ? tick_sched_do_timer+0x60/0x60
Nov 3 12:10:48 openmediavault-nas kernel: [52262.857116] update_process_times+0x28/0x50
Nov 3 12:10:48 openmediavault-nas kernel: [52262.857118] tick_sched_handle+0x22/0x60
Nov 3 12:10:48 openmediavault-nas kernel: [52262.857121] tick_sched_timer+0x37/0x70
Nov 3 12:10:48 openmediavault-nas kernel: [52262.857123] __hrtimer_run_queues+0xfc/0x270
Nov 3 12:10:48 openmediavault-nas kernel: [52262.857127] hrtimer_interrupt+0x101/0x240
Nov 3 12:10:48 openmediavault-nas kernel: [52262.857130] smp_apic_timer_interrupt+0x6a/0x130
Nov 3 12:10:48 openmediavault-nas kernel: [52262.857132] apic_timer_interrupt+0xf/0x20
Nov 3 12:10:48 openmediavault-nas kernel: [52262.857134]
Nov 3 12:10:48 openmediavault-nas kernel: [52262.857145] RIP: 0010:jbd2_journal_grab_journal_head+0x27/0x40 [jbd2]
Nov 3 12:10:48 openmediavault-nas kernel: [52262.857146] Code: 00 00 00 0f 1f 44 00 00 f0 48 0f ba 2f 18 72 18 48 8b 07 a9 00 00 02 00 74 1c 48 8b 47 40 83 40 08 01 f0 80 67 03 fe c3 f3 90 <48> 8b 07 a9 00 00 00 01 75 f4 eb d2 31 c0 eb e8 66 0f 1f 84 00 00
Nov 3 12:10:48 openmediavault-nas kernel: [52262.857186] RSP: 0018:ffffb6b581003a88 EFLAGS: 00000206 ORIG_RAX: ffffffffffffff13
Nov 3 12:10:48 openmediavault-nas kernel: [52262.857189] RAX: 000000001514e1de RBX: ffff9f1866d8a1b8 RCX: 0000000000000000
Nov 3 12:10:48 openmediavault-nas kernel: [52262.857190] RDX: 0000000000000000 RSI: fffff71282ecbe00 RDI: ffff9f1866d8a1b8
Nov 3 12:10:48 openmediavault-nas kernel: [52262.857192] RBP: ffffb6b581003bc0 R08: ffffb6b581003b40 R09: ffff9f182ddf5358
Nov 3 12:10:48 openmediavault-nas kernel: [52262.857193] R10: 0000000000000023 R11: ffff9f182ddf5379 R12: ffff9f1866d8a1b8
Nov 3 12:10:48 openmediavault-nas kernel: [52262.857194] R13: fffff71282ecbe00 R14: ffff9f1a051ad388 R15: ffff9f18d2616ca0
Nov 3 12:10:48 openmediavault-nas kernel: [52262.857203] jbd2_journal_try_to_free_buffers+0x89/0x100 [jbd2]
Nov 3 12:10:48 openmediavault-nas kernel: [52262.857208] shrink_page_list+0xadd/0xc40
Nov 3 12:10:48 openmediavault-nas kernel: [52262.857212] shrink_inactive_list+0x298/0x580
Nov 3 12:10:48 openmediavault-nas kernel: [52262.857215] shrink_node_memcg+0x365/0x770
Nov 3 12:10:48 openmediavault-nas kernel: [52262.857219] ? shrink_node+0xd8/0x490
Nov 3 12:10:48 openmediavault-nas kernel: [52262.857221] shrink_node+0xd8/0x490
Nov 3 12:10:48 openmediavault-nas kernel: [52262.857225] balance_pgdat+0x17b/0x360
Nov 3 12:10:48 openmediavault-nas kernel: [52262.857228] kswapd+0x1c6/0x410
Nov 3 12:10:48 openmediavault-nas kernel: [52262.857232] ? remove_wait_queue+0x60/0x60
Nov 3 12:10:48 openmediavault-nas kernel: [52262.857235] kthread+0xf8/0x130
Nov 3 12:10:48 openmediavault-nas kernel: [52262.857237] ? balance_pgdat+0x360/0x360
Nov 3 12:10:48 openmediavault-nas kernel: [52262.857239] ? kthread_create_worker_on_cpu+0x70/0x70
Nov 3 12:10:48 openmediavault-nas kernel: [52262.857242] ret_from_fork+0x22/0x40

Nov 3 12:11:13 openmediavault-nas kernel: [52288.037038] watchdog: BUG: soft lockup - CPU#2 stuck for 23s! [kswapd0:51]

Nov 3 12:11:13 openmediavault-nas kernel: [52288.037048] Modules linked in: softdog ipt_MASQUERADE nf_conntrack_netlink nfnetlink xfrm_user xfrm_algo xt_addrtype iptable_filter xt_conntrack br_netfilter bridge stp llc overlay tun xt_nat iptable_nat nf_conntrack_ipv4 nf_defrag_ipv4 nf_nat_ipv4 nf_nat nf_conntrack quota_v2 quota_tree edac_mce_amd kvm_amd ccp rng_core snd_hda_codec_realtek kvm snd_hda_codec_generic irqbypass ppdev evdev crct10dif_pclmul snd_hda_intel crc32_pclmul ghash_clmulni_intel snd_hda_codec snd_hda_core pcspkr snd_hwdep k10temp fam15h_power snd_pcm snd_timer snd soundcore sg sp5100_tco parport_pc parport pcc_cpufreq video button acpi_cpufreq sunrpc ip_tables x_tables autofs4 ext4 crc16 mbcache jbd2 fscrypto ecb btrfs zstd_decompress zstd_compress xxhash raid10 raid456 async_raid6_recov async_memcpy async_pq async_xor async_tx
Nov 3 12:11:13 openmediavault-nas kernel: [52288.037127] xor raid6_pq libcrc32c crc32c_generic raid1 raid0 multipath linear md_mod uas usb_storage sd_mod ohci_pci crc32c_intel aesni_intel aes_x86_64 ahci crypto_simd cryptd libahci glue_helper xhci_pci libata ohci_hcd ehci_pci xhci_hcd ehci_hcd i2c_piix4 usbcore scsi_mod usb_common r8169 mii

**Nov 3 12:11:13 openmediavault-nas kernel: [52288.037161] CPU: 2 PID: 51 Comm: kswapd0 Not tainted 4.18.0-0.bpo.1-amd64 #1 Debian 4.18.6-1~bpo9+1
Nov 3 12:11:13 openmediavault-nas kernel: [52288.037163] Hardware name: To Be Filled By O.E.M. To Be Filled By O.E.M./FM2A68M-HD+, BIOS P5.10 10/15/2018
Nov 3 12:11:13 openmediavault-nas kernel: [52288.037175] RIP: 0010:jbd2_journal_grab_journal_head+0x2a/0x40 [jbd2]
Nov 3 12:11:13 openmediavault-nas kernel: [52288.037176] Code: 0f 1f 44 00 00 f0 48 0f ba 2f 18 72 18 48 8b 07 a9 00 00 02 00 74 1c 48 8b 47 40 83 40 08 01 f0 80 67 03 fe c3 f3 90 48 8b 07 00 00 00 01 75 f4 eb d2 31 c0 eb e8 66 0f 1f 84 00 00 00 00 00 **


#2

De ce que j’ai vu par ci par là, 2 trucs à tester:

  • un nomodeset à ajouter comme argument de noyau au boot (à ajuster dans /etc/default/grub avant de faire un update-grub)
  • vérifier avec sensors que le probléme vient bien d’une tension trop basse et changer ton alimentation mourante (cf: https://forum.ubuntu-fr.org/viewtopic.php?id=1860981 )

#3

merci
j’ai essayé mais toujours rien.
meme avec un downgrade de kernel
j’ai aussi désactiver le watchdog


#4

Tu as déjà vérifié tes niveaux d’alimentation avec sensors pour voir si ça ne venait pas d’une alim défaillante, tu es sur ?


#5

oui mais je n’ai aucun retour avec sensors comme une incompatibilité
avant je tournais avec debian 9.5 en i386

la je suis passé en amd64 pour utilisé certain module sur omv non dispo en i386.
meme debian seul sans omv bug comme si le processeur ne suis pas ou est trop utilisé.

root@openmediavault-nas:~# sensors-detect

sensors-detect revision 6284 (2015-05-31 14:00:33 +0200)

Board: ASRock FM2A68M-HD+

Kernel: 4.9.0-3-amd64 x86_64

Processor: AMD Athlon™ X4 845 Quad Core Processor (21/96/1)

This program will help you determine which kernel modules you need
to load to use lm_sensors most effectively. It is generally safe
and recommended to accept the default answers to all questions,
unless you know what you’re doing.

Some south bridges, CPUs or memory controllers contain embedded sensors.
Do you want to scan for them? This is totally safe. (YES/no): y
Module cpuid loaded successfully.
Silicon Integrated Systems SIS5595… No
VIA VT82C686 Integrated Sensors… No
VIA VT8231 Integrated Sensors… No
AMD K8 thermal sensors… No
AMD Family 10h thermal sensors… No
AMD Family 11h thermal sensors… No
AMD Family 12h and 14h thermal sensors… No
AMD Family 15h thermal sensors… No
AMD Family 16h thermal sensors… No
AMD Family 15h power sensors… No
AMD Family 16h power sensors… No
Intel digital thermal sensor… No
Intel AMB FB-DIMM thermal sensor… No
Intel 5500/5520/X58 thermal sensor… No
VIA C7 thermal sensor… No
VIA Nano thermal sensor… No

Some Super I/O chips contain embedded sensors. We have to write to
standard I/O ports to probe them. This is usually safe.
Do you want to scan for Super I/O sensors? (YES/no): y
Probing for Super-I/O at 0x2e/0x2f
Trying family National Semiconductor/ITE'... No Trying familySMSC’… No
Trying family VIA/Winbond/Nuvoton/Fintek'... Yes FoundNuvoton NCT5573D/NCT5577D/NCT6776F Super IO Sensors’ Success!
(address 0x290, driver nct6775') Probing for Super-I/O at 0x4e/0x4f Trying familyNational Semiconductor/ITE’… No
Trying family SMSC'... No Trying familyVIA/Winbond/Nuvoton/Fintek’… No
Trying family `ITE’… No

Some systems (mainly servers) implement IPMI, a set of common interfaces
through which system health data may be retrieved, amongst other things.
We first try to get the information from SMBIOS. If we don’t find it
there, we have to read from arbitrary I/O ports to probe for such
interfaces. This is normally safe. Do you want to scan for IPMI
interfaces? (YES/no): y
Probing for IPMI BMC KCS' at 0xca0... No Probing forIPMI BMC SMIC’ at 0xca8… No

Some hardware monitoring chips are accessible through the ISA I/O ports.
We have to write to arbitrary I/O ports to probe them. This is usually
safe though. Yes, you do have ISA I/O ports even if you do not have any
ISA slots! Do you want to scan the ISA I/O ports? (yes/NO): y
Probing for National Semiconductor LM78' at 0x290... No Probing forNational Semiconductor LM79’ at 0x290… No
Probing for Winbond W83781D' at 0x290... No Probing forWinbond W83782D’ at 0x290… No

Lastly, we can probe the I2C/SMBus adapters for connected hardware
monitoring devices. This is the most risky part, and while it works
reasonably well on most systems, it has been reported to cause trouble
on some systems.
Do you want to probe the I2C/SMBus adapters now? (YES/no): y
Using driver `i2c-piix4’ for device 0000:00:14.0: AMD Hudson-2 SMBus
Module i2c-dev loaded successfully.

Next adapter: SMBus PIIX4 adapter port 0 at 0b00 (i2c-0)
Do you want to scan it? (yes/NO/selectively): y

Next adapter: SMBus PIIX4 adapter port 2 at 0b00 (i2c-1)
Do you want to scan it? (yes/NO/selectively): y

Next adapter: SMBus PIIX4 adapter port 3 at 0b00 (i2c-2)
Do you want to scan it? (yes/NO/selectively): y

Next adapter: SMBus PIIX4 adapter port 4 at 0b00 (i2c-3)
Do you want to scan it? (yes/NO/selectively): y

Next adapter: SMBus PIIX4 adapter port 1 at 0b20 (i2c-4)
Do you want to scan it? (yes/NO/selectively): y
y

Now follows a summary of the probes I have just done.
Just press ENTER to continue:
Driver `nct6775’:

  • ISA bus, address 0x290
    Chip `Nuvoton NCT5573D/NCT5577D/NCT6776F Super IO Sensors’ (confidence: 9)

To load everything that is needed, add this to /etc/modules:
#----cut here----

Chip drivers

nct6775
#----cut here----
If you have some drivers built into your kernel, the list above will
contain too many modules. Skip the appropriate ones!

Do you want to add these lines automatically to /etc/modules? (yes/NO)y
Successful!

Monitoring programs won’t work until the needed modules are
loaded. You may want to run ‘/etc/init.d/kmod start’
to load them.

Unloading i2c-dev… OK
Unloading cpuid… OK

root@openmediavault-nas:~# sensors
fam15h_power-pci-00c4
Adapter: PCI adapter
power1: 0.00 W (avg = 0.00 W, interval = 0.01 s)
(crit = 65.00 W)

k10temp-pci-00c3
Adapter: PCI adapter
temp1: +3.8°C (high = +70.0°C)
(crit = +70.0°C, hyst = +69.0°C)


#6

Théoriquement, ce module là là aurait du te donner des infos d’alim avec les diverses tensions.
Chez moi:

nct6792-isa-0a10
Adapter: ISA adapter
in0:                    +0.90 V  (min =  +0.00 V, max =  +1.74 V)
in1:                    +1.02 V  (min =  +0.00 V, max =  +0.00 V)  ALARM
in2:                    +3.38 V  (min =  +0.00 V, max =  +0.00 V)  ALARM
(...)

Je vois que tu as accepté qu’il soit ajouté à /etc/modules, mais j’ai l’impression que le module ne s’est pas chargé pour autant.
Le vois tu avec lsmod | grep nct6775 ?
Sinon, est ce que modprobe nct6775 se passe bien ?
Que dit sensors aprés insertion du module, cette fois ?


#7

Il ne se passe rien.

Mon alim 350 W est neuf donc c’Est bizarre que sa vienne de la.

• je pense que ma config AMD n’est pas très supportée par debian 64
• avec un vieux pc dell tout tourne INTEL
• et aussi en debian i386 sauf que je ne peux pas utiliser certains plugin d’ou le choix en 64

J’ai refait une install au propre et j’ai augmenté le swap mais toujours le même problème.

Je me suis rendu compte avec $ top
Que kswapd utilise 100% de ma cpu donc le watchdog cpu s’active

J’utIlise sonarr radarr transmissionvpn avec docker

J’ai aussi lancer les commandes echo 3… pour vider le cache et le swap
Mais sa ne résout rien


#8

Nan, mais il se charge bien au moins ou pas ?

Le portage des processeurs x86 en 64 bits, nommé justement amd64, s’est faite pour justement supporter les processeurs 64 bits AMD, les intel étant à l’époque en ia64, et ce n’est aprés qu’intel à repris la même architecture pour ses 64 bits grand public et s’est intègré au portage amd64.
Ca m’étonnerait donc que ça soit “mal gèré”.

Oui, mais parfois, tu as des défauts avec des composants neufs foireux, et la connectique interne d’alimentation peut aussi être mal branchée.


#9

oui ça à fonctionner merci :sunglasses:

J’ai du mal à déchifrer peu tu me guider stp

voici la capture :
Capture


#10

@mattotop mais c’est quoi le lien entre la tension et kswapd ?
d’après ce que je comprend les swap c’est la memoire virtuel


#11

Bon, ben c’est pas gagné:
c’est souvent, mais là on a pas d’infos sur les valeurs standard.
Du coup, je suis aussi incompétent que toi pour savoir si c’est bon ou pas…

Oui, le swap est une extension de la mémoire physique (partition ou fichier disque, clé usb, etc), les données des programmes chargés étant stockées dans le swap plutôt qu’en mémoire physique quand elles sont peu sollicitées.
cf: https://help.ubuntu.com/community/SwapFaq#What_is_swap.3F

kswapd est un service du systéme qui assure une répartition optimale entre ce qui doit rester en ram pour un accés plus rapide, et ce qui est swappé, en général sur un disque, dont l’accés est des centaines ou milliers de fois plus lent que pour la RAM physique.

Le lien entre la tension et la surcharge de kswapd ?
La gestion du matériel repose sur des échanges entre le noyau et les différents dispositifs par l’intermédiaire de buffers d’entrée sortie. Au cas ou la communication ne se fait pas correctement en sortie de buffer vers un périphérique, ces buffers peuvent saturer et bouffer de plus en plus de RAM
Là, un de tes processeurs ne répond plus aux demandes de kswapd manifestement, et (là c’est au feeling que je dis ça), tu as peut être une mauvaise boucle qui fait que kswapd envoie des commandes d’opération de swap au processeur, qui n’aboutissent pas, ce qui augmente la ram utilisée par les buffers, ce qui fait que kswapd demande encore plus d’opérations de swap, ce qui sature encore plus les buffers, et on continue la boucle avec kswapd qui bosse de plus en plus, tes buffers qui saturent la ram…
C’est un truc comme ça, ou mon imagination, c’est trop pointu pour moi.

En fait, je t’ai suggéré que ça pouvait venir d’un pb de tension parce que sur ton erreur soft lockup - CPU#2 stuck for 23s!, c’est une cause qui semble revenir souvent, pas parce que je vois parfaitement le lien entre tout dans tout ça.
Mais je n’ai aucune certitude que ce soit ça, la tension affichée sur sensors ne me choque pas spécialement (mais sans savoir ce qui doit être choquant, je passe peut être à coté de quelquechose).

Bref, là, je suis paumé comme toi sur ce qu’il pourrait y avoir à faire, du coup.


#12

Juste au passage nus n’avons toujours pas trouvé d’où proviens la même erreur sur des serveur fonctionnant sur Xenserver, le fait est que le CPU à un moment donné fige tous les traitements mais nous n’avons pour l’instant jamais trouvé de relation avec un éventuel problème de tension ou souci d’alimentation/matériel sur les différents châssis :confused:

après le plus important serait surtout de voir ce qu’il y a derrière le PID 51 dans le cas présent :

Nov 3 12:10:48 openmediavault-nas kernel: [52262.857067] CPU: 2 PID: 51 Comm: kswapd0 Not tainted

Et voir si c’est systématiquement la même chose derrière les soft lockup … sinon autre piste le throttling due à une température mal contrôlée.


#13

merci
je vais continué mes recherches,
c’est chiant car je galère
c’est la premiere fois que j’ai ces problèmes cela fait 2 ans que j’utilise omv et debian jamais eu de soucis a