Freeze partiel de KDE DEBIAN 11

Bonjour à tous,

Depuis un certain temps j’ai le bureau KDE sous Debian 11 qui freeze: la barre de tâche ne répond plus, impossible de changer d’activité, d’accéder au menu K ou de rebooter. Souris et clavier fonctionnent sur le reste de l’écran courant de l’activité en cours, les applications des fenêtre visibles fonctionnent.
Ca se passe généralement après un accès à un site via firefox mais je ne peux reproduire systématiquement le bug.
C’est la première fois, depuis que je suis sous Linux, en 2003, que je suis obligé de passer par un terminal pour rebooter. Le système refonctionne alors correctement pour quelque temps.

J’ai relevé ces messages dans syslog avant le dernier freeze:

Mar 23 09:27:43 kmcs kernel: [420375.912061] nouveau 0000:01:00.0: timeout
Mar 23 09:27:43 kmcs kernel: [420375.912091] WARNING: CPU: 3 PID: 204980 at drivers/gpu/drm/nouveau/nvkm/subdev/pmu/base.c:107 nvkm_pmu_reset+0x151/0x170 [nouveau]
...
Mar 23 10:32:04 kmcs kernel: [424236.501831] nouveau 0000:01:00.0: timeout
Mar 23 10:32:04 kmcs kernel: [424236.501861] WARNING: CPU: 2 PID: 209103 at drivers/gpu/drm/nouveau/nvkm/subdev/pmu/base.c:107 nvkm_pmu_reset+0x151/0x170 [nouveau]
...
Mar 23 10:33:02 kmcs org.freedesktop.Notifications[209117]: org.kde.knotifications: WaitForName: Service was not registered within timeout
Mar 23 10:33:02 kmcs dbus-daemon[209084]: [session uid=1000 pid=209084] Activated service 'org.freedesktop.Notifications' failed: Process org.freedesktop.Notifications exited with status 1
...
Mar 23 10:40:03 kmcs dbus-daemon[209084]: [session uid=1000 pid=209084] Activated service 'org.freedesktop.Notifications' failed: Process org.freedesktop.Notifications exited with status 1
...
Mar 23 10:46:18 kmcs kernel: [425090.254402] nouveau 0000:01:00.0: timeout
Mar 23 10:46:18 kmcs kernel: [425090.254429] WARNING: CPU: 4 PID: 208999 at drivers/gpu/drm/nouveau/nvkm/subdev/pmu/base.c:107 nvkm_pmu_reset+0x151/0x170 [nouv
...
Mar 23 10:49:34 kmcs kernel: [425286.124705] nouveau 0000:01:00.0: timeout
Mar 23 10:49:34 kmcs kernel: [425286.124733] WARNING: CPU: 7 PID: 209000 at drivers/gpu/drm/nouveau/nvkm/subdev/pmu/base.c:107 nvkm_pmu_reset+0x151/0x170 [nouveau]
...
Mar 23 10:50:03 kmcs kernel: [425315.740820] nouveau 0000:01:00.0: timeout
Mar 23 10:50:03 kmcs kernel: [425315.740849] WARNING: CPU: 2 PID: 207371 at drivers/gpu/drm/nouveau/nvkm/subdev/pmu/base.c:107 nvkm_pmu_reset+0x151/0x170 [nouveau]
...
Mar 23 10:52:04 kmcs kernel: [425436.037433] nouveau 0000:01:00.0: timeout
Mar 23 10:52:04 kmcs kernel: [425436.037462] WARNING: CPU: 1 PID: 201200 at drivers/gpu/drm/nouveau/nvkm/subdev/pmu/base.c:107 nvkm_pmu_reset+0x151/0x170 [nouveau]
...
Mar 23 10:52:47 kmcs kernel: [425479.103782] nouveau 0000:01:00.0: timeout
Mar 23 10:52:47 kmcs kernel: [425479.103810] WARNING: CPU: 1 PID: 201200 at drivers/gpu/drm/nouveau/nvkm/subdev/pmu/base.c:107 nvkm_pmu_reset+0x151/0x170 [nouveau]
...
Mar 23 10:54:12 kmcs kernel: [425564.170050] nouveau 0000:01:00.0: timeout
Mar 23 10:54:12 kmcs kernel: [425564.170077] WARNING: CPU: 7 PID: 209000 at drivers/gpu/drm/nouveau/nvkm/subdev/pmu/base.c:107 nvkm_pmu_reset+0x151/0x170 [nouveau]
...
Mar 23 10:54:38 kmcs kernel: [425590.229643] nouveau 0000:01:00.0: timeout
Mar 23 10:54:38 kmcs kernel: [425590.229671] WARNING: CPU: 3 PID: 208557 at drivers/gpu/drm/nouveau/nvkm/subdev/pmu/base.c:107 nvkm_pmu_reset+0x151/0x170 [nouveau]
Mar 23 10:54:38 kmcs kernel: [425590.229727] Modules linked in: sd_mod sg uas usb_storage uinput rfcomm cmac algif_hash algif_skcipher af_alg intel_rapl_msr intel_rapl_common snd_sof_pci snd_sof_intel_byt snd_sof_intel_ipc snd_sof_intel_hda_common snd_hda_codec_hdmi snd_sof_xtensa_dsp snd_sof snd_hda_codec_realtek bnep snd_sof_intel_hda snd_soc_hdac_hda snd_hda_ext_core snd_hda_codec_generic snd_soc_acpi_intel_match snd_soc_acpi ledtrig_audio snd_hda_intel x86_pkg_temp_thermal snd_intel_dspcfg intel_powerclamp soundwire_intel coretemp soundwire_generic_allocation btusb btrtl btbcm btintel mei_hdcp snd_soc_core snd_compress kvm_intel bluetooth iwlmvm soundwire_cadence snd_hda_codec jitterentropy_rng drbg kvm snd_hda_core nls_ascii irqbypass uvcvideo nls_cp437 mac80211 snd_hwdep videobuf2_vmalloc ghash_clmulni_intel vfat libarc4 aes_generic videobuf2_memops soundwire_bus rapl videobuf2_v4l2 intel_cstate fat aesni_intel joydev videobuf2_common intel_uncore snd_pcm crypto_simd iwlwifi iTCO_wdt snd_timer asus_wmi cryptd
Mar 23 10:54:38 kmcs kernel: [425590.229755]  serio_raw videodev intel_pmc_bxt pcspkr glue_helper sparse_keymap iTCO_vendor_support snd ansi_cprng wmi_bmof ecdh_generic watchdog mc soundcore cfg80211 ecc libaes mei_me hid_multitouch mei rfkill intel_pch_thermal tpm_crb tpm_tis tpm_tis_core evdev tpm rng_core intel_pmc_core acpi_pad acpi_tad ac parport_pc ppdev lp parport fuse configfs ip_tables x_tables autofs4 ext4 crc16 mbcache jbd2 crc32c_generic usbhid hid_generic i915 nouveau ttm nvme i2c_algo_bit xhci_pci nvme_core drm_kms_helper r8169 xhci_hcd ahci libahci t10_pi realtek crc_t10dif mdio_devres libata crct10dif_generic cec crc32_pclmul libphy crct10dif_pclmul usbcore intel_lpss_pci crct10dif_common drm i2c_i801 intel_lpss crc32c_intel scsi_mod i2c_hid idma64 i2c_smbus usb_common hid battery mxm_wmi wmi video button
Mar 23 10:54:38 kmcs kernel: [425590.229790] CPU: 3 PID: 208557 Comm: kworker/3:2 Tainted: G        W         5.10.0-10-rt-amd64 #1 Debian 5.10.84-1
...
Mar 23 10:56:19 kmcs kernel: [    4.082255] nouveau 0000:01:00.0: timeout
Mar 23 10:56:19 kmcs kernel: [    4.082264] WARNING: CPU: 7 PID: 200 at drivers/gpu/drm/nouveau/nvkm/subdev/pmu/base.c:107 nvkm_pmu_reset+0x151/0x170 [nouveau]
Mar 23 10:56:19 kmcs kernel: [    4.082325] Modules linked in: usbhid hid_generic i915 nouveau(+) nvme ahci ttm libahci i2c_algo_bit xhci_pci nvme_core mxm_wmi r8169 t10_pi drm_kms_helper xhci_hcd crc_t10dif realtek crct10dif_generic libata mdio_devres cec crc32_pclmul crct10dif_pclmul intel_lpss_pci crct10dif_common libphy crc32c_intel usbcore i2c_i801 drm intel_lpss i2c_hid scsi_mod i2c_smbus idma64 usb_common hid battery video wmi button
Mar 23 10:56:19 kmcs kernel: [    4.082337] CPU: 7 PID: 200 Comm: systemd-udevd Not tainted 5.10.0-10-rt-amd64 #1 Debian 5.10.84-1
Mar 23 10:56:19 kmcs kernel: [    4.082338] Hardware name: SLIMBOOK PROX14-10/PROX14-10, BIOS N.1.05 02/21/2020
Mar 23 10:56:19 kmcs kernel: [    4.082339] BUG: using smp_processor_id() in preemptible [00000000] code: systemd-udevd/200
Mar 23 10:56:19 kmcs kernel: [    4.082340] caller is print_stop_info+0x1b/0x40

On voit qu’après le message de dbus-daemon à 10:40 les timeout processeurs s’intensifient. Je n’ai pas rèeussi à trouver d’autres éléments plus précis.

Quelqu’un peut-il m’indiquer une méthode pour débugger ça ?

J’ai sauvegardé tous les logs du moment.

Bonjour,

On voit aussi qu’avant ce message il y en a un qui semble grave et qui mérite qu’on fasse des recherches avec cette ligne en erreur, qui mérite toute ton attention :

Et il y a de la lecture à son propos sur le web (mais je n’ai pas fouillé plus).

Bonsoir,

Dans ton syslog, on voit plusieurs références au pilote graphique libre « nouveau » concernant un GPU NVIDIA…
Peut-être essayer l’installation du pilote propriétaire NVIDIA adapté à ta carte graphique, si possible ?
Il y a le paquet nvidia-detect qui permet de déterminer la version appropriée du pilote à installer ?

A+

Il y a une raison particulière pour utiliser le noyau avec le patch RT (realtime) ?

je suis musicien, je fais de l’enregistrement et nécessite une latence la plus basse possible. Mais le bug ne se produit pas spécialement durant ce type d’utilisation.

J’ai installé nvidia-detect et le driver nvidia conseillé.

# nvidia-detect
Detected NVIDIA GPUs:
01:00.0 3D controller [0302]: NVIDIA Corporation GP108M [GeForce MX250] [10de:1d13] (rev a1)

Checking card:  NVIDIA Corporation GP108M [GeForce MX250] (rev a1)
Your card is supported by the default drivers.
Your card is also supported by the Tesla 460 drivers series.
Your card is also supported by the Tesla 450 drivers series.
Your card is also supported by the Tesla 418 drivers series.
It is recommended to install the
    nvidia-driver
package.
root@kmcs:/home/kmc# dpkg -l nvidia*|grep ii
ii  nvidia-alternative               460.91.03-1  amd64        allows the selection of NVIDIA as GLX provider
ii  nvidia-detect                    460.91.03-1  amd64        NVIDIA GPU detection utility
ii  nvidia-driver                    460.91.03-1  amd64        NVIDIA metapackage
ii  nvidia-driver-bin                460.91.03-1  amd64        NVIDIA driver support binaries
ii  nvidia-driver-libs:amd64         460.91.03-1  amd64        NVIDIA metapackage (OpenGL/GLX/EGL/GLES libraries)
ii  nvidia-driver-libs:i386          460.91.03-1  i386         NVIDIA metapackage (OpenGL/GLX/EGL/GLES libraries)
ii  nvidia-egl-common                460.91.03-1  amd64        NVIDIA binary EGL driver - common files
ii  nvidia-egl-icd:amd64             460.91.03-1  amd64        NVIDIA EGL installable client driver (ICD)
ii  nvidia-egl-icd:i386              460.91.03-1  i386         NVIDIA EGL installable client driver (ICD)
ii  nvidia-installer-cleanup         20151021+13  amd64        cleanup after driver installation with the nvidia-installer
ii  nvidia-kernel-common             20151021+13  amd64        NVIDIA binary kernel module support files
ii  nvidia-kernel-dkms               460.91.03-1  amd64        NVIDIA binary kernel module DKMS source
ii  nvidia-kernel-support            460.91.03-1  amd64        NVIDIA binary kernel module support files
ii  nvidia-legacy-check              460.91.03-1  amd64        check for NVIDIA GPUs requiring a legacy driver
ii  nvidia-modprobe                  460.32.03-1  amd64        utility to load NVIDIA kernel modules and create device nodes
ii  nvidia-persistenced              460.32.03-1  amd64        daemon to maintain persistent software state in the NVIDIA driver
ii  nvidia-settings                  460.91.03-1  amd64        tool for configuring the NVIDIA graphics driver
ii  nvidia-smi                       460.91.03-1  amd64        NVIDIA System Management Interface
ii  nvidia-support                   20151021+13  amd64        NVIDIA binary graphics driver support files
ii  nvidia-vdpau-driver:amd64        460.91.03-1  amd64        Video Decode and Presentation API for Unix - NVIDIA driver
ii  nvidia-vulkan-common             460.91.03-1  amd64        NVIDIA Vulkan driver - common files
ii  nvidia-vulkan-icd:amd64          460.91.03-1  amd64        NVIDIA Vulkan installable client driver (ICD)
ii  nvidia-vulkan-icd:i386           460.91.03-1  i386         NVIDIA Vulkan installable client driver (ICD)

Mais :

# systemctl status nvidia-persistenced.service
● nvidia-persistenced.service - NVIDIA Persistence Daemon
     Loaded: loaded (/lib/systemd/system/nvidia-persistenced.service; enabled; vendor preset: enabled)
     Active: failed (Result: exit-code) since Thu 2022-03-24 16:20:46 CET; 1h 9min ago
    Process: 662 ExecStart=/usr/bin/nvidia-persistenced --user nvpd (code=exited, status=1/FAILURE)
    Process: 697 ExecStopPost=/bin/rm -rf /var/run/nvidia-persistenced (code=exited, status=0/SUCCESS)
        CPU: 12ms

mars 24 16:20:46 kmcs systemd[1]: Starting NVIDIA Persistence Daemon...
mars 24 16:20:46 kmcs nvidia-persistenced[664]: Started (664)
mars 24 16:20:46 kmcs nvidia-persistenced[664]: Failed to query NVIDIA devices. Please ensure that the NVIDIA device files (/dev/nvidia*) exist, and that user>
mars 24 16:20:46 kmcs nvidia-persistenced[664]: Shutdown (664)
mars 24 16:20:46 kmcs nvidia-persistenced[662]: nvidia-persistenced failed to initialize. Check syslog for more details.
mars 24 16:20:46 kmcs systemd[1]: nvidia-persistenced.service: Control process exited, code=exited, status=1/FAILURE
mars 24 16:20:46 kmcs systemd[1]: nvidia-persistenced.service: Failed with result 'exit-code'.
mars 24 16:20:46 kmcs systemd[1]: Failed to start NVIDIA Persistence Daemon.

Lors de l’install il y a eu un message disant qu’il y avait conflit avec le driver nouveau et qu’il fallait rebooter.
Puis-je supprimer le driver en question sans risque de me retrouver sans écran ?

# dpkg -l  *nouveau*
Souhait=inconnU/Installé/suppRimé/Purgé/H=à garder
| État=Non/Installé/fichier-Config/dépaqUeté/échec-conFig/H=semi-installé/W=attend-traitement-déclenchements
|/ Err?=(aucune)/besoin Réinstallation (État,Err: majuscule=mauvais)
||/ Nom                        Version      Architecture Description
+++-==========================-============-============-======================================================================
ii  libdrm-nouveau2:amd64      2.4.104-1    amd64        Userspace interface to nouveau-specific kernel DRM services -- runtime
ii  libdrm-nouveau2:i386       2.4.104-1    i386         Userspace interface to nouveau-specific kernel DRM services -- runtime
ii  xserver-xorg-video-nouveau 1:1.0.17-1   amd64        X.Org X server -- Nouveau display driver

Bonsoir,

As-tu redémarré après l’installation du pilote NVIDIA pour prendre en compte ?
Si oui et que ça ne fonctionne pas mieux pour toi, je crois qu’il devrait suffire de supprimer le méta-paquet nvidia-driver pour désinstaller ce pilote (à toi de vérifier si toutes les autres dépendances sont supprimées en même temps…)

Avant de redémarrer, vérifier aussi s’il ne reste pas d’entrées non-commentées blacklist nouveau dans les fichiers du répertoire /etc/modprobe.d :

grep nouveau /etc/modprobe.d/*.conf

Un redémarrage devrait alors se faire sur « nouveau » ?

A+

Oui.
Mais avant de revenir en arrière j’aimerais vérifier que le driver Nvidia est bien chargé et accessoirement pourquoi il ne fonctionne pas. Voici l’état actuel du chargement des drivers:

~$ exit
déconnexion
Connection to 94.23.227.123 closed.
~$ grep nouveau /etc/modprobe.d/*.conf
/etc/modprobe.d/nvidia-blacklists-nouveau.conf:blacklist nouveau
~$ grep nvidia /etc/modprobe.d/*.conf
/etc/modprobe.d/nvidia.conf:install nvidia modprobe -i nvidia-current $CMDLINE_OPTS
/etc/modprobe.d/nvidia.conf:install nvidia-modeset modprobe nvidia ; modprobe -i nvidia-current-modeset $CMDLINE_OPTS
/etc/modprobe.d/nvidia.conf:install nvidia-drm modprobe nvidia-modeset ; modprobe -i nvidia-current-drm $CMDLINE_OPTS
/etc/modprobe.d/nvidia.conf:install nvidia-uvm modprobe nvidia ; modprobe -i nvidia-current-uvm $CMDLINE_OPTS
/etc/modprobe.d/nvidia.conf:remove nvidia modprobe -r -i nvidia-drm nvidia-modeset nvidia-uvm nvidia
/etc/modprobe.d/nvidia.conf:remove nvidia-modeset modprobe -r -i nvidia-drm nvidia-modeset
/etc/modprobe.d/nvidia.conf:# These aliases are defined in *all* nvidia modules.
/etc/modprobe.d/nvidia.conf:alias       pci:v000010DEd00000E00sv*sd*bc04sc80i00*        nvidia
/etc/modprobe.d/nvidia.conf:alias       pci:v000010DEd00000AA3sv*sd*bc0Bsc40i00*        nvidia
/etc/modprobe.d/nvidia.conf:alias       pci:v000010DEd*sv*sd*bc03sc02i00*               nvidia
/etc/modprobe.d/nvidia.conf:alias       pci:v000010DEd*sv*sd*bc03sc00i00*               nvidia
/etc/modprobe.d/nvidia-kernel-common.conf:alias char-major-195* nvidia
/etc/modprobe.d/nvidia-kernel-common.conf:#options nvidia NVreg_DeviceFileUID=0 NVreg_DeviceFileGID=44 NVreg_DeviceFileMode=0660
/etc/modprobe.d/nvidia-kernel-common.conf:# options nvidia NVreg_EnableAGPSBA=1
/etc/modprobe.d/nvidia-kernel-common.conf:# options nvidia NVreg_EnableAGPFW=1

Des pistes pour savoir pourquoi le nvidia ne fonctionne pas ?

Je ne comprends pas. Si nvidia driver ne fonctionne pas et si nouveau est blacklisté, avec quoi mon écran continue à fonctionner comme d’habitude ?

Bonjour,

À date, rien n’indique que le pilote NVIDIA ne fonctionne pas…

Le «blacklistage» du pilote nouveau est normal lorsque l’on installe le pilote proprio NVIDIA.
Le fichier /etc/modprobe.d/nvidia-blacklists-nouveau.conf qui implémente le «blacklistage» de nouveau devrait être supprimé avec la désinstallation du pilote proprio NVIDIA, sinon il faut le supprimer à la main avant de redémarrer si on désire repasser sur nouveau après avoir supprimé les paquets du pilote propriétaire.

Pour avoir une idée de quel pilote est actuellement chargé :
lsmod | grep -E "nouveau|nvidia"
lspci -nnkd ::0300

Tout ça pour dire que tes gels intempestifs ne sont peut-être pas dûs au pilote graphique, je suggérais l’essai du pilote proprio afin de voir si ça pouvait faire une différence à ce niveau.

A+

~$ lsmod | grep -E "nouveau|nvidia"
lspci -nnkd ::0300
00:02.0 VGA compatible controller [0300]: Intel Corporation CometLake-U GT2 [UHD Graphics] [8086:9b41] (rev 02)
        DeviceName: Onboard - Video
        Subsystem: Tongfang Hongkong Limited UHD Graphics [1d05:107a]
        Kernel driver in use: i915
        Kernel modules: i915

Puis je en déduire que ni nouveau ni nvidia-driver ne sont chargés mais le pilote générique i915 ?
Je ne remarque aucune différence à l’affichage usuel.

Le gel étant aléatoire, comment forcer le chargement du driver-nvidia pour voir si ça influe ?

Bonjour,

Tu as un système à deux processeurs graphiques, et c’est le processeur Intel de la carte mère utilisant le module i915 qui était utilisé au moment où tu as passé les commandes demandées

Pour le voir, essaie plutôt :

lsmod | grep -E "nouveau|nvidia|i915"
lspci -vnnk | grep -A 12 '\''[030[02]\]' | grep -iE "vga|3d|display|kernel"

Je ne sais pas comment basculer d’une carte graphique à l’autre sur Debian, désolé…

A+