Freeze hardware

Bonjour,

J’ai un nouveau PC qui marche globalement bien mais qui me fait des freeze parfois temporaire, parfois complet (surtout au réveil).
Je viens d’en avoir un de partiel, ce qui m’a permis d’aller jeter un oeil au log à ce moment là, mais je ne sais pas interpreter ce que j’ai trouvé.

11:08:29 kernel: amdgpu 0000:0a:00.0: amdgpu: ring gfx_0.0.0 timeout, but soft recovered
11:08:19 kernel: amdgpu 0000:0a:00.0: amdgpu: 	 RW: 0x0
11:08:19 kernel: amdgpu 0000:0a:00.0: amdgpu: 	 MAPPING_ERROR: 0x0
11:08:19 kernel: amdgpu 0000:0a:00.0: amdgpu: 	 PERMISSION_FAULTS: 0x3
11:08:19 kernel: amdgpu 0000:0a:00.0: amdgpu: 	 WALKER_ERROR: 0x0
11:08:19 kernel: amdgpu 0000:0a:00.0: amdgpu: 	 MORE_FAULTS: 0x0
11:08:19 kernel: amdgpu 0000:0a:00.0: amdgpu: 	 Faulty UTCL2 client ID: SQC (data) (0xa)
11:08:19 kernel: amdgpu 0000:0a:00.0: amdgpu: GCVM_L2_PROTECTION_FAULT_STATUS:0x00701430
11:08:19 kernel: amdgpu 0000:0a:00.0: amdgpu:   in page starting at address 0x0000c169bd2c3000 from client 0x1b (UTCL2)
11:08:19 kernel: amdgpu 0000:0a:00.0: amdgpu:  in process chromium pid 3086 thread chromium:cs0 pid 3113
11:08:19 kernel: amdgpu 0000:0a:00.0: amdgpu: [gfxhub] page fault (src_id:0 ring:24 vmid:7 pasid:60)

Il semble en effet que c’est surtout des freezes avec chromium, mais c’est peut-être juste qu’il est souvent ouvert.

J’apprécierait beaucoup si quelqu’un pouvais me donner une direction de recherche…

Merci

Il faudrait donc commencer par désactiver l’accélération matériel de Chromium.
Ça pourrait suffire.

Un peu de visibilité sur l’anatomie du malade serait bienvenue:

uname -a
glxinfo | grep OpenGL
dpkg-query -f '${Package;-30} ${Version}\n' --show xserver-xorg-video-amdgpu libdrm-amdgpu1 libglx-mesa0 firmware-amd-graphics | uniq
env |grep 'DESKTOP_SESSION\|XDG_SESSION_TYPE'
cat /proc/cmdline

Sinon, il faudrait essayer:
• désactiver dans le BIOS la carte graphique intégrée, si deuxième carte graphique (si = hypothèse)
• rajouter amdgpu.vm_update_mode=3 en option de noyau (voir grub ou autre boot-loader), ou en éditant grub (si grub) en l’arrêtant au boot au moins pour essai volatile.

Avant d’essayer quoique ce soit et de recommander à essayer quoique ce soit, il serait bien d’attendre le retour des commandes demandées :wink:

Ensuite, tu demandes à rajouter des commandes développeurs en option de noyau, sans expliquer quoique ce soit, sans donner une raison. Car en informant de cet usage, tu pars du prédicat qu’il a 2 GPU, un intégré, et un « externe ». Ce que tu ne peux pas savoir dans le contexte des informations données par @fdf

LA raison pour laquelle, il pourrait être intéressant de l’utiliser est de « dire au noyau lors du démarrage d’être capable de surcharger le mode de mise à jour de l’espace virtuel par l’utilisation des deux adressages de mémoire virtuelle des GPU » ; cette fonctionnalité du noyau est disponible seulement pour certains systèmes, sinon cette fonctionnalité sera tout simplement ignorée !

Only in large BAR(LB) systems Compute VM tables will be updated by CPU, otherwise 0, never.

Là, personnellement, je suis incapable de dire si c’est le cas de sa machine !
L’es-tu ?
Si oui, expliques, stp.

Ça fait beaucoup de prose tout ça.
‹ désactiver dans le BIOS la carte graphique intégrée, si deuxième carte graphique › n’est pas un prédicat, mais seulement une hypothèse.
Il n’y a strictement aucun danger ou risque à tester l’option ‹ amdgpu.vm_update_mode=3 ›, largement connue pour résoudre le problème du même type et connu.

Puisque l’option ‹ amdgpu.vm_update_mode=3 › t’intéresse à titre personnel:

It’s a driver bug related to updating the GPU’s virtual memory page table.
Setting the kernel parameter amdgpu.vm_update_mode=3 fixes the issue.
It forces the update to be done by the CPU, it seems it’s more reliable and has no visible performance issue.
[1] - [2]

Bonjour,
Merci pour la réponse. J’ai supprimé l’accelération matériel, c’était une approche très simple.

Un peu plus de détail maintenant. Il n’y a pas de deuxième GPU, seulement la carte intégrée.
et voici les résultats de commandes

root@Maison:~# uname -a
Linux Maison 6.12.86+deb13-amd64 #1 SMP PREEMPT_DYNAMIC Debian 6.12.86-1 (2026-05-08) x86_64 GNU/Linux
root@Maison:~# glxinfo | grep OpenGL
Error: unable to open display 

root@Maison:~# dpkg-query -f '${Package;-30} ${Version}\n' --show xserver-xorg-video-amdgpu libdrm-amdgpu1 libglx-mesa0 firmware-amd-graphics | uniq
firmware-amd-graphics          20250410-2
libdrm-amdgpu1                 2.4.124-2
libglx-mesa0                   25.0.7-2
xserver-xorg-video-amdgpu      23.0.0-1

root@Maison:~# env |grep 'DESKTOP_SESSION\|XDG_SESSION_TYPE'
XDG_SESSION_TYPE=tty
root@Maison:~# cat /proc/cmdline
BOOT_IMAGE=/boot/vmlinuz-6.12.86+deb13-amd64 root=UUID=3fe6ada8-0750-45f7-9e51-5beddb047a67 ro quiet

À l’instant, je suppose que la solution raisonnable est d’attendre de voir si la suppression de l’accelération matériel dans Chromium suffit à résoudre le problème,
Sinon, puisque tu me dis qu’il n’y a pas de risque, rajouter le amdgpu.vm_update_mode=3

À bien sur adapter si avec les détails de la config matérielle, d’autre options apparaissent.

Merci bien à tous les deux.

J’aurais préféré que tu testes uniquement la désactivation matérielle dans un premier temps pour voir si effet, et si pas d’effet complémenter avec amdgpu.vm_update_mode=3

Ça c’est normal puisque root n’a pas de display.
L’Opengl c’est pour le user uniquement.
Es-tu sous X11 ou Wayland ?

Il y a quelques points qui me surprennent pour le reste, mais pas le temps maintenant.

Wayland
Je n’ai pas encore amdgpu.vm… Ce sera dans un deuxième temps si probleme pas résolu.

nous@Maison:~$ glxinfo | grep OpenGL
OpenGL vendor string: AMD
OpenGL renderer string: AMD Radeon Graphics (radeonsi, raphael_mendocino, LLVM 19.1.7, DRM 3.61, 6.12.86+deb13-amd64)
OpenGL core profile version string: 4.6 (Core Profile) Mesa 25.0.7-2
OpenGL core profile shading language version string: 4.60
OpenGL core profile context flags: (none)
OpenGL core profile profile mask: core profile
OpenGL core profile extensions:
OpenGL version string: 4.6 (Compatibility Profile) Mesa 25.0.7-2
OpenGL shading language version string: 4.60
OpenGL context flags: (none)
OpenGL profile mask: compatibility profile
OpenGL extensions:
OpenGL ES profile version string: OpenGL ES 3.2 Mesa 25.0.7-2
OpenGL ES profile shading language version string: OpenGL ES GLSL ES 3.20
OpenGL ES profile extensions:

Merci déjà.

Pas de nouvelles bonnes nouvelles ?
En complément, ce n’est pas une bonne habitude de mon point de vue de lancer par défaut toutes les commandes dans un terminal root, même plus, hyper dangereux.
Un navigateur internet a besoin de détecter correctement l’environnement utilisateur.

Commandes en user:

echo "$XDG_SESSION_TYPE - $DESKTOP_SESSION"

eglinfo -B -p wayland

eglinfo -p wayland |grep memory: |tail -n3

glxgears    # pour voir si ça plante

En effet, pas de nouvelle, bonne nouvelle sur le principe. Et en effet pour les commandes en root. J’avais mal évalué, Je pensais que c’était des commandes de lecture d’info uniquement, donc normallement pas d’impact s’il y a une erreure. Mais oui, sur le principe c’est pas terrible.

Gears tourne normallement

sortie:

wayland - gnome
Wayland platform:
EGL API version: 1.5
EGL vendor string: Mesa Project
EGL version string: 1.5
EGL client APIs: OpenGL OpenGL_ES 
OpenGL core profile vendor: AMD
OpenGL core profile renderer: AMD Radeon Graphics (radeonsi, raphael_mendocino, LLVM 19.1.7, DRM 3.61, 6.12.86+deb13-amd64)
OpenGL core profile version: 4.6 (Core Profile) Mesa 25.0.7-2
OpenGL core profile shading language version: 4.60
OpenGL compatibility profile vendor: AMD
OpenGL compatibility profile renderer: AMD Radeon Graphics (radeonsi, raphael_mendocino, LLVM 19.1.7, DRM 3.61, 6.12.86+deb13-amd64)
OpenGL compatibility profile version: 4.6 (Compatibility Profile) Mesa 25.0.7-2
OpenGL compatibility profile shading language version: 4.60
OpenGL ES profile vendor: AMD
OpenGL ES profile renderer: AMD Radeon Graphics (radeonsi, raphael_mendocino, LLVM 19.1.7, DRM 3.61, 6.12.86+deb13-amd64)
OpenGL ES profile version: OpenGL ES 3.2 Mesa 25.0.7-2
OpenGL ES profile shading language version: OpenGL ES GLSL ES 3.20

    Dedicated video memory: 512 MB
    Total available memory: 16139 MB
    Currently available dedicated video memory: 389 MB
Running synchronized to the vertical refresh.  The framerate should be
approximately the same as the monitor refresh rate.
375 frames in 5.0 seconds = 74.951 FPS

Je vais donc continuer d’attendre. Merci de ton aide.

Une autre piste à investiguer est la désactivation des effets kisscool du compositing, c’est-à-dire les fenêtres qui dansent ou autres effets spéciaux qui alourdissent le graphisme (voir config de gnome)

Sinon, en attendant que ça plante, d’autres jouets investigation:
→ installer glmark2-wayland, puis tester:

vblank_mode=0 glxgears
glmark2

nous@Maison:~$ vblank_mode=0 glxgears
glmark2
ATTENTION: default value of option vblank_mode overridden by environment.
82299 frames in 5.0 seconds = 16459.695 FPS
83363 frames in 5.0 seconds = 16672.533 FPS
83699 frames in 5.0 seconds = 16734.117 FPS

Je suppose que ce test était pour pousser la carte graphique? Dans ce cas j’ai probablement intéret de la laisser tourner comme ça un moment. J’essayerai plus tard.

Merci.

Il ne s’agit pas vraiment de stress test, mais plutôt d’évaluations.
Tu peux y aller pour glmark2 qui dure quelques minutes, et donne un score final (à rapporter).
Si d’ici la fin de l’année, voir de la semaine, tu n’as aucun plantage, on peut estimer ton problème résolu.

Bonjour,
Il y a de nouveau eu un plantage… :sob: mais ce n’est pas moi qui utilisait l’ordinateur, donc je n’ai pas de détails sur le déroulement. Néanmoins, voici les logs: je suppose que ça correspond à l’erreur de 9:14, mais je mais la journée… au cas ou.

May 14 09:17:55 kernel: AMD-Vi: Completion-Wait loop timed out
May 14 09:17:53 systemd: Failed to start app-gnome-im\x2dlaunch-143786.scope - Application launched by gnome-session-binary.
May 14 09:17:52 gdm-session-wor: gkr-pam: unable to locate daemon control file
May 14 09:14:50 pipewire: spa.alsa: 'front:1': playback open failed: Device or resource busy
May 14 09:14:49 kernel: amdgpu 0000:0a:00.0: amdgpu: ring gfx_0.1.0 timeout, but soft recovered
May 14 09:14:49 kernel: amdgpu 0000:0a:00.0: amdgpu: ring gfx_0.1.0 timeout, but soft recovered
May 14 09:14:49 kernel: amdgpu 0000:0a:00.0: amdgpu: ring gfx_0.0.0 timeout, but soft recovered    
May 14 09:14:39 kernel: amdgpu 0000:0a:00.0: amdgpu: 	 RW: 0x0
May 14 09:14:39 kernel: amdgpu 0000:0a:00.0: amdgpu: 	 MAPPING_ERROR: 0x0
May 14 09:14:39 kernel: amdgpu 0000:0a:00.0: amdgpu: 	 PERMISSION_FAULTS: 0x3
May 14 09:14:39 kernel: amdgpu 0000:0a:00.0: amdgpu: 	 WALKER_ERROR: 0x0
May 14 09:14:39 kernel: amdgpu 0000:0a:00.0: amdgpu: 	 MORE_FAULTS: 0x0
May 14 09:14:39 kernel: amdgpu 0000:0a:00.0: amdgpu: 	 Faulty UTCL2 client ID: SQC (data) (0xa)
May 14 09:14:39 kernel: amdgpu 0000:0a:00.0: amdgpu: GCVM_L2_PROTECTION_FAULT_STATUS:0x00701430
May 14 09:14:39 kernel: amdgpu 0000:0a:00.0: amdgpu:   in page starting at address 0x000000003f800000 from client 0x1b (UTCL2)
May 14 09:14:39 kernel: amdgpu 0000:0a:00.0: amdgpu:  in process chromium pid 3086 thread chromium:cs0 pid 3113
May 14 09:14:39 kernel: amdgpu 0000:0a:00.0: amdgpu: [gfxhub] page fault (src_id:0 ring:24 vmid:7 pasid:60)
May 14 07:08:45 su: pam_wtmpdb(su:session): Cannot get ID from open session!
May 14 07:08:45 su: pam_wtmpdb(su:session): Cannot get ID from open session!
May 14 07:08:39 su: pam_systemd(su:session): Failed to create session: Job 29824 for unit 'session-c18.scope' failed with 'dependency'
May 14 07:08:39 systemd: Cannot start frozen unit user-65534.slice - User Slice of UID 65534.
May 14 07:08:39 su: pam_wtmpdb(su:session): add_entry: Adding an entry did not return SQLITE_DONE: 8
May 14 07:08:39 systemd: Cannot start frozen unit user-65534.slice - User Slice of UID 65534.
May 14 07:08:39 su: pam_wtmpdb(su:session): add_entry: Adding an entry did not return SQLITE_DONE: 8
May 14 07:08:39 systemd: Cannot start frozen unit user-65534.slice - User Slice of UID 65534.
May 14 07:08:39 su: pam_wtmpdb(su:session): add_entry: Adding an entry did not return SQLITE_DONE: 8

J’ai aussi lancé glmark2 et voici les résultats.

nous@Maison:~$ glmark2
=======================================================
    glmark2 2023.01
=======================================================
    OpenGL Information
    GL_VENDOR:      AMD
    GL_RENDERER:    AMD Radeon Graphics (radeonsi, raphael_mendocino,
LLVM 19.1.7, DRM 3.61, 6.12.86+deb13-amd64)
    GL_VERSION:     4.6 (Compatibility Profile) Mesa 25.0.7-2
Surface Config: buf=32 r=8 g=8 b=8 a=8 depth=24 stencil=0 samples=0
Surface Size:   800x600 windowed
=======================================================
[build] use-vbo=false: FPS: 4992 FrameTime: 0.200 ms
[build] use-vbo=true: FPS: 4968 FrameTime: 0.201 ms
[texture] texture-filter=nearest: FPS: 3982 FrameTime: 0.251 ms
[texture] texture-filter=linear: FPS: 3600 FrameTime: 0.278 ms
[texture] texture-filter=mipmap: FPS: 2942 FrameTime: 0.340 ms
[shading] shading=gouraud: FPS: 2893 FrameTime: 0.346 ms
[shading] shading=blinn-phong-inf: FPS: 2272 FrameTime: 0.440 ms
[shading] shading=phong: FPS: 2283 FrameTime: 0.438 ms
[shading] shading=cel: FPS: 2166 FrameTime: 0.462 ms
[bump] bump-render=high-poly: FPS: 2261 FrameTime: 0.442 ms
 [bump] bump-render=normals: FPS: 2844 FrameTime: 0.352 ms
[bump] bump-render=height: FPS: 2408 FrameTime: 0.415 ms
[effect2d] kernel=0,1,0;1,-4,1;0,1,0;: FPS: 1909 FrameTime: 0.524 ms
[effect2d] kernel=1,1,1,1,1;1,1,1,1,1;1,1,1,1,1;: FPS: 1270 FrameTime:
0.788 ms
 [pulsar] light=false:quads=5:texture=false: FPS: 2663 FrameTime: 0.376 ms
 [desktop] blur-radius=5:effect=blur:passes=1:separable=true:windows=4:
 FPS: 1169 FrameTime: 0.856 ms
[desktop] effect=shadow:windows=4: FPS: 1369 FrameTime: 0.731 ms
[buffer]
columns=200:interleave=false:update-dispersion=0.9:update-fraction=0.5:update-method=map:
FPS: 795 FrameTime: 1.259 ms
[buffer]
columns=200:interleave=false:update-dispersion=0.9:update- fraction=0.5:update-method=subdata:
FPS: 1403 FrameTime: 0.713 ms
[buffer]
columns=200:interleave=true:update-dispersion=0.9:update-fraction=0.5:update-method=map:
FPS: 841 FrameTime: 1.190 ms
[ideas] speed=duration: FPS: 2023 FrameTime: 0.494 ms
[jellyfish] : FPS: 1589 FrameTime: 0.629 ms
[terrain] : FPS: 198 FrameTime: 5.073 ms
[shadow] : FPS: 1990 FrameTime: 0.503 ms
[refract] : FPS: 299 FrameTime: 3.349 ms
[conditionals] fragment-steps=0:vertex-steps=0: FPS: 1053 FrameTime:
0.950 ms
[conditionals] fragment-steps=5:vertex-steps=0: FPS: 878 FrameTime: 1.140 ms
[conditionals] fragment-steps=0:vertex-steps=5: FPS: 1380 FrameTime:
0.725 ms
[function] fragment-complexity=low:fragment-steps=5: FPS: 1075
FrameTime: 0.930 ms
[function] fragment-complexity=medium:fragment-steps=5: FPS: 2375
FrameTime: 0.421 ms
[loop] fragment-loop=false:fragment-steps=5:vertex-steps=5: FPS: 2382
FrameTime: 0.420 ms
[loop] fragment-steps=5:fragment-uniform=false:vertex-steps=5: FPS: 2442
FrameTime: 0.410 ms
[loop] fragment-steps=5:fragment-uniform=true:vertex-steps=5: FPS: 2268
FrameTime: 0.441 ms
=======================================================
                              glmark2 Score: 2089
=======================================================

Merci encore de te pencher sur mon problème.

Je n’ai rien entrepris d’autre pour le moment, mais je vais peut-être regarder ta deuxième proposition ce weekend. (j’ai vraiment un gnome minimaliste, donc je ne crois pas trop à un bug de fancy transitions…)

Tu voudrais pas essayer un autre bureau graphique, stp, tel Xfce ?
(histoire de voir si tu as toujours ces freeze ; je suspecte quelque chose, mais je préfère ne rien dire pour l’instant ; d’où ma suggestion)

Je pourrais, mais je dois dire que j’hésite un peu. Ce n’est pas trop l’install the Kfce, mais plutot la désinstall après. Ça risque de me laisser plein de programmes redondant comme un autre navigateur de fichier, un autre terminal…

Si tu nous parles de ton hypothèse, d’autres auront peut être une autre idée pour la tester?

Merci en tout cas.

Tout simplement une défaillance de Gnome sous Wayland !
(personnellement, je note une récurrence de problème avec Gnome / Wayland / Debian ; un coup, ça veut bien démarrer correctement et la màj suivante, impossible ; plusieurs ont déjà étaient confronté à cela ; donc une instabilité matérielle, pourquoi pas, mais je veillerai personnellement à éliminer cette cause probable).

Maintenant, à toi de voir… le test d’un autre DE peut apporter une réponse sans infirmer le propos.
Perso, je n’hésiterai pas, mais c’est à toi de voir et de décider.

Et si tu veux vraiment tester ton matériel, utilises donc des logiciels qui vont vraiment pousser la machine dans ces « retranchements » matériels, tel OCCT, LACT, là tu auras au final, vraiment une évaluation sérieuse des performances et ou des défaillances de ton matos (à moins que ce ne soit ton écran, ce qui est très difficilement testable).
Le verdict d’OCCT, LACT pourrait te surprendre et mettre en cause, s’il y a lieu, un autre des équipements. Attention, les tests d’OCCT peuvent être très long, minima une heure de fonctionnement sans utiliser la machine.
Attention, je ne critique pas ni le choix de glmarks2 ni l’utilisation ; de même je ne peux te garantir qu’OCCT, LACT seront fonctionnels sous Wayland.

Les freezes peuvent aussi être l’apanage de câble (HDMI, DP) ­— après tout, on ne sait strictement rien de ta machine ; il nous faut être devin, et j’ai le sentiment qu’on a affaire à une station, non pas un laptop — défectueux, même malgré son récent achat. Le seul moyen de s’en assurer est le changement par un autre câble.

Concernant l’écran, s’il y a lieu, as-tu la capacité de le tester sur une autre machine avec le même câble de connexion et avec un autre ?!
(histoire de s’assurer du câble et de l’écran, avec et sans un autre câble — parce qu’un port physique de connexion HDMI | DP défectueux est envisageable).
De même as-tu la possibilité de changer de port physique sur l’écran et / ou la carte GPU actuelle ?!

Bref, comme tu te peux te rendre compte un freeze matériel d’un affichage écran peut avoir de multiples sources, simultanément ou indépendantes, dont des sources logicielles. Une cause ne présume aucunement d’une autre mais peut très bien être responsable d’une autre.

Merci pour ta réponse, ça m’ouvre des horizons.

Quelques infos sur le PC, c’est en effet un desktop.
Pour l’écran, ce n’est pas impossible. Il faudrait tester avec un autre écran. Faisable mais pas tout de suite ( Tout ça va être emballé prochainement pour un déménagement long (2 mois de bateau)… J’avais espoir de régler avant le départ, mais ça ne semble pas certain).
Pour le cable, j’ai déjà testé avec deux cables différents sur deux ports différents (HDMI, et DP).

Pour les tests plus lourd, c’est une idée.

Bonne journée, nuit… ou quoi que ce soit ou tu es. Merci

Une autre idée : utilises un LiveCD|USB pendant plusieurs heures / jours et réalise la pertinence… ou l’impertinence de ton matériel. :stuck_out_tongue:

Tout en sachant que ce ne sera qu’un indice, car Gnome / Wayland / une autre distrib peut réellement être d’un fonctionnement plus fiable… ou le contraire.

Oui, ça permet aussi de tester un autre bureau, sans l’installer sur la machine. C’est aussi envisageable.

Ce qu’il faut que tu comprennes aussi, est que ce n’est pas forcement l’apanage de ton écran, ou de la carte GPU ; une alimentation PC sous alimentée, ou défectueuse peut aussi provoquer des freeze car n’est pas capable d’envoyer le débit nécessaire à la carte GPU, résultat le signe apparent sont les freeze graphique, car la carte GPU manque de débit, mais n’en est pas responsable.

Là OCCT peut mettre en évidence assurément. LACT n’est que pour tester le GPU.


Voilà, bonne nuit. pour moi, il est 4h00 du matin… « Paris s’éveille… » non ?!
moi, c’est plutôt le Lot-et-Garonne. :stuck_out_tongue: