Mce: [Hardware Error], que faire?

Bonjour,
hier j’ai installé une Debian sur ma machine et dès le boot je vois passer plein de messages mce: [Hardware Error]:. Une fois le boot terminé, je constate que dans le kernel.log ou via journalctl que j’ai plein d’erreur de ce type et qu’il y a des nouvelles entrées plusieurs fois pas seconde. J’ai regardé plusieurs post et pas mal cherché sur le net, je n’ai pas trouvé de solution sur comment interpréter ces erreurs ou les résoudre. J’espère donc ne pas faire de doublon si c’est le cas, j’en suis désolé.
Ma config :

  • carte mère : Asus rog strix z370-f
  • cpu : intel i7 8700k
  • gpu : nvidia 2070
  • ram : corsair 16gb en 2666

En vue de certains posts, j’ai mis à jour bon bios ce qui n’a rien changer et j’ai testé différentes distrib Linux (famille Debian) pour voir si cela ne venait pas de la version du kernel ou de la prise en charge du matériel. Voici un exemple de ce que le journalctl me renvoie :

mce: [Hardware Error]: CPU 0: Machine Check: 0 Bank 11: cc42de800004117a
mce: [Hardware Error]: TSC 0 ADDR c46c0740 MISC 3936e03c086
mce: [Hardware Error]: PROCESSOR 0:906ea TIME 1629292032 SOCKET 0 APIC 0 microcode 96

J’ai ce bloc de message un peu près 2 fois par seconde, cela fais donc beaucoup de ligne, cependant le pc est complètement utilisable sans aucune gêne juste mon `journalctl` et mon kernel.log qui sont flooder de mce. Autre point je ne sais pas si ce sont toujours les mêmes erreurs étant donner qu’au fil du temps les messages change (tout du moins les valeurs exa présente dans l’erreur).
mce: [Hardware Error]: CPU 1: Machine Check: 0 Bank 11: 8c40004000041136
mce: [Hardware Error]: TSC 10ca1f9524 ADDR 426cc5e40 MISC 700b03c086
mce: [Hardware Error]: PROCESSOR 0:906ea TIME 1629292032 SOCKET 0 APIC 2 microcode 96

Je suis preneur de toute information et merci d’avance a ceux qui me lirons/repondrons.

Il semble que ton matériel commence à souffrir et arriver en bout de course. Ce n’est aucunement logiciel.

La page wikipedia (en) explique ce que sont les messages MCE. Et si je comprends bien, ce n’est pas bon signe ; c’est vraiment une alerte sérieuse. Défaillance matérielle à l’horizon !
et, pas forcément lié au CPU lui-même… cela peut-être la carte-mère, du moins les bus utilisés, la RAM utilisée.

Des logiciels de tests peuvent aider à éliminer des causes possibles.

  • memtest va permettre de tester la RAM, (mais attention à garder dans l’idée que la carte-mère n’est pas fautive, car cela fausserait les tests)
  • la page wiki d’Archlinux parle du logiciel rasdaemon, puisque systemd, pour remonter les problèmes au niveau matériel et précisant la raison.
  • stresscpu qui permettra de tester le CPU.
    etc.

Ou bien il s’agit d’un bug sans conséquence fonctionnelle (à déterminer à l’usage) et on peut faire taire les messages en ajoutant le paramètre nomce ou mce=off (si noyau -amd64) à la ligne de commande du noyau.

Intéressant, mais n’est-ce pas plutôt la « politique de l’autruche », quand on ne sait pas déterminer la raison ? Autant écarter si possible par des éléments de réponses que permettent à minima les logiciels de test matériels, non !?

Merci pour vos réponses !

@PengouinPdt
Je n’ai jamais overclocker mon matériel donc en vue de ma configuration, je doute d’un vrai problème matériel (sachant que j’avais lu que si le problème survient dés une fresh install ce n’est pas forcément alarmant, contrairement à un problème qui surviendrait du jour au lendemain sur un système déjà en place). J’ai cependant effectué différents tests et stress-tests sur mon CPU et ma RAM tout deux vont (semblerait-il ?) bien. J’ai regardé du côté de rasdaemon et il ne me retourne rien de particulier (même après lecture de la page wiki et du man), je suis en pleine réinstallation je ne peux donc pas te faire un retour sur le résultat exact que j’avais pour le moment.

@PascalHambourg
J’avais effectivement lu que ce n’était pas forcément un problème, je n’avais pas encore vu le paramètre nomce ou mce=no, pourrais tu me donner plus d’information sur le lieu où je suis censé rentrer ce paramètre ?

Exactement. Si on ne sait pas ce que ça veut dire, inutile de polluer les logs avec. Comme une douleur chronique qui doit être traitée même si on n’en connaît pas la cause.

Fichier /etc/default/grub, variable GRUB_CMDLINE_LINUX. Ne pas oublier de lire le commentaire au début du fichier.

@PascalHambourg
Le mce=off me convient parfaitement, merci .

@PengouinPdt
C’est peut-être effectivement « la politique de l’autruche » cependant à court terme ce sera très bien car j’ai besoin d’un PC fonctionnel et je ne peux pas forcement passer une semaine là dessus (quitte à revenir plus tard dessus quand j’aurai plus de temps), cela dit je suis tout à fait d’accord sur le principe ce n’est pas forcement la « bonne méthode » que de contourner le problème plutôt que de vraiment investiguer et le résoudre.

Je vous remercie tous les deux pour votre temps, bonne continuation.

1 J'aime