Hardware Error "mce"

Bonjour,

J’ai un PC ASUS R541N sur Debian 10 Buster, CPU Intel Pentium N4200 1.10 GHz.

Quand il démarre, j’ai les messages suivants (qui disparaissent et tout se passe ensuite normalement… jusqu’à ce qu’il devienne instable et s’éteigne d’un coup, rarement heureusement) :

[0.615787] mce: [Hardware Error]: CPU 0: Machine Check: 0 Bank 4: a600000000020408
[0.615809] mce: [Hardware Error]: TSC 0 ADDR fef60780
[0.615819] mce: [Hardware Error]: PROCESSOR 0:506c9 TIME 1565084012 SOCKET 0 APIC 0 microcode 20

Étant plutôt débutante je ne sais pas par où commencer. J’ai lu qu’il pouvait s’agir d’un problème d’installation de driver Intel.

Que puis-je faire ?

Merci par avance,

FFB

Bonjour,
Cette page pourrait, peut-être, t’aider !
Et/ou le logiciel mcelog.
Bonne journée.

Bonjour, merci beaucoup, je vais étudier la question !

Edit : précision, mcelog semble avoir été supprimé sur debian 10 et remplacé par “rasdaemon”.

1 J'aime

Bonjour, j’ai le même soucis.

D’après le forum : https://bugzilla.redhat.com/show_bug.cgi?id=1467040 cela serait dù à un problème dans le BIOS :

     I wrote a trivial EFI program to dump the machine check banks and put it on a USB stick a \EFI\BOOT\BOOTX64.EFI, then booted that USB stick.
     The machine check was already logged at this point.
     So Linux (and grub boot loader) aren't involved.  Tracking with someone who supports BIOS on this platform now.

J’ai voulu vérifié par moi-même, donc j’ai codé également un programme EFI qui afficher l’état des banks des registres impliqués dans le Message Check : https://github.com/emvivre/uefi_message_check_error

Tu peux tester par toi même sur ton ordinateur. Normalement ça devrait afficher les mêmes informations que tu as déjà :

A600000000020408 : correspond au contenu du registre MSR_IA32_MCx_STATUS de la bank associé : donne des informations sur l'erreur notamment le bit 61 (UC : Un-Corrected flag) : indique que le CPU n'a pas été capable de corriger l'erreur.
fef60780 : correspond au contenu du registre MSR_IA32_MCx_ADDR  : adresse physique où l'erreur c'est produite

Donc la solution serait de flasher ton BIOS pour corriger le bug, ou alors de modifier le code du kernel pour ignorer cette erreur là.