Kernel panics, freeze

Bonsoir !
J’ai cherché dans tous les sens, mais je ne trouve rien, je me résigne à venir vous voir.
Depuis un moment déjà , j’ai des kernel panic (avec la led de la touche qui clignote) ou des freeze imprévisibles de l’os qui oblige l’ordinateur a redémarrer ou à être redémarré de force.

J’ai dernièrement décidé de passer à sid, et peut-être n’est-ce qu’une coïncidence, j’ai l’impression d’en avoir encore plus qu’avant.
Comme je commence à en avoir vraiment marre, je demande votre aide.
Je ne sais pas où trouver l’origine du problème.

Je ne sais pas quel type d’information vous donner pour l’instant, aussi n’hésitez pas à me demander tel ou tel log (avec l’endroit où les trouver…)

En vous remerciant.

Salut :slight_smile:

Tout d’abord il faut bien t’informer concernant les types de version de Debian 8.
Entre Stable, Testing et Sid tu as ici 3 types totalement différents.

Si tu cherches de la stabilité installe proprement Wheezy (formatage et non “upgrade” ou “rollback” pouvant garder des librairies malsaines.

Sid est le type le plus instable, si d’entrée de jeu tu as des kernel panic, oublie Sid et essaie de déboguer en stable.

cat /etc/issue -> pour connaître sous quel type/version tu es.

j’espère avoir répondu à une partie de ta question :slight_smile:

Bonjour NuX_o

Je suis au courant pour les différents types de version de Debian.
D’ailleurs, concernant la version stable, on en est à Jessie :slight_smile:

Je suis passé à sid, car que ce soit avec Jessie, testing, ou Sid, les kernel panic sont là quoiqu’il arrive.

Donc je te confirme que je suis bien en sid.

Bonjour KnY,
As tu essayé de démarrer sur un live-cd, ou live-usb et éventuellement de faire un test mémoire, avec l’utilitaire memtest que l’on trouve généralement sur ce genre de supports. Les kernel panics sont parfois dus à des erreurs matérielles.

Bonjour,

Y a-t-il un moyen de voir ou de lire ces panics ?

Bon, j’ai enfin pu récupérer les retours d’un kernel panic, en espérant que ça aide…
J’ai pris une photo :
kernel panic

Si quelqu’un a la moindre idée…

Bonjour,

Je découvre les MCE : Machine-check exception - Wikipedia
Il existe un outil à installer pour espérer obtenir plus de détails sur le problème : mcelog

Bonjour jcsm33,

j’ai installé l’outil et ait lancé la commande, ce qui me retourne ceci :
mcelog: Family 6 model 37 CPU: only decoding architectural errors

Je suis allé voir la page wikipedia que tu as mis en lien, et il semblerait que cela puisse venir de la surchauffe.
Il est vrai que le dessous de l’ordi est souvent chaud.
Je vais voir pour le démonter et éventuellement nettoyer le ventilateur CPU.

MàJ :
Eh bien il se trouve que mon CPU est fanless ! Surprise motherf*cker !
J’ai regardé la pâte thermique et elle semblait mise comme un cochon. Donc j’ai nettoyé et remis de la pâte Noctua qu’il me restait.
Ce n’est peut-être pas la raison, mais je vais bien voir.

Bon, ce n’est sensiblement pas un problème de chaleur.
J’ai eu droit aujourd’hui à 2 kernel panic de la même teneur que celui photographié dans ce fil de discussion.
Le processeur n’était pas inhabituellement chaud (je checkais la température).
Cela est arrivé les deux fois durant le visionnage d’une vidéo en 720p sur le lecteur HTML5 de YouTube avec Iceweasel (v. 45.3 ESR).
Je ne sais pas si ça a un quelconque rapport, mais j’essaye de noter un peu tout tellement je suis perdu…

Est-ce qu’après l’ajout de mcelog des fichiers de log lisibles avec plus de détails sont disponibles ?

Il y a bien un fichier mcelog dans le dossier /dev comme indiqué dans le manuel de mcelog, mais je ne sais pas comment l’ouvrir.
Avec ls -l j’obtiens ceci :
crw------- 1 root root 10, 227 sept. 14 18:21

Le c semble signifier character (unbuffered) special file selon mknob, mais ça ne m’avance pas trop.
J’ai essayé de l’ouvrir avec vim, mais c’est vide, ça ne m’affiche rien.

Le fichier /var/log/mcelog peut-être ?

mcelog: Family 6 Model 37 CPU: only decoding architectural errors Hardware event. This is not a software error. MCE 0 CPU 0 THERMAL EVENT TSC 49888e8a30 TIME 1473514839 Sat Sep 10 15:40:39 2016 Processor 0 heated above trip temperature. Throttling enabled. Please check your system cooling. Performance will be impacted Running trigger 'unknown-error-trigger' STATUS 8828000f MCGSTATUS 0 MCGCAP 806 APICID 0 SOCKETID 0 CPUID Vendor Intel Family 6 Model 55 mcelog: Family 6 Model 37 CPU: only decoding architectural errors Hardware event. This is not a software error. MCE 1 CPU 2 THERMAL EVENT TSC 4988958fd8 TIME 1473514839 Sat Sep 10 15:40:39 2016 Processor 2 heated above trip temperature. Throttling enabled. Please check your system cooling. Performance will be impacted Running trigger 'unknown-error-trigger' STATUS 8829000f MCGSTATUS 0 MCGCAP 806 APICID 4 SOCKETID 0 CPUID Vendor Intel Family 6 Model 55 mcelog: Family 6 Model 37 CPU: only decoding architectural errors Hardware event. This is not a software error. MCE 2 CPU 1 THERMAL EVENT TSC 498895d140 TIME 1473514839 Sat Sep 10 15:40:39 2016 Processor 1 heated above trip temperature. Throttling enabled. Please check your system cooling. Performance will be impacted Running trigger 'unknown-error-trigger' mcelog: Too many trigger children running already STATUS 882a000f MCGSTATUS 0 MCGCAP 806 APICID 2 SOCKETID 0 CPUID Vendor Intel Family 6 Model 55 mcelog: Family 6 Model 37 CPU: only decoding architectural errors Hardware event. This is not a software error. MCE 3 CPU 3 THERMAL EVENT TSC 49889d97e0 TIME 1473514839 Sat Sep 10 15:40:39 2016 Processor 3 heated above trip temperature. Throttling enabled. Please check your system cooling. Performance will be impacted Running trigger 'unknown-error-trigger' mcelog: Too many trigger children running already STATUS 8829000f MCGSTATUS 0 MCGCAP 806 APICID 6 SOCKETID 0 CPUID Vendor Intel Family 6 Model 55 mcelog: Family 6 Model 37 CPU: only decoding architectural errors Hardware event. This is not a software error. MCE 4 CPU 1 THERMAL EVENT TSC 4a0ebf5218 TIME 1473514840 Sat Sep 10 15:40:40 2016 Processor 1 below trip temperature. Throttling disabled Running trigger 'unknown-error-trigger' mcelog: Too many trigger children running already STATUS 882c000a MCGSTATUS 0 MCGCAP 806 APICID 2 SOCKETID 0 CPUID Vendor Intel Family 6 Model 55 mcelog: Family 6 Model 37 CPU: only decoding architectural errors Hardware event. This is not a software error. MCE 5 CPU 0 THERMAL EVENT TSC 4a0ebf94d2 TIME 1473514840 Sat Sep 10 15:40:40 2016 Processor 0 below trip temperature. Throttling disabled Running trigger 'unknown-error-trigger' mcelog: Too many trigger children running already STATUS 882b000a MCGSTATUS 0 MCGCAP 806 APICID 0 SOCKETID 0 CPUID Vendor Intel Family 6 Model 55 mcelog: Family 6 Model 37 CPU: only decoding architectural errors Hardware event. This is not a software error. MCE 6 CPU 2 THERMAL EVENT TSC 4a0ec04ba2 TIME 1473514840 Sat Sep 10 15:40:40 2016 Processor 2 below trip temperature. Throttling disabled Running trigger 'unknown-error-trigger' mcelog: Too many trigger children running already STATUS 882b000a MCGSTATUS 0 MCGCAP 806 APICID 4 SOCKETID 0 CPUID Vendor Intel Family 6 Model 55 mcelog: Family 6 Model 37 CPU: only decoding architectural errors Hardware event. This is not a software error. MCE 7 CPU 3 THERMAL EVENT TSC 4a0ec34dc8 TIME 1473514840 Sat Sep 10 15:40:40 2016 Processor 3 below trip temperature. Throttling disabled Running trigger 'unknown-error-trigger' mcelog: Too many trigger children running already STATUS 882b000a MCGSTATUS 0 MCGCAP 806 APICID 6 SOCKETID 0 CPUID Vendor Intel Family 6 Model 55 mcelog: Family 6 Model 37 CPU: only decoding architectural errors Hardware event. This is not a software error. MCE 0 CPU 0 THERMAL EVENT TSC 108027c0f488 TIME 1473526141 Sat Sep 10 18:49:01 2016 Processor 0 heated above trip temperature. Throttling enabled. Please check your system cooling. Performance will be impacted Running trigger 'unknown-error-trigger' STATUS 881d000f MCGSTATUS 0 MCGCAP 806 APICID 0 SOCKETID 0 CPUID Vendor Intel Family 6 Model 55 mcelog: Family 6 Model 37 CPU: only decoding architectural errors Hardware event. This is not a software error. MCE 1 CPU 3 THERMAL EVENT TSC 108027c4e9d2 TIME 1473526141 Sat Sep 10 18:49:01 2016 Processor 3 heated above trip temperature. Throttling enabled. Please check your system cooling. Performance will be impacted Running trigger 'unknown-error-trigger' STATUS 881b000f MCGSTATUS 0 MCGCAP 806 APICID 6 SOCKETID 0 CPUID Vendor Intel Family 6 Model 55 mcelog: Family 6 Model 37 CPU: only decoding architectural errors Hardware event. This is not a software error. MCE 2 CPU 2 THERMAL EVENT TSC 108027c53dea TIME 1473526141 Sat Sep 10 18:49:01 2016 Processor 2 heated above trip temperature. Throttling enabled. Please check your system cooling. Performance will be impacted Running trigger 'unknown-error-trigger' mcelog: Too many trigger children running already STATUS 881b000f MCGSTATUS 0 MCGCAP 806 APICID 4 SOCKETID 0 CPUID Vendor Intel Family 6 Model 55 mcelog: Family 6 Model 37 CPU: only decoding architectural errors Hardware event. This is not a software error. MCE 3 CPU 1 THERMAL EVENT TSC 108027c5a242 TIME 1473526141 Sat Sep 10 18:49:01 2016 Processor 1 heated above trip temperature. Throttling enabled. Please check your system cooling. Performance will be impacted Running trigger 'unknown-error-trigger' mcelog: Too many trigger children running already STATUS 881e000f MCGSTATUS 0 MCGCAP 806 APICID 2 SOCKETID 0 CPUID Vendor Intel Family 6 Model 55 mcelog: Family 6 Model 37 CPU: only decoding architectural errors Hardware event. This is not a software error. MCE 0 CPU 1 THERMAL EVENT TSC 10bc2934a4bc TIME 1473526260 Sat Sep 10 18:51:00 2016 Processor 1 below trip temperature. Throttling disabled Running trigger 'unknown-error-trigger' STATUS 8827000a MCGSTATUS 0 MCGCAP 806 APICID 2 SOCKETID 0 CPUID Vendor Intel Family 6 Model 55 mcelog: Family 6 Model 37 CPU: only decoding architectural errors Hardware event. This is not a software error. MCE 1 CPU 0 THERMAL EVENT TSC 10bc29353612 TIME 1473526260 Sat Sep 10 18:51:00 2016 Processor 0 below trip temperature. Throttling disabled Running trigger 'unknown-error-trigger' STATUS 8827000a MCGSTATUS 0 MCGCAP 806 APICID 0 SOCKETID 0 CPUID Vendor Intel Family 6 Model 55 mcelog: Family 6 Model 37 CPU: only decoding architectural errors Hardware event. This is not a software error. MCE 2 CPU 2 THERMAL EVENT TSC 10bc293731ae TIME 1473526260 Sat Sep 10 18:51:00 2016 Processor 2 below trip temperature. Throttling disabled Running trigger 'unknown-error-trigger' mcelog: Too many trigger children running already STATUS 8826000a MCGSTATUS 0 MCGCAP 806 APICID 4 SOCKETID 0 CPUID Vendor Intel Family 6 Model 55 mcelog: Family 6 Model 37 CPU: only decoding architectural errors Hardware event. This is not a software error. MCE 3 CPU 3 THERMAL EVENT TSC 10bc293a4b7e TIME 1473526260 Sat Sep 10 18:51:00 2016 Processor 3 below trip temperature. Throttling disabled Running trigger 'unknown-error-trigger' mcelog: Too many trigger children running already STATUS 8826000a MCGSTATUS 0 MCGCAP 806 APICID 6 SOCKETID 0 CPUID Vendor Intel Family 6 Model 55

On voit bien les problèmes liés à la température mais en date du 10 septembre.
La date est-elle correcte ?

Lire une vidéo dans le navigateur peut faire monter en température.
Avec l’ordi portable de 2007 que j’utilise ça peut aller jusqu’à l’extinction sans prévenir de la machine. Je télécharge les vidéos si possible pour les lire en dehors du navigateur. Je pense que la surcouche javascript de certains lecteurs HTML5 transforme le tout en usine à gaz (un peu comme flash finalement).

Pas de raison d’avoir un kernel panic avec une hausse de la température. A priori, le matériel se coupe tout seul, mais sans kernel panic.

Je pense soit à un problème de carte-mère, soit ton processeur qui a pris un coup dans la gueule.

Fais des stress-tests en liveUSB (sur du Linuxmint ou Handylinux, par exemple) :slight_smile:
Fais un ramtest également.

Oui.
Pour travailler dans le domaine du web, je confirme que certains lecteurs peuvent être des usines à gaz, mais bizarrement celui de YouTube est assez propre. C’est peut-être dû à la qualité de la vidéo plutôt qu’au lecteur en l’occurence. Le décodage de certaines vidéos au framerate trop élévé pourrait en demander trop à mon processeur ?
J’avoue que je suis un peu sur les fesses. Si lire une vidéo en 720p sur un ordinateur pas si vieux est de l’ordre de l’impossible, c’est que le matériel est vraiment défectueux.

C’est pourtant une des raisons des MCE semble-t-il. Et il s’agit bien de kernel panic. C’est explicitement écrit (voir photo en appui dans un des messages plus haut)

Malheureusement on a dû me le vendre comme ça alors, car c’est depuis le début.

J’ai déjà fait un ramtest avec memtest86+ sur 3 cycles complets. Ça n’a rien donné.
En quoi consiste un stress-test en LiveUSB ?

Je disais simplement qu’une hausse de la température n’a pas de raison particulière de créer un kernel panic, sauf en cas de problème matériel.

En fait, tu vas démarrer sur un liveUSB, ce qui va déjà permettre de mettre hors d’état de cause ton disque dur. Ensuite, tu vas faire travailler le processeur, faire jouer de grosses charges, etc.
cpuburn ou stress sont des logiciels qui peuvent t’y aider.

Tu pourras peut-être localiser le problème comme ça.

Simple question, as-tu retiré la poussière qui s’incruste sur ton fanless? Si tu es un tout petit peu bricoleur, essaie de mettre un ventilo et regarde tes vidéos pour voir si ça chauffe encore. Ne pas obstruer aussi les entrées d’air, notamment sur laptop quand on le pose gentiment sur ses genoux tout… hermétiques :wink: