[Matériel] - Plantages brutaux et sans traces

Bonjour ! Je vais tâcher d’être clair en énonçant les faits par points.

  • Mon PC plante de manière relativement aléatoire.
  • Cela a commencé sous Blender, avec une 750 Ti, les drivers propriétaires 337.25.
  • Debian (Wheezy, backports) s’éteint, le PC aussi, brutalement. L’écran est noir, il ne reçoit vraisemblablement aucune donnée.
  • Cela l’a fait aussi a plusieurs reprises, sans Blender (mais souvent avec). Simplement en surfant, en dessinant, en changeant de fenêtre.
  • Parfois, à la place de rester noir, le PC redémarre et reste bloqué sur l’écran de la carte-mère.
  • En opérant un hard reboot, j’obtiens quelques erreurs au démarrage. Du genre : CPU 1 : Stuck ?
  • Également, au dernier plantage, en redémarrant, le boot est resté après de multiples tentatives sur “Booting kernel”. Rien ne se passait.
  • La RAM n’a aucun problème (memtest pendant plusieurs heures).
  • Il n’y a rien du tout dans les logs.
  • J’ai réinstallé les drivers propriétaires, sans succès.
  • Un Clear CMOS n’a rien arrangé.
  • Les températures des composants sont normales.
  • Fait étrange, j’ai sauvegardé un dessin en jpeg, fait sous Krita. J’ai consulté le dessin avec un visionneur d’images (le fichier était dans mon /home). En retournant sur Krita, tout a planté. En redémarrant, le fichier existait (avec son nom) mais le contenu était vide. (0 octets)

Je ne vois pas d’où peut venir le problème.

L’alimentation ? Peut-être, mais cela n’empêche pas le PC de fonctionner parfois plusieurs jours sans problème. En pleine charge, en faisant des rendus lourds sous Blender, etc.
Le CPU ? Il reste à température normale, je n’ai pas de problèmes particuliers avec lui, il a 2 ans.
Le SSD ? Il semble en pleine forme. Je n’ai écrit que 10 To dessus, il a 2 ans aussi.
La carte-mère ? Peut-être, elle a deux ans aussi, je ne sais pas comment vérifier.

Si vous avez une quelconque piste, je suis preneur, parce que vraiment, je ne sais plus vers quoi me tourner…

Merci pour votre attention ! :slight_smile:

PS : Nouvelle découverte. J’utilise KDE, et le gestionnaire de presse-papier de ma compagne, Klipper, a des entrées qui datent de…jeudi, alors qu’il en existait plein d’autres depuis.
…Je ne comprends rien.

Bonjour
Est ce que tu as d’autres OS installés sur cette machine ? Si oui ont ils le même probleme ?
Je pense aussi à une alim défectueuse.

Je n’ai pas d’autres OS. Je pourrais peut-être essayer avec un liveUSB ?

Est-ce que l’alim’ expliquerait le fait que le dessin n’ait pas été sauvegardé et que le gestionnaire de presse-papier ait deux jours de retard ?

Comme je disais, parfois, ça fonctionne très bien sans souci.

J’ai également pensé à une “surcharge graphique”. Je ne sais pas à quel point c’est possible, mais j’imaginais comme une fuite mémoire dans la carte graphique (parce que la mémoire de la RAM est okay) jusqu’à une certaine “saturation”. Comme si cette mémoire de la CG ne se “vidait pas”. Enfin, j’en sais à peu près rien à dire vrai, mais je n’ai pas vraiment de solutions de remplacement des composants, alors, j’aimerais tirer sur le bon, si ça vient bien de là ! :slight_smile:

bonjour,
pour les tensions de l’alim,
dans le bios un menu déroulent montrant les divers valeurs:
12v, 5v, 3.3v…
A+
JB1

Bonjour,

[code]$ sensors
atk0110-acpi-0
Adapter: ACPI interface
Vcore Voltage: +1.38 V (min = +0.80 V, max = +1.60 V)
+3.3V Voltage: +3.26 V (min = +2.97 V, max = +3.63 V)
+5V Voltage: +5.00 V (min = +4.50 V, max = +5.50 V)
+12V Voltage: +11.64 V (min = +10.20 V, max = +13.80 V)
CPU Fan Speed: 483 RPM (min = 600 RPM, max = 7200 RPM)
Chassis Fan Speed: 0 RPM (min = 600 RPM, max = 7200 RPM)
Power Fan Speed: 0 RPM (min = 600 RPM, max = 7200 RPM)
CPU Temperature: +36.0°C (high = +60.0°C, crit = +95.0°C)
MB Temperature: +26.0°C (high = +45.0°C, crit = +75.0°C)

k10temp-pci-00c3
Adapter: PCI adapter
temp1: +0.0°C (high = +70.0°C)
(crit = +90.0°C, hyst = +88.0°C)[/code]

Je n’y ai pas touché, à ces tensions, en deux ans. Le problème est récent.

D’aprés ce que tu décris, les causes peuvent étre multiples, tu les as citées.
Ton idée de tester avec un live CD me semble bonne. Mais fait en sorde qu’il utilise aussi ton disque dur (swap, /home) mais dans un 2eme temps seulement (pour discriminer l’origine).
nota: il existe des live dédié au stress test, comme par ex admin-magazine.com/Articles/Totally-Stressed

bonjour,
si tu as une autre alim,je ferais un essai,
sans démonter l’ancienne, tu la branches en prenant les précautions de chute sur la carte mère
sous réserve, pour moi le 12v est faible,
c’est lui qui délivre les autres tensions 5v…
A+
JB1

Je n’ai pas d’autres alimentation (et je suis dans un coin paumé, pas facile d’en trouver).

J’ai réinstallé Debian (en gardant mon /home) et je me suis aperçu que, même lors de l’installation, il y a un bref passage où ça “démarre le système d’installation”, il y a eu un : CPU1 not responding.

Souvent, au démarrage, le kernel ne boote pas ou alors, j’obtiens cette erreur :

Jan 18 15:34:00 tanoukhome kernel: [ 0.056003] Booting Node 0, Processors #1 Jan 18 15:34:00 tanoukhome kernel: [ 0.056003] smpboot cpu 1: start_ip = 96000 Jan 18 15:34:00 tanoukhome kernel: [ 5.034760] CPU1: Stuck ?? Jan 18 15:34:00 tanoukhome kernel: [ 5.034834] Brought up 1 CPUs Jan 18 15:34:00 tanoukhome kernel: [ 5.034835] Total of 1 processors activated (6823.50 BogoMIPS).

En sachant que c’est un dual-core…Voici le kern.log

Jan 18 15:34:00 tanoukhome kernel: [ 0.006272] mce: CPU supports 6 MCE banks Jan 18 15:34:00 tanoukhome kernel: [ 0.006279] using AMD E400 aware idle routine Jan 18 15:34:00 tanoukhome kernel: [ 0.006512] ACPI: Core revision 20110623 Jan 18 15:34:00 tanoukhome kernel: [ 0.012337] ..TIMER: vector=0x30 apic1=0 pin1=2 apic2=-1 pin2=-1 Jan 18 15:34:00 tanoukhome kernel: [ 0.053427] CPU0: AMD Athlon(tm) II X2 270 Processor stepping 03 Jan 18 15:34:00 tanoukhome kernel: [ 0.056003] Performance Events: AMD PMU driver. Jan 18 15:34:00 tanoukhome kernel: [ 0.056003] ... version: 0 Jan 18 15:34:00 tanoukhome kernel: [ 0.056003] ... bit width: 48 Jan 18 15:34:00 tanoukhome kernel: [ 0.056003] ... generic registers: 4 Jan 18 15:34:00 tanoukhome kernel: [ 0.056003] ... value mask: 0000ffffffffffff Jan 18 15:34:00 tanoukhome kernel: [ 0.056003] ... max period: 00007fffffffffff Jan 18 15:34:00 tanoukhome kernel: [ 0.056003] ... fixed-purpose events: 0 Jan 18 15:34:00 tanoukhome kernel: [ 0.056003] ... event mask: 000000000000000f Jan 18 15:34:00 tanoukhome kernel: [ 0.056003] NMI watchdog enabled, takes one hw-pmu counter. Jan 18 15:34:00 tanoukhome kernel: [ 0.056003] Booting Node 0, Processors #1 Jan 18 15:34:00 tanoukhome kernel: [ 0.056003] smpboot cpu 1: start_ip = 96000 Jan 18 15:34:00 tanoukhome kernel: [ 5.034760] CPU1: Stuck ?? Jan 18 15:34:00 tanoukhome kernel: [ 5.034834] Brought up 1 CPUs Jan 18 15:34:00 tanoukhome kernel: [ 5.034835] Total of 1 processors activated (6823.50 BogoMIPS).

On dirait que le second cœur est “coincé”, non ? Les problèmes pourraient venir de ça ? Alors que le PC démarre parfois, parfois reste bloqué sur “Booting the kernel”, parfois plante sauvagement ?

Hello,

dommage pour ne pas pouvoir tester avec une autre alim, mais cela peut aussi venir de la ram, ce sera peut-être plus facile à tester pour toi ? As-tu une autre barette pour un test ? As-tu deux barrettes d’insérées en ce moment ? Si oui, peux-tu tester en démarrant ta machine une fois sur une, et une autre fois sur l’autre stp ?

Il serait peut-être aussi le moment d’utiliser les fonctions de “Tests de mémoire” que l’on peut trouver sur différents CD ou DVD d’install, parmis les choix proposés dans le menu du début (quand on boot sur un CD ou DVD d’install).

Voilou, à +

edit 2 : je pense à un truc, avant tout ce qui suit, tu peux aussi essayer de faire tourner ton PC sans le disque dur qui contient ta Debian, en le débranchant et de l’alim, et du SATA ou IDE(enfin quoique, en le débranchant de l’alim ça devrait suffir, il n’aura plus de jus), et tu bootes sur un LiveCd ou un LiveDvd et tu fais tourner ton système comme ça en Live, en voyant combien de temps il tient, si ça bugg direct, tu peux te dire que c’était le disque dur qui était en cause.

edit 1 :

de manière générale, comme le dit piratebab, cela peut venir de causes multiples(et même parfois de deux éléments à la fois), il faut à ce moment là tester tous les périfériques (débrancher ce qui ne va pas servir, les disques durs en usb, imprimante, scanner, bref isoler le strict nécessaire sur ta bécanne, donc débrancher les disques durs internes aussi), et donc tester :
_le disque dur qui contient Debian (en le comparant avec un autre disque dur)
_les barrettes de ram
_l’alim (mais ça va être difficile donc pour toi)
_le processeur (mais là aussi ça peut être difficile, on a pas tous deux processeurs compatibles sous la main)
_et bien sûr la carte mère (mais là pareil, faut une carte mère compatible, et c’est sur ce point précis qu’un internaute voyait ça distrib déconner plein pot sur un autre forum, et en la renvoyant et demandant une autre car encore garantie, ces problèmes avaient cessés tout de suite)
_enfin les nappes Sata ou IDE, et les connectiques d’alimentations qui sortent de ton alim, des fois brancher son disque dur sur un autre câble alim (compatible Sata ou IDE selon ce que ton disque dur est, peut aussi faire la différence)
_en dernier débrancher le lecteur DVD ou CD et booter sans

Ça risque d’être long et pas optimal (mais ça commence mal de ne pas avoir une deuxième alim, flûte, ça correspondait pas mal à ce problème).

Bon courage.

Bonsoir,
dans le bios,
peux-tu descendre de 15 à 20% la fréquence du CPU
exemple de 3.4Gh à 2.8 même 2.6 si tu ne fais pas de calculs spéciaux
A+
JB1

Je vais tester avec une autre alim’ dès que possible, mais le temps que je trouve quelqu’un qui en a une, c’est aléatoire.

J’ai fait un MEMTEST, il n’y a pas de problème avec la RAM normalement.

J’avais un petit problème, il n’y avait qu’un cœur activé, mais finalement, ça semblait être une option d’une BIOS mal réglée (peut-être après le Clear CMOS).

Je dois avouer que tester un live est une idée convenable, mais le bug est “assez rare” et surtout très aléatoire. Il peut ne pas survenir pendant 2 jours et d’un coup, il survient 4 fois d’affilée…

J’ai fait un stress-test du CPU pendant 2 heures, je n’ai eu aucun problème (à 3,4Ghz), mais comme tu dis, il tire peut-être un peu trop sur l’alim ? (Corsair 500 Watts)

Ce qu’il y a de bien en disant avec une relativement bonne précision, à quelle fréquence arrivent ces bugs, cela te donne des indications toutes trouvées pour tes tests, en gros tu pourrais trouver la source de tes problèmes comme ceci maintenant :

_Tu as passé les Memtest et tests de stabilité du processeur, Ok (ça peut déjà bien bien aider).

_Maintenant tu débranches ton disque dur qui contient Debian (de ton alim interne), tu lances un liveCd ou LiveDvd, tu le laisses donc tourner trois jours (vu que tu rencontres les problèmes environ tous les deux jours). Et là si les problèmes surviennent, ce sera alors l’alim qui sera en cause.

Affaire classée.

Si tu ne rencontres aucun problème après trois jours plein (sans arrêter le pc bien sûr), ce sera alors le disque dur qui sera en cause.

Affaire classée.

A tes tests (enfin, si tu veux vraiment trouver d’où vient le problème :030 )

Je vais faire ça, je vais tester sur un autre système (je vais installer Debian sur un disque IDE que j’ai, plutôt qu’en live, ça me permettra de reproduire mes conditions de travail, à savoir les pilotes propriétaires de la carte graphique, notamment). :slightly_smiling:

Après, ça peut être aussi la CM ou la CG. Mais bon ! À voir…À dans 3 jours. :slightly_smiling:

C’est exacte ! Ça peut venir comme tu dis de la carte mère ou de la carte graphique. Tester la carte mère peut vite devenir un enfer si on en a pas une en double tout de suite, par contre pour elle il faudra procéder par élimination toujours… donc, en premier tu testes un autre disque dur, c’est un bon choix pour le début de tes tests (après avoir fait CPU et RAM (ces deux là d’ailleurs qui font souffrir la carte mère aussi, donc par leur biais, tu testes en fait aussi ta carte mère)), donc si les problèmes surviennent toujours malgré un autre disque dur (en priant que cet autre disque dur ne soit pas aussi boggué, (et tu pourrais découvrir si ton autre disque dur est boggué en testant avec le LIVECD, ne l’oublie pas !), il te restera à trouver donc une petite carte graphique à trois francs six sous (ou venant d’un de tes stocks ou autre pc).

Et là tu seras peut-être au complet. En n’oubliant pas que le test LIVECD peut aussi tester ton alim sur le long therme (les fameux trois jours) et ton disque dur comme expliqué dans mon message précédent. donc moi je ne le zapperait pas…

Mais tester avec un autre disque dur en premier est très bien, comme ça si cela vient de là, tu le sauras très vite et ça t’évitera toutes les autres batteries de tests, bien vu :wink:

@ toute, on reste là de toutes façons.

Hey. Pour l’instant, ça n’a pas buggé avec une carte graphique AMD bas-de-gamme. En revanche…Mon BIOS a ressauté tout seul.

Il l’avait déjà fait, il passe le contrôleur CPU en “Manual” et désactive le 2ème core, laisse le 3ème activé, désactive le 4ème…

Or, je n’ai que 2 cores.

Quand il fait ça, ça reste en général bloqué sur “Booting the kernel” après le GRUB. Si je repasse en “Auto”, alors, ça démarre normalement.

regarde le pile de la CM. Quand elle est morte, certaines CM ont un comportement bizare

Le coup de a pile est pas mauvaise mais en générale si tu laisse ton PC tout le temps sur secteur sans couper la prise la pile est faite pour duré bien plus longtemps que ça. Et même en coupant la prise la mienne a duré plus que 2 ans mais bon on ne sais jamais.
Tu as dit que tu était dans un coin paumé et que le problème était très aléatoire, du coup je me demande si ce n’est pas un facteur extérieur qui est en cause, comme une alimentation électrique générale de mauvaise qualité, baisse/pic de tension. Ça se voi bien sur les ampoule en générale. Et si ton alim supporte mal ces variation de tension elle peut faire avoir des comportement bizarre a ton PC. Si tu avais un onduleur pour écarter ce facteur ça serais pas mal.
Sinon pour tes fichier qui «saute» je pense que les arrêt brutaux mettent à l’épreuve ton système de fichier, lors des reboot tu dois voir des scan disk avec des «orphan inode». Dans le meilleur des cas il récupère tout, sinon il fait ce qu’il peut.

Je vais voir pour la pile. En fait, je pense qu’elle est assez vieille, celle-ci. Peut-être 5 ans (j’ai perdu la précédente), le PC est rarement “pas alimenté” (bien qu’il l’ait été quelques semaines cet été).
Je ne pense pas que le réseau électrique ait un problème. Premièrement, en 2 ans, je n’ai pas eu de problèmes (genre les ampoules qui clignotent très rapidement), l’installation électrique est neuve (le logement a 3 ans et le propriétaire est celui qui a fait le travaux, je le connais personnellement, il est sérieux), et surtout, un membre de ma famille, électricien, avait tout révisé pour mes CPL. En gros, je ne pense pas que ça vienne de l’installation électrique.

J’ai essayé avec une carte graphique AMD 6450 (bas-de-gamme), je n’ai eu aucun plantage. J’ai réinstallé ma 750 Ti, et j’ai eu plusieurs plantages sous Blender, mais aussi simplement lors de l’ouverture d’une session. Clairement, elle joue un rôle là-dedans. Je ne dis pas qu’elle est coupable, mais en tout cas, c’est quand elle est branchée qu’il y a des problèmes…Après, est-ce qu’elle les provoque directement, ce n’est pas sûr.

Demain, je teste avec une autre alimentation (mon frère a exactement la même que moi, une Corsair 500 Watts), je vais également acheter une nouvelle pile de CM (je n’ai pas de testeur), et si le problème subsiste, je continuerai à enquêter.

Pour info : j’ai installé d’autres drivers. J’avais ceux du site nvidia, mais cette fois, j’ai installé ceux des backports, ainsi que nvidia-cuda-toolkit (pour blender). Ça n’a rien changé.

Dernière chose : quand ça plante, parfois, mon BIOS change une option, celle du processeur, qu’il configure en Manual (et il active plusieurs coeurs que je n’ai pas) [le PC galère a démarrer ou ne démarre pas]. Dès que je passe ça en Auto, ça refonctionne (jusqu’au prochain plantage qui parfois seulement, change cette option).

c’est ces plantages de BIOS qui me font penser à la pile.

est ce que tu as bien alimenté ta CG avec tout les connecteurs prévus ?

Il n’y en a pas. Elle est alimentée directement par la CM, en PCI. Je n’ai eu aucun problème en 6 mois, jusqu’à présent…pas de changements particulier…sauf, une tablette graphique, en fait. Mais des plantages surviennent tout de même quand elle est débranchée.