[résolu] Trouver l'origine d'une instablilité

Bonjour,

J’ai une instabilité récurrente qui commence à me chauffer sérieusement, et j’aurais besoin d’un coup de main pour être sur de l’origine du problème.

Hardware:
CM : P5N-E SLI
Proc : C2D E4400 oc à 3Ghz
Ram : 21Go
CG : Nvidia 8600 GT
DD: 2
S-ATA+2*IDE
[EDIT]Alim : Seasonic S12 430W

Soft:
Debian Sid avec les sources.list et pref conseillés dans truc&astuces.
Gnome+compiz
Driver Nvidia Proprio 169.09 puis 169.12

Les instabilités:
Ca arrive par vagues, pas de problème pendant 24h, puis 5 freeze d’affilés par exemple. Aucun moyen de reproduire le freeze. X plante, le reste marche encore mais impossible de relancer uniquement X.
Dans les log, j’ai toujours ce message :
kernel: NVRM: Xid (0001:00): 3, C 00000003 SC 00000007 M 00001f60 Data 00000000
ou
kernel: NVRM: Xid (0001:00): 13, 0003 00000000 00008297 000019c4 0000ec00 00000005

J’ai remarqué que cette alerte dans les logs ne génère pas toujours un freeze mais quand il y a freeze, c’est toujours à cause de ca.

J’ai fait pas mal de recherche sur le sujet, mais rien de concluant. J’ai essayé tout ce que j’ai pu trouver sans résultat.

Je viens de repasser depuis 48h au driver libre nv et je n’ai pas constaté de pb pour le moment mais je ne peux pas rester à long terme comme ca.

Pour le moment, j’ai 3 sources possibles et j’aurais besoin d’un coup de main pour essayer d’avancer:
1- l’alim est un peu faible pour la config. Peut-être que la carte graphique tire trop dessus ce qui génère des erreurs. Pb, les freeze ne se produisent pas forcement à pleine charge du proc, mais j’ai aucune idée de la conso des autres composants. Ne laisser qu’un DD améliore la stabilité mais j’ai quand même qq freeze. Comment je peux monitorer la conso élec pour voir si je suis en pleine conso lors d’un freeze?
2- la carte graphique n’est pas stable. Est-ce que ca existe une carte graphique qui marche mais n’est juste pas stable? Quel test je pourrais faire pour le vérifier?
3-bug du driver: c’est possible mais je n’y crois pas trop. Les freeze ne sont pas productible et aucun bug n’est signalé avec ma CG. J’ai en plus essayé 3 drivers nvidia en tout et le problème était toujours là. Peut-être que je peux essayer d’installer directement le driver avec le .run ?

Donc en gros, j’aurais besoin d’un coup de main pour connaitre la puissance réelle utilisé au moment des bugs et pour vérifier la stabilité de la carte graphique… Si qq’un avait des méthodes ou des tests a me faire faire, ce serait avec plaisir!

A noté que depuis 3 semaines, j’ai de temps en temps un problème d’inversion des couleurs sur les vidéos uniquement. Pour réussir à revenir à la normale, j’ai redémarrer X avec nv, puis je suis revenu à nvidia et la vidéo marchait correctement… :open_mouth:
J’ai également testé la stabilité de mon oc grace a CPUStress sans soucis.

Merci pour votre aide :wink: !

Salut,

J’ai eu le problème, c’était mon alim qui ne devait pas être suffisamment stable. J’en ai acheté une la peau des fesses, maintenant ça marche très bien. Le problème ne se posait pas forcément à pleine charge.
Mais bon, moi je n’overclockais pas.

Essaye aussi de désactiver l’APIC et l’ACPI.

vw

Merci pour la réponse. J’ai essayé de les désactivé mais sans résultat. Je penche également de plus en plus pour l’alim mais j’aimerais essayer d’avancer un peu plus avant de mettre 100€ la-dedans.

Pour l’overclock, le problème se produit également sans. Mais ca me parait normal vu que je ne suis pas à pleine charge CPU lors des freezes.

Sinon par curiosité, en tapant nvidia-settings, que donne la température du core de la carte graphique ?

De mémoire -je suis avec nv là - c’était 35°C en fonctionnement normal. Je referais un test demain.

Donc pas un problème de surchauffe du GPU.

En ce qui concerne l’alim, est-ce une marque réputée ? Ses tensions sont-elles stables ?

Ca ne me dit vraiment rien, aurais-tu un lien ou quelque chose ?

Si j’étais toi je testerais les tensions avec OCCT (sous Windows).

Pour tester le matériel :

il faut procéder :
on teste le tric minimum à la foi

a savoir pour commencer ce qui est branché :
1 cm
1 gpu
1 dd
1 seul barrette mémoire
1 A

on teste aux niveaux logiciel :
1 la mémoire donc sans X
2 CPU
3 les deux
4 le DD
5 le tout

6 la carte vidéo

si il y a une autre barrette, on refait le teste : séparément, puis ensemble

pour les soft je ne les connais pas sur Linux, mai il y en a un qui fesai sa très bien
mersenne.org/freesoft.htm
tu le fais tourner a donf durant 2 h aux moins
si t’a pas d’erreur et si ton cpu /disque/gpu ne chauffe pas c’est aux niveaux logiciel qu’il faudera cherché
à moins que tu tapes des piques de sous tension, mai a ce moment la il n’y aura qu’un onduleur qui peut contrer le problème
Quant à l’alim elle est a combien en watt . et il y a quoi comme matériel sur ta brèle.?

bon enfin pour teste la carte graphique. je ne connais pas de soft performant surtout sous linux. mai a ce moment le plus simple c’est de tester avec une auxtre carte graphique c’est vite changer :slightly_smiling:

D’accord, bon si c’est une Seasonic, ce n’est sûrement pas un problème de tensions (sauf si elle est défectueuse, donc ne pas négliger cette probabilité).

Mais peut-être est-ce l’insuffisance des 430w oui :confused:

Ca peut être tout un tas de choses donc comme panthere le dit il te faut tester les composants un par un.

Merci pour toutes ces infos!

Je suis repassé sous nvidia pour faire des tests ce matin.
Température GPU entrer 42°C et 44°C. Je suis pas arrivé à la faire monter plus pour le moment. Pas de freeze également pourtant j’ai tout mis au taquet pendant une heure: CPUStreeMT qui bourrine sur les deux coeurs + un film d’animation en presque pleine ecran (il fallait que je garde un oeil sur la température gpu en cas de freeze)

Pour l’alim, j’ai corrigé… c’est une seasonic S12 430W. Pour le matériel qu’elle fait tourner; j’ai tout mis sur le premier post.

Pour les test de stabilité, voici ce que j’ai fait:
1- test des barettes ram avec memtest -> sans erreur
2- test de stabilité avec cpustressmt (il fait travailler les deux coeurs simultanément et compte les erreurs) -> sans erreur
3- les DD, je ne sais pas comment les tester mais le problème s’est produit avec le système installé sur différents DD

[quote]pour les soft je ne les connais pas sur Linux, mai il y en a un qui fesai sa très bien
mersenne.org/freesoft.htm
tu le fais tourner a donf durant 2 h aux moins[/quote]
:smiley: le seul soft que j’ai trouvé est mprime et ca n’a pas l’air de faire ce que tu dis?!?

Pour info, je n’ai pas de .crosoft chez moi :wink: donc je ne peux utiliser que les outils linux. Et pour faire des essais avec une autre alim ou CG, je n’en ai pas sous la main et mes potes ne savent généralement pas ce qu’est une carte graphique…donc je ne vais pas pouvoir piocher chez eux…

Voila… pas facile cette histoire…

[quote=“ymer”]D’accord, bon si c’est une Seasonic, ce n’est sûrement pas un problème de tensions (sauf si elle est défectueuse, donc ne pas négliger cette probabilité).

Mais peut-être est-ce l’insuffisance des 430w oui :confused:

Ca peut être tout un tas de choses donc comme panthere le dit il te faut tester les composants un par un.[/quote]

C’est peut-être le problème des 430W. Mais il faudrait que je sache comment vérifier la puissance que je consomme. QQ’un a une idée pour ca? Comment également vérifier l’absence de chute de tension? Bref, comment peut-on monitorer et enregistrer les conso élec sous linux? J’ai cherché mais à part afficher les tensions en temps réel, je ne suis pas arrivé à grand chose…

Je l’ignore :confused:

Par contre je sais qu’il y a un ou plusieurs sites qui proposent de calculer la puissance requise pour ton matériel (c’est à toi de le détailler).

En voilà un: extreme.outervision.com/psuc … orlite.jsp

Mais j’ignore si c’est totalement fiable et précis, un soft linux serait bien mieux c’est clair, mais j’en connais pas :s

Edit: Ptet’ qu’avec un aptitude search power tu trouvrais des programmes intéressants, qui sait 8)

Si ton pc ce fait vieux, c’est peut etre la pile cmos qui est h.s est très chian a trouver comme problème. 430w, par contre sa coute pas chère a changer :smiley:

3- les DD, je ne sais pas comment les tester mais le problème s'est produit avec le système installé sur différents DD

tu aurais pas utiliser un utilitaire pour dupliquer,ou réparer ?
sic est le cas sa viens sûrement de là

Me revoila…

J’ai fais le test pour évaluer la puissance nécessaire : 300W… je sais pas si c’est fiable ou pas…

Sinon le PC à 9 mois et tourne 24/24.
Le DD sur lequel il tourne actuellement à 5 mois ( Western Digital Caviar SE16 S-ATA 320 Go - 16 Mo ). Le PC a d’abord tournée avec Ubuntu sur un vieil IDE, pour sur un autre DD identique a l’actuel. A chaque fois j’ai installé proprement sans aucun soucis.
Il faudrait que je me renseigne sur le comportement de Cpustress mais à mon avis, il doit détecter une erreur de DD. Avant cpustress, je faisais de la compilation en boucle et je comparais les résultats avec md5sum. Si il y a un problème de DD, ca doit également être repéré par cette méthode, non?

Pour changer l’alim, j’ai déjà donné dans l’alim pas chere et elle m’a grillé tout le pc le jour ou elle m’a abandonné :confused: . Depuis, je trouve très rentable de mettre un peu plus de sous dedans!!!

Pour le aptitude search power, j’ai trouver powertop mais le resultat n’est pas significatif.

Sinon, j’ai surveiller toute la journée d’hier les tensions. Pour le moment, elles n’ont pas bougé de plus de 0,02v. J’ai eu 2 freezes et les tensions affichés à ce moment était toujours nickel…
La température du CPU reste entre 40°C et 44°C, idem GPU qui ne dépasse pas 44°C.

Bilan de la journée d’hier:

  • 2 freezes l’un après l’autre après 8h de travail dessus, et au moment ou le PC était le plus chargé : msn/skype/icedove/iceweasel/gimp/openkomodo/inkscape/amarok et compiz
  • pas de trace dans les logs…
  • les seules erreurs trouvés qui ont peut-être un rapport:

Apr 9 19:10:25 kernel: /build/buildd/linux-modules-extra-2.6-2.6.24/debian/build/build_amd64_none_amd64_gspca/gspca_core.c: [spca5xx_set_light_freq:1932] Sensor currently not support light frequency banding filters. Apr 9 19:10:25 kernel: /build/buildd/linux-modules-extra-2.6-2.6.24/debian/build/build_amd64_none_amd64_gspca/gspca_core.c: [gspca_set_isoc_ep:945] ISO EndPoint found 0x81 AlternateSet 7 Apr 9 19:10:27 kernel: /build/buildd/linux-modules-extra-2.6-2.6.24/debian/build/build_amd64_none_amd64_gspca/gspca_core.c: init isoc: usb_submit_urb(0) ret -28 Apr 9 19:10:27 kernel: /build/buildd/linux-modules-extra-2.6-2.6.24/debian/build/build_amd64_none_amd64_gspca/gspca_core.c: [gspca_set_isoc_ep:945] ISO EndPoint found 0x81 AlternateSet 6 Apr 9 19:10:27 kernel: ohci_hcd 0000:00:0b.0: leak ed ffff81003792a370 (#81) state 2
Mais bon, la webcam marche très bien…

Là, je pense que c’est un bug logiciel :unamused:

J’ai juste l’icone tomboy dans ma barre sup et il marche toujours très bien…

La seul chose que je pourrais encore tester est de mettre le driver de nvidia en direct, mais j’ai trop peur de foutre le bronx dans le système… :confused:

Je viens de le remettre au taquet pendant 20min (j’ai pas plus faire plus, j’ai besoin de l’ordi…) sans aucun résultat… :frowning: il bronche pas. pourtant, j’ai tout ouvert !

Bizarre, en fait tout les freezes auxquels j’ai du faire face étaient du au materiel, soit surchauffe du GPU/CPU, bloc d’alimentation en fin de vie ou avec de mauvaises tensions, ou mémoire defectueuse, et rarement logiciel.

En tout cas, lorsque tu mettais nv, ça allait non ? Lorsque tu remets nvidia ça ne va plus ? Lances-tu compiz avec nv ? avec nvidia ?

Peut-être est-ce compiz, ou les drivers nvidia… Pas simple…

[quote=“Essaouera”]Me revoila…
La température du CPU reste entre 40°C et 44°C, idem GPU qui ne dépasse pas 44°C.
[/quote]

si t’a pas du water-colling ,ta sonde est faussée il y a aux moins 7C° entre le min (sans charge et le max (avec))
bah pour etre fixer tu touche le plus près du cpu (sans toucher la cm) durant 3 a 5 sec
si tu retires tes doigt avant, la temp est en dessus des 60 , moins de 2 sec c’est très chaud tu peux l’éteindre sa va pas tarder a cramer.

comment je le sais ,ben par la pratique. a force de voire les amis arriver avec leur pc qui a griller parce que trop coller dans un coin quand c’est pas dans un meuble (ce que je fait mai avec du water :stuck_out_tongue:)

il fait combien dans ta pièce ?

sinon essaye de bosser sans compiz. c’est du keke pas indispensable, et pas stable !
fait une copie de ton xorg.conf et vire ce qui concerne keke-compiz 8)

[quote=“panthere”]
si t’a pas du water-colling ,ta sonde est faussée il y a aux moins 7C° entre le min (sans charge et le max (avec))
bah pour etre fixer tu touche le plus près du cpu (sans toucher la cm) durant 3 a 5 sec
si tu retires tes doigt avant, la temp est en dessus des 60 , moins de 2 sec c’est très chaud tu peux l’éteindre sa va pas tarder a cramer.

comment je le sais ,ben par la pratique. a force de voire les amis arriver avec leur pc qui a griller parce que trop coller dans un coin quand c’est pas dans un meuble (ce que je fait mai avec du water :stuck_out_tongue:)

il fait combien dans ta pièce ?

sinon essaye de bosser sans compiz. c’est du keke pas indispensable, et pas stable !
fait une copie de ton xorg.conf et vire ce qui concerne keke-compiz 8)[/quote]

Re-salut et merci beaucoup pour participer à ce smililibilic :wink:

En pleine charge, je monte effectivement à 52°C pour le CPU. Les températures que je donnais était celle en utilisation courante où je ne fait des pleines charges que très temporaires.
J’ai effectivement vérifier régulièrement à la main les rad CPU et GPU et ils sont quasi froid au touché. Non, j’ai bien vérifié et je ne pense pas surchauffé.
J’ai également deux sondes qui ne sont pas calibrées mais elles sont signalées comme tel dans les logs et je ne les utilise pas.

Sinon, on peut faire tourner compiz avec nv?!? Je croyais que nv ne pouvait pas faire de 3D… un autre truc que j’ai pas essayé effectivement, c’est de travailler sans compiz avec le driver nvidia. Je ferais ca demain pour voir si je freeze quand même.

Pour l’utilité de compiz, au delà de son côté design non négligeable, je trouve ca redoutablement efficace pour travailler! J’ai qu’un PC avec un seul ecran pour faire du développement web + traitement photo et je me sens en galère sans :mrgreen: . Ceci reste bien entendu qu’un petit avis perso…

@ymer : oui pour moi aussi des freezes comme ca sont forcement matériel… ce qui me fait le plus peur, ce serait que la CG est des petites défaillances, indétectable par un SAV qui a autre chose à faire, et de voire ma CG me revenir en l’état après un mois de SAV :cry:

Mon xorg.conf :

[code]# /etc/X11/xorg.conf (xorg X Window System server configuration file)

This file was generated by dexconf, the Debian X Configuration tool, using

values from the debconf database.

Edit this file with caution, and see the /etc/X11/xorg.conf manual page.

(Type “man /etc/X11/xorg.conf” at the shell prompt.)

This file is automatically updated on xserver-xorg package upgrades only

if it has not been modified since the last upgrade of the xserver-xorg

package.

If you have edited this file but would like it to be automatically updated

again, run the following command:

sudo dpkg-reconfigure -phigh xserver-xorg

Section "Files"
FontPath "/usr/share/fonts/X11/misc"
FontPath "/usr/X11R6/lib/X11/fonts/misc"
FontPath "/usr/share/fonts/X11/cyrillic"
FontPath "/usr/X11R6/lib/X11/fonts/cyrillic"
FontPath "/usr/share/fonts/X11/100dpi/:unscaled"
FontPath "/usr/X11R6/lib/X11/fonts/100dpi/:unscaled"
FontPath "/usr/share/fonts/X11/75dpi/:unscaled"
FontPath "/usr/X11R6/lib/X11/fonts/75dpi/:unscaled"
FontPath "/usr/share/fonts/X11/Type1"
FontPath "/usr/X11R6/lib/X11/fonts/Type1"
FontPath "/usr/share/fonts/X11/100dpi"
FontPath "/usr/X11R6/lib/X11/fonts/100dpi"
FontPath "/usr/share/fonts/X11/75dpi"
FontPath “/usr/X11R6/lib/X11/fonts/75dpi”
# path to defoma fonts
FontPath "/var/lib/defoma/x-ttcidfont-conf.d/dirs/TrueType"
EndSection

Section "Module"
Load "i2c"
Load "bitmap"
Load "ddc"
Load "dri"
Load "extmod"
Load "freetype"
Load "glx"
Load "int10"
Load "vbe"
EndSection

Section "InputDevice"
Identifier "Generic Keyboard"
Driver "kbd"
Option "CoreKeyboard"
Option “XkbRules” "xorg"
Option “XkbModel” "pc105"
Option “XkbLayout” "fr"
Option “XkbVariant” "latin9"
EndSection

Section "InputDevice"
Identifier "Configured Mouse"
Driver "mouse"
Option "CorePointer"
Option “Device” "/dev/input/mice"
Option “Protocol” "ImPS/2"
Option “ZAxisMapping” "4 5"
Option “Emulate3Buttons” "true"
EndSection

Section "Device"
Identifier "nVidia Corporation NVIDIA Default Card"
Driver "nvidia"
BusID "PCI:1:0:0"
Option “AddARGBVisuals” "True"
Option “AddARGBGLXVisuals” "True"
Option “NoLogo” "True"
EndSection

Section "Monitor"
Identifier "Écran générique"
Option "DPMS"
Horizsync 28-64
Vertrefresh 43-60
EndSection

Section "Screen"
Identifier "Default Screen"
Device "nVidia Corporation NVIDIA Default Card"
Monitor "Écran générique"
DefaultDepth 24
SubSection "Display"
Depth 24
Modes “1280x1024” "800x600"
EndSubSection
EndSection

Section "ServerLayout"
Identifier "Default Layout"
Screen "Default Screen"
InputDevice "Generic Keyboard"
InputDevice "Configured Mouse"
EndSection

Section "DRI"
Mode 0666
EndSection[/code]

En fait je sais plus si nv le permet ou pas, je crois que non t’as raison.

Bonne idée de voir sans Compiz.

Par contre c’est vraiment dommage que tu n’ai pas de Microsoft Windows, tu aurais pu faire de vrais test de stabilité (autres que ceux qui bourrent le CPU à 100%), parce-que ça peut aussi venir de là, jveux dire, il a l’air stable mais ne l’est pas réellement quand il reçoit une sorte d’information bien spécifique ou je sais pas comment dire ça, même si en général les C2D ça tient bien l’O/c, y’a plein de trucs à prendre en compte.

En tout cas vérifie sans compiz, on verra 8)

:laughing: :laughing: :laughing:

Désolé… :mrgreen:

Bon je viens de voir en relisant le post que j’avais le module “dri” d’activé dans mon xorg.conf. :unamused: Je viens de le virer et j’attends le freeze avant de virer compiz.