Problème plantage CPU

madjpm · Février 21, 2016, 7:02pm

Bonjour,

je subis depuis quelques jours des plantages à répétition sur un petit serveur chez moi.
Celui ci marche très bien depuis des années pour divers utilisations (mame sur la télé, sauvegarde backuppc, vlc etc…) mais j’ai l’impression que depuis un upgrade il plante régulièrement :

osiris:/var/log# uname -a
Linux osiris 3.10-3-amd64 #1 SMP Debian 3.10.11-1 (2013-09-10) x86_64 GNU/Linux

Et voici le log du plantage :

Nov 11 19:39:01 osiris kernel: [67950.280029] ------------[ cut here ]------------
Nov 11 19:39:01 osiris kernel: [67950.280029] WARNING: at /build/linux-BPzSEt/linux-3.10.11/kernel/sched/clock.c:274 sched_clock_tick+0x38/0x6e()
Nov 11 19:39:01 osiris kernel: [67950.280029] Modules linked in: nfnetlink_log nfnetlink cpufreq_powersave cpufreq_stats cpufreq_userspace cpufreq_conservative ppdev lp binfmt_misc ext4 crc16 jbd2 hwmon_vid firewire_sbp2 loop fuse dm_crypt dm_mod nvidia(PO) snd_hda_codec_hdmi snd_hda_intel snd_hda_codec snd_hwdep snd_pcm_oss snd_mixer_oss snd_pcm snd_mpu401 snd_page_alloc snd_mpu401_uart snd_seq_midi snd_seq_midi_event snd_rawmidi evdev joydev snd_seq snd_seq_device snd_timer powernow_k8 snd soundcore k8temp parport_pc parport pcspkr serio_raw ns558 gameport edac_mce_amd edac_core i2c_nforce2 i2c_core asus_atk0110 processor button ext3 mbcache jbd sd_mod crc_t10dif hid_generic usbhid hid sg sr_mod cdrom ata_generic fan thermal thermal_sys firewire_ohci floppy firewire_core crc_itu_t sata_nv pata_amd libata forcedeth ohci_hcd ehci_pci ehci_hcd scsi_mod usbcore usb_common
Nov 11 19:39:01 osiris kernel: [67950.280029] CPU: 1 PID: 0 Comm: swapper/1 Tainted: P O 3.10-3-amd64 #1 Debian 3.10.11-1
Nov 11 19:39:01 osiris kernel: [67950.280029] Hardware name: System manufacturer System Product Name/A8N-SLI Premium, BIOS ASUS A8N-SLI Premium ACPI BIOS Revision 1009 10/21/2005
Nov 11 19:39:01 osiris kernel: [67950.280029] 0000000000000000 ffffffff8103bb70 0000000000000000 ffff88013fd0e550
Nov 11 19:39:01 osiris kernel: [67950.280029] 00003dcce8c75e2f 0000000000000001 0000000000000000 ffffffff81063cf7
Nov 11 19:39:01 osiris kernel: [67950.280029] ffff88013fd0e550 00003dcce8c75e2f ffffffff81063d3b ffffffff8107a018
Nov 11 19:39:01 osiris kernel: [67950.280029] Call Trace:
Nov 11 19:39:01 osiris kernel: [67950.280029] [] ? warn_slowpath_common+0x5b/0x70
Nov 11 19:39:01 osiris kernel: [67950.280029] [] ? sched_clock_tick+0x38/0x6e
Nov 11 19:39:01 osiris kernel: [67950.280029] [] ? sched_clock_idle_wakeup_event+0xe/0x14
Nov 11 19:39:01 osiris kernel: [67950.280029] [] ? tick_check_idle+0x49/0x9c
Nov 11 19:39:01 osiris kernel: [67950.280029] [] ? irq_enter+0x41/0x5b
Nov 11 19:39:01 osiris kernel: [67950.280029] [] ? smp_apic_timer_interrupt+0x25/0x7e
Nov 11 19:39:01 osiris kernel: [67950.280029] [] ? apic_timer_interrupt+0x6d/0x80
Nov 11 19:39:01 osiris kernel: [67950.280029] [] ? native_safe_halt+0x2/0x3
Nov 11 19:39:01 osiris kernel: [67950.280029] [] ? default_idle+0x17/0x3f
Nov 11 19:39:01 osiris kernel: [67950.280029] [] ? cpu_startup_entry+0x10d/0x187
Nov 11 19:39:01 osiris kernel: [67950.280029] [] ? start_secondary+0x1df/0x1e3
Nov 11 19:39:01 osiris kernel: [67950.280029] —[ end trace d64bd341b6356a80 ]—

Est ce que ça peut venir d’un encrassement interne du ventirad ? (il n’est pourtant pas très chaud après plantage…)

Merci.

Mimoza · Février 21, 2016, 7:02pm

Si tu suspecte une surchauffe de ton matériel le mieux est encore d’aller voir ce que raconte les sondes de température.
Tes logs ne nous apprennent pas grand chose sur l’origine de la panne …

madjpm · Février 21, 2016, 7:02pm

Ça ne me parait pas anormal pourtant :

osiris:/var/log# sensors
acpitz-virtual-0
Adapter: Virtual device
temp1: +40.0°C (crit = +75.0°C)

atk0110-acpi-0
Adapter: ACPI interface
Vcore Voltage: +1.10 V (min = +1.45 V, max = +1.75 V)
+3.3 Voltage: +3.25 V (min = +3.00 V, max = +3.60 V)
+5.0 Voltage: +4.89 V (min = +4.50 V, max = +5.50 V)
+12.0 Voltage: +11.97 V (min = +11.20 V, max = +13.20 V)
CPU FAN Speed: 0 RPM (min = 0 RPM, max = 1800 RPM)
CHASSIS FAN Speed: 0 RPM (min = 0 RPM, max = 1800 RPM)
CHIPSET FAN Speed: 0 RPM (min = 0 RPM, max = 1800 RPM)
CPU Temperature: +41.0°C (high = +90.0°C, crit = +125.0°C)
MB Temperature: +36.0°C (high = +70.0°C, crit = +125.0°C)

k8temp-pci-00c3
Adapter: PCI adapter
Core0 Temp: +32.0°C
Core1 Temp: +34.0°C

osiris:/var/log# hddtemp /dev/sda
/dev/sda: WDC WD2500JS-00MHB0: 46°C
osiris:/var/log# hddtemp /dev/sdb
/dev/sdb: WDC WD2500JS-00MHB0: 32°C
osiris:/var/log# hddtemp /dev/sdc
/dev/sdc: Hitachi HDT721075SLA380: 35°C

Mimoza · Février 21, 2016, 7:04pm

Mis à part ton Vcore qui me parait un peu bas (mais c’est peut être normal) non il n’y a rien de particulier.
Donc si ça ne semble pas venir de ton matériel c’est peut être la mise à jour qui a foutue la grouille. Tu as eut quoi exactement comme mis à jour ?

jb1 · Février 21, 2016, 7:04pm

bonjour,
pour le 5v, beaucoup de disques?
sur les ports usb (5v) les périphériques?
le µP a quel age si rescent ne pas renir compte de l’observation

une solution intermédiaire installé kdump,
je veux bien te donner un coup de main!
wiki.incloudus.com/display/DOC/Kdump±+Analyse
A+
JB1

madjpm · Février 21, 2016, 7:04pm

J’ai 3 disques sur cette machine, il n’y a aucun périphérique usb si ce n’est un une clef pour le clavier/souris.
Le proc est plutôt ancien (7/8 ans maintenant) c’est une vieille machine que j’ai récupéré pour m’en faire un media center. (ça peut lâcher un proc ?)

Là il est coupé car il tient de moins en moins longtemps, hier soir j’ai voulu regarder un truc sur mon serveur mediatomb et il a crashé en quelques minutes.

piratebab · Février 21, 2016, 7:04pm

passe un coup de memtest.
Regarde si tu as possibilité d’avoir la température des barettes mémoires.
Ca peux aussi venir du disque dur

Mimoza · Février 21, 2016, 7:05pm

Si ça se dégrade avec le temps je te conseil de faire une inspection minutieuse de tous les composant du Pc et spécialement la carte mère. Porte une attention particulière à l’état de tous les condensateur (gonflement, suintement, …). Je suppute qu’il y en a 1 qui est en train de lâcher.

jb1 · Février 21, 2016, 7:05pm

bonjour,
c’est gratuit,
dans le bios, la vitesse du processeur n’a pas étè changer?

:
Nov 11 19:39:01 osiris kernel: [67950.280029] <IRQ> [<ffffffff8103bb70>] ? warn_slowpath_common+0x5b/0x70

cela à l’air d’être un vieux bug réfèrencé, pour certaine valeur
mais google pour warm…0x78 fait référence à la 3.10
j’ai utilisé la 3.10 mais pas assez longtemps et sans la bousculer
si de la place sur disque, un regard à 3.11 ou mieu 3.12
donc impasse sur la résolution du pb,
je me dérobe, j’enlève mon kilt

la version de Debian SVP?
A+
JB1

madjpm · Février 21, 2016, 7:05pm

jb1 : Ah merci je vais regarder ça, c’est peut être en effet un bug du bios.

Pour la version debian je reste toujours sur la branche testing.

jb1 · Février 21, 2016, 7:05pm

je n’ai pas écrit un bug du bios,
d ans le bios le µP est cadensé à combien?
A+
JB1