Debian 7 sous VMWare, Freeze récurent

Bonjour. J’espère que vous allez pouvoir m’aider. J’ai un serveur professionnel qui tourne sur debian 7 en virtualisation sur un mac mini.
Il freeze régulièrement mais je n’arrive pas à pointer du doigt le problème. J’ai lu les logs mais je ne vois rien. Souvent je remarque une absence de log entre le moment du plantage et le reboot mais rien ne laisse entrevoir une erreur.
Je suis débrouillard mais je ne suis pas habitué à dépanner des serveurs et je ne sais pas du tout par où commencer.
S’il y a des fichiers ou informations que vous aimeriez avoir faites-le moi savoir.
Je doute que ce soit un problème matériel. On a deux serveur mac mini et sur l’un était installé la machine virtuelle. Je l’ai transférée ce week end sur l’autre machine histoire de voir si les freezes subsistaient. Mais rien n’y fait, il freeze encore.

Par rapport aux logs que je vais poster, le plantage a eu lieu aux alentours de 14h23.
Merci pour l’aide que vous pourrez m’apporter. J’aimerai vraiment une procédure de dépannage, savoir que faire dans ce genre de situation. Il y a du monde sur ce serveur et chaque freeze coûte assez cher à l’entreprise dans laquelle je travaille, j’aimerai résoudre ce problème le plus rapidement possible.

lspci :

00:00.0 Host bridge: Intel Corporation 440BX/ZX/DX - 82443BX/ZX/DX Host bridge (rev 01) 00:01.0 PCI bridge: Intel Corporation 440BX/ZX/DX - 82443BX/ZX/DX AGP bridge (rev 01) 00:07.0 ISA bridge: Intel Corporation 82371AB/EB/MB PIIX4 ISA (rev 08) 00:07.1 IDE interface: Intel Corporation 82371AB/EB/MB PIIX4 IDE (rev 01) 00:07.3 Bridge: Intel Corporation 82371AB/EB/MB PIIX4 ACPI (rev 08) 00:07.7 System peripheral: VMware Virtual Machine Communication Interface (rev 10) 00:0f.0 VGA compatible controller: VMware SVGA II Adapter 00:10.0 SCSI storage controller: LSI Logic / Symbios Logic 53c1030 PCI-X Fusion-MPT Dual Ultra320 SCSI (rev 01) 00:11.0 PCI bridge: VMware PCI bridge (rev 02) 00:15.0 PCI bridge: VMware PCI Express Root Port (rev 01) 00:15.1 PCI bridge: VMware PCI Express Root Port (rev 01) 00:15.2 PCI bridge: VMware PCI Express Root Port (rev 01) 00:15.3 PCI bridge: VMware PCI Express Root Port (rev 01) 00:15.4 PCI bridge: VMware PCI Express Root Port (rev 01) 00:15.5 PCI bridge: VMware PCI Express Root Port (rev 01) 00:15.6 PCI bridge: VMware PCI Express Root Port (rev 01) 00:15.7 PCI bridge: VMware PCI Express Root Port (rev 01) 00:16.0 PCI bridge: VMware PCI Express Root Port (rev 01) 00:16.1 PCI bridge: VMware PCI Express Root Port (rev 01) 00:16.2 PCI bridge: VMware PCI Express Root Port (rev 01) 00:16.3 PCI bridge: VMware PCI Express Root Port (rev 01) 00:16.4 PCI bridge: VMware PCI Express Root Port (rev 01) 00:16.5 PCI bridge: VMware PCI Express Root Port (rev 01) 00:16.6 PCI bridge: VMware PCI Express Root Port (rev 01) 00:16.7 PCI bridge: VMware PCI Express Root Port (rev 01) 00:17.0 PCI bridge: VMware PCI Express Root Port (rev 01) 00:17.1 PCI bridge: VMware PCI Express Root Port (rev 01) 00:17.2 PCI bridge: VMware PCI Express Root Port (rev 01) 00:17.3 PCI bridge: VMware PCI Express Root Port (rev 01) 00:17.4 PCI bridge: VMware PCI Express Root Port (rev 01) 00:17.5 PCI bridge: VMware PCI Express Root Port (rev 01) 00:17.6 PCI bridge: VMware PCI Express Root Port (rev 01) 00:17.7 PCI bridge: VMware PCI Express Root Port (rev 01) 00:18.0 PCI bridge: VMware PCI Express Root Port (rev 01) 00:18.1 PCI bridge: VMware PCI Express Root Port (rev 01) 00:18.2 PCI bridge: VMware PCI Express Root Port (rev 01) 00:18.3 PCI bridge: VMware PCI Express Root Port (rev 01) 00:18.4 PCI bridge: VMware PCI Express Root Port (rev 01) 00:18.5 PCI bridge: VMware PCI Express Root Port (rev 01) 00:18.6 PCI bridge: VMware PCI Express Root Port (rev 01) 00:18.7 PCI bridge: VMware PCI Express Root Port (rev 01) 02:00.0 USB controller: VMware USB1.1 UHCI Controller 02:01.0 Ethernet controller: Intel Corporation 82545EM Gigabit Ethernet Controller (Copper) (rev 01) 02:02.0 Multimedia audio controller: Ensoniq ES1371 [AudioPCI-97] (rev 02) 02:03.0 USB controller: VMware USB2 EHCI Controller

messages.log

Sep 16 13:35:36 androprod7 mpt-statusd: detected non-optimal RAID status Sep 16 13:45:36 androprod7 mpt-statusd: detected non-optimal RAID status Sep 16 13:55:36 androprod7 mpt-statusd: detected non-optimal RAID status Sep 16 14:05:36 androprod7 mpt-statusd: detected non-optimal RAID status Sep 16 14:15:36 androprod7 mpt-statusd: detected non-optimal RAID status Sep 16 14:29:35 androprod7 kernel: imklog 5.8.11, log source = /proc/kmsg started. Sep 16 14:29:35 androprod7 rsyslogd: [origin software="rsyslogd" swVersion="5.8.11" x-pid="2378" x-info="http://www.rsyslog.com"] start Sep 16 14:29:35 androprod7 kernel: [ 0.000000] Initializing cgroup subsys cpuset Sep 16 14:29:35 androprod7 kernel: [ 0.000000] Initializing cgroup subsys cpu Sep 16 14:29:35 androprod7 kernel: [ 0.000000] Linux version 3.2.0-4-amd64 (debian-kernel@lists.debian.org) (gcc version 4.6.3 (Debian 4.6.3-14) ) #1 SMP Debian 3.2.46-1+deb7u1 Sep 16 14:29:35 androprod7 kernel: [ 0.000000] Command line: BOOT_IMAGE=/boot/vmlinuz-3.2.0-4-amd64 root=UUID=59aa41a1-71e2-4f2b-89af-8fea79d43504 ro quiet Sep 16 14:29:35 androprod7 kernel: [ 0.000000] Disabled fast string operations Sep 16 14:29:35 androprod7 kernel: [ 0.000000] BIOS-provided physical RAM map: Sep 16 14:29:35 androprod7 kernel: [ 0.000000] BIOS-e820: 0000000000000000 - 000000000009f000 (usable) Sep 16 14:29:35 androprod7 kernel: [ 0.000000] BIOS-e820: 000000000009f000 - 00000000000a0000 (reserved) Sep 16 14:29:35 androprod7 kernel: [ 0.000000] BIOS-e820: 00000000000ca000 - 00000000000cc000 (reserved) Sep 16 14:29:35 androprod7 kernel: [ 0.000000] BIOS-e820: 00000000000dc000 - 0000000000100000 (reserved) Sep 16 14:29:35 androprod7 kernel: [ 0.000000] BIOS-e820: 0000000000100000 - 00000000bfee0000 (usable) Sep 16 14:29:35 androprod7 kernel: [ 0.000000] BIOS-e820: 00000000bfee0000 - 00000000bfeff000 (ACPI data) Sep 16 14:29:35 androprod7 kernel: [ 0.000000] BIOS-e820: 00000000bfeff000 - 00000000bff00000 (ACPI NVS) Sep 16 14:29:35 androprod7 kernel: [ 0.000000] BIOS-e820: 00000000bff00000 - 00000000c0000000 (usable) Sep 16 14:29:35 androprod7 kernel: [ 0.000000] BIOS-e820: 00000000e0000000 - 00000000f0000000 (reserved) Sep 16 14:29:35 androprod7 kernel: [ 0.000000] BIOS-e820: 00000000fec00000 - 00000000fec10000 (reserved) Sep 16 14:29:35 androprod7 kernel: [ 0.000000] BIOS-e820: 00000000fee00000 - 00000000fee01000 (reserved) Sep 16 14:29:35 androprod7 kernel: [ 0.000000] BIOS-e820: 00000000fffe0000 - 0000000100000000 (reserved) Sep 16 14:29:35 androprod7 kernel: [ 0.000000] BIOS-e820: 0000000100000000 - 00000001ba000000 (usable) Sep 16 14:29:35 androprod7 kernel: [ 0.000000] NX (Execute Disable) protection: active Sep 16 14:29:35 androprod7 kernel: [ 0.000000] SMBIOS 2.4 present. Sep 16 14:29:35 androprod7 kernel: [ 0.000000] Hypervisor detected: VMware Sep 16 14:29:35 androprod7 kernel: [ 0.000000] No AGP bridge found Sep 16 14:29:35 androprod7 kernel: [ 0.000000] last_pfn = 0x1ba000 max_arch_pfn = 0x400000000 Sep 16 14:29:35 androprod7 kernel: [ 0.000000] x86 PAT enabled: cpu 0, old 0x0, new 0x7010600070106

syslog

Sep 16 13:55:36 androprod7 mpt-statusd: detected non-optimal RAID status
Sep 16 14:05:36 androprod7 mpt-statusd: detected non-optimal RAID status
Sep 16 14:09:01 androprod7 /USR/SBIN/CRON[7657]: (root) CMD (  [ -x /usr/lib/php5/maxlifetime ] && [ -d /var/lib/php5 ] && find /var/lib/php5/ -depth -mindepth 1 -maxdepth 1 -type f -ignore_readdir_race -$
Sep 16 14:15:36 androprod7 mpt-statusd: detected non-optimal RAID status
Sep 16 14:17:01 androprod7 /USR/SBIN/CRON[7730]: (root) CMD (   cd / && run-parts --report /etc/cron.hourly)
Sep 16 14:29:35 androprod7 kernel: imklog 5.8.11, log source = /proc/kmsg started.
Sep 16 14:29:35 androprod7 rsyslogd: [origin software="rsyslogd" swVersion="5.8.11" x-pid="2378" x-info="http://www.rsyslog.com"] start
Sep 16 14:29:35 androprod7 kernel: [    0.000000] Initializing cgroup subsys cpuset
Sep 16 14:29:35 androprod7 kernel: [    0.000000] Initializing cgroup subsys cpu
Sep 16 14:29:35 androprod7 kernel: [    0.000000] Linux version 3.2.0-4-amd64 (debian-kernel@lists.debian.org) (gcc version 4.6.3 (Debian 4.6.3-14) ) #1 SMP Debian 3.2.46-1+deb7u1
Sep 16 14:29:35 androprod7 kernel: [    0.000000] Command line: BOOT_IMAGE=/boot/vmlinuz-3.2.0-4-amd64 root=UUID=59aa41a1-71e2-4f2b-89af-8fea79d43504 ro quiet
Sep 16 14:29:35 androprod7 kernel: [    0.000000] Disabled fast string operations
Sep 16 14:29:35 androprod7 kernel: [    0.000000] BIOS-provided physical RAM map:
Sep 16 14:29:35 androprod7 kernel: [    0.000000]  BIOS-e820: 0000000000000000 - 000000000009f000 (usable)
Sep 16 14:29:35 androprod7 kernel: [    0.000000]  BIOS-e820: 000000000009f000 - 00000000000a0000 (reserved)
Sep 16 14:29:35 androprod7 kernel: [    0.000000]  BIOS-e820: 00000000000ca000 - 00000000000cc000 (reserved)
Sep 16 14:29:35 androprod7 kernel: [    0.000000]  BIOS-e820: 00000000000dc000 - 0000000000100000 (reserved)
Sep 16 14:29:35 androprod7 kernel: [    0.000000]  BIOS-e820: 0000000000100000 - 00000000bfee0000 (usable)
Sep 16 14:29:35 androprod7 kernel: [    0.000000]  BIOS-e820: 00000000bfee0000 - 00000000bfeff000 (ACPI data)
Sep 16 14:29:35 androprod7 kernel: [    0.000000]  BIOS-e820: 00000000bfeff000 - 00000000bff00000 (ACPI NVS)
Sep 16 14:29:35 androprod7 kernel: [    0.000000]  BIOS-e820: 00000000bff00000 - 00000000c0000000 (usable)
Sep 16 14:29:35 androprod7 kernel: [    0.000000]  BIOS-e820: 00000000e0000000 - 00000000f0000000 (reserved)
Sep 16 14:29:35 androprod7 kernel: [    0.000000]  BIOS-e820: 00000000fec00000 - 00000000fec10000 (reserved)
Sep 16 14:29:35 androprod7 kernel: [    0.000000]  BIOS-e820: 00000000fee00000 - 00000000fee01000 (reserved)
Sep 16 14:29:35 androprod7 kernel: [    0.000000]  BIOS-e820: 00000000fffe0000 - 0000000100000000 (reserved)
Sep 16 14:29:35 androprod7 kernel: [    0.000000]  BIOS-e820: 0000000100000000 - 00000001ba000000 (usable)
Sep 16 14:29:35 androprod7 kernel: [    0.000000] NX (Execute Disable) protection: active
Sep 16 14:29:35 androprod7 kernel: [    0.000000] SMBIOS 2.4 present.
Sep 16 14:29:35 androprod7 kernel: [    0.000000] DMI: VMware, Inc. VMware Virtual Platform/440BX Desktop Reference Platform, BIOS 6.00 07/02/2012
Sep 16 14:29:35 androprod7 kernel: [    0.000000] Hypervisor detected: VMware
Sep 16 14:29:35 androprod7 kernel: [    0.000000] e820 update range: 0000000000000000 - 0000000000010000 (usable) ==> (reserved)
Sep 16 14:29:35 androprod7 kernel: [    0.000000] e820 remove range: 00000000000a0000 - 0000000000100000 (usable)
Sep 16 14:29:35 androprod7 kernel: [    0.000000] No AGP bridge found

Et bien ça n’inspire pas grand monde :s. J’ai eu de nouveau un plantage et un message que je ne trouve que rarement dans mes logs:

BUG: soft lockup - CPU#0 stuck for 23s! [apache2:3943] Stack: Call Trace: Code: 2c 14 00 c3 f0 81 2f 00 00 10 00 74 05 e8 6c 2c 14 00 c3 b8 00 00 01 00 f0 0f c1 07 89 c2 c1 ea 10 66 39 d0 74 07 f3 90 66 8b 07 <eb> f4 c3 8b 17 31 c0 89 d1 c1 e9 10 66 39 ca 75 14 8d 8a 00 00 BUG: soft lockup - CPU#1 stuck for 23s! [apache2:5397] Stack: Call Trace: Code: 24 5a c3 f0 ff 0f 79 05 e8 9b 2c 14 00 c3 f0 81 2f 00 00 10 00 74 05 e8 6c 2c 14 00 c3 b8 00 00 01 00 f0 0f c1 07 89 c2 c1 ea 10 <66> 39 d0 74 07 f3 90 66 8b 07 eb f4 c3 8b 17 31 c0 89 d1 c1 e9

Le code est le même pour les cpu 0, 2 et 3. Ca se répète pour les 4 coeurs que j’ai alloué à ma machine virtuelle.
Je vais essayer aujourd’hui de reconfigurer le serveur mais sur une debian 7 32 bits.

Je me demandais aussi… On m’a demandé de faire quelque chose de bizarre concernant ce serveur. En gros on m’a demandé de faire un dossier partagé avec le mac mini. Bon ca en soit, ce n’est rien. Mais Apache lui utilise ces fichiers qui sont stockés sur le mac mini. Les sources de nos applications font partie de ces fichiers partagés. Est-ce que ça pourrait poser des problèmes?

Bon ben je viens aux nouvelles.
J’ai essayé de ramener les sites web à l’intérieur même de la vm. D’autres scripts dont les crons sont sur des dossiers partagés de la vm, et donc pas directement sur la vm debian mais sur le serveur mac. J’ai désactivé les crons et reconfiguré apache pour qu’il pointe sur des répertoires internes. Aucun plantage pendant deux semaines. Je garde quand même un léger doute étant donné que quasiment personne n’utilisait l’application pendant ces deux semaines.

Puis j’ai décidé de réactiver les crons. Résultats: deux trois freezes successifs pendant 3 nuits. Des scripts plus ou moins longs d’exécution. Jeudi j’ai désactivé uniquement les crons qui sont stockés à l’extérieur du serveur. Résultats: un vendredi qui s’est bien passé et pas de plantage pendant le week end non plus.

J’en déduis très fortement qu’utiliser des répertoires partagés sur un système de fichier différents pour stocker mes scripts et mes sites web n’est pas quelque chose de fiable/stable. Voila voila, si d’autres ont les mêmes soucis, cherchez de ce côté là, les logs n’aident guère.