Hello !
J’utilise plusieurs serveurs Debian pour mon site. C’est ce qu’on m’avait conseillé à mes débuts, et j’avoue que j’ai appris (un peu de) Linux avec cette distribution, et j’avoue que ça marche plutôt bien.
Ces serveurs sont tous loués chez OVH, et sont en Squeeze avec la source de paquets DotDeb rajoutée.
Généralement ces serveurs font tourner apache avec php et mysql, et là j’ai un souci qui je l’avoue m’embête considérablement : un de ces serveurs reboote de manière intempestive, plusieurs fois par jour.
Bien que j’aie appris pas mal de choses (en partant du monde windows), je me trouve dans l’incapacité de déterminer le pourquoi du comment de ces reboots, et je me permets donc de vous demander de l’aide. Merci d’avance !
Sur ce serveur, uname -a me dit 3.2.13-grsec-xxxx-grs-ipv6-64 #1 SMP Thu Mar 29 09:48:59 UTC 2012 x86_64 GNU/Linux.
D’installé, on a :
- apache2 2.2.16-6+squeeze7
- exim4 4.72-6+squeeze2
- fail2ban 0.8.4-3+squeeze1
- munin 1.4.5-3
- mysql 5.5.25-1~dotdeb.0
- php5 5.3.17-1~dotdeb.0
- pureftpd 1.0.28-3+squeeze1
La commande lspci renvoie :
00:00.0 Host bridge: Intel Corporation 2nd Generation Core Processor Family DRAM Controller (rev 09)
00:02.0 VGA compatible controller: Intel Corporation 2nd Generation Core Processor Family Integrated Graphics Controller (rev 09)
00:16.0 Communication controller: Intel Corporation 6 Series/C200 Series Chipset Family MEI Controller #1 (rev 04)
00:19.0 Ethernet controller: Intel Corporation 82579V Gigabit Network Connection (rev 05)
00:1a.0 USB Controller: Intel Corporation 6 Series/C200 Series Chipset Family USB Enhanced Host Controller #2 (rev 05)
00:1b.0 Audio device: Intel Corporation 6 Series/C200 Series Chipset Family High Definition Audio Controller (rev 05)
00:1c.0 PCI bridge: Intel Corporation 6 Series/C200 Series Chipset Family PCI Express Root Port 1 (rev b5)
00:1c.3 PCI bridge: Intel Corporation 6 Series/C200 Series Chipset Family PCI Express Root Port 4 (rev b5)
00:1d.0 USB Controller: Intel Corporation 6 Series/C200 Series Chipset Family USB Enhanced Host Controller #1 (rev 05)
00:1f.0 ISA bridge: Intel Corporation H67 Express Chipset Family LPC Controller (rev 05)
00:1f.2 SATA controller: Intel Corporation 6 Series/C200 Series Chipset Family 6 port SATA AHCI Controller (rev 05)
00:1f.3 SMBus: Intel Corporation 6 Series/C200 Series Chipset Family SMBus Controller (rev 05)
01:00.0 PCI bridge: Integrated Technology Express, Inc. Device 8892 (rev 10)
03:00.0 USB Controller: NEC Corporation uPD720200 USB 3.0 Host Controller (rev 04)
La commande lsusb renvoie de son côté :
Bus 002 Device 002: ID 8087:0024 Intel Corp. Integrated Rate Matching Hub
Bus 002 Device 001: ID 1d6b:0002 Linux Foundation 2.0 root hub
Bus 001 Device 001: ID 1d6b:0002 Linux Foundation 2.0 root hub
Bus 001 Device 002: ID 8087:0024 Intel Corp. Integrated Rate Matching Hub
Voilà le début de dmidecode :
[quote]SMBIOS 2.7 present.
61 structures occupying 2684 bytes.
Table at 0x000EB170.
Handle 0x0000, DMI type 0, 24 bytes
BIOS Information
Vendor: Intel Corp.
Version: BLH6710H.86A.0119.2011.0523.1030
Release Date: 05/23/2011
Address: 0xF0000
Runtime Size: 64 kB
ROM Size: 1024 kB
Characteristics:
PCI is supported
BIOS is upgradeable
BIOS shadowing is allowed
Boot from CD is supported
Selectable boot is supported
BIOS ROM is socketed
EDD is supported
5.25"/1.2 MB floppy services are supported (int 13h)
3.5"/720 KB floppy services are supported (int 13h)
3.5"/2.88 MB floppy services are supported (int 13h)
Print screen service is supported (int 5h)
8042 keyboard services are supported (int 9h)
Serial services are supported (int 14h)
Printer services are supported (int 17h)
ACPI is supported
USB legacy is supported
BIOS boot specification is supported
Targeted content distribution is supported
Handle 0x0001, DMI type 1, 27 bytes
System Information
Manufacturer:
Product Name:
Version:
Serial Number:
UUID: 327A7FA4-D829-11E0-8919-505054503030
Wake-up Type: Power Switch
SKU Number: Not Specified
Family: Not Specified
Handle 0x0002, DMI type 2, 15 bytes
Base Board Information
Manufacturer: Intel Corporation
Product Name: DH67BL
Version: AAG10189-209
Serial Number: BTBL13700373
Asset Tag: To be filled by O.E.M.
Features:
Board is a hosting board
Board is replaceable
Location In Chassis: To be filled by O.E.M.
Chassis Handle: 0x0003
Type: Motherboard
Contained Object Handles: 0
Handle 0x0003, DMI type 3, 22 bytes
Chassis Information
Manufacturer:
Type: Desktop
Lock: Not Present
Version:
Serial Number:
Asset Tag:
Boot-up State: Safe
Power Supply State: Safe
Thermal State: Safe
Security Status: None
OEM Information: 0x00000000
Height: Unspecified
Number Of Power Cords: 1
Contained Elements: 0
Handle 0x0004, DMI type 4, 42 bytes
Processor Information
Socket Designation: LGA1155
Type: Central Processor
Family:
Manufacturer: Intel Corporation
ID: A7 06 02 00 FF FB EB BF
Version: Intel® Core™ i5-2400 CPU @ 3.10GHz
Voltage: 1.7 V
External Clock: 100 MHz
Max Speed: 4000 MHz
Current Speed: 3100 MHz
Status: Populated, Enabled
Upgrade:
L1 Cache Handle: 0x0005
L2 Cache Handle: 0x0006
L3 Cache Handle: 0x0007
Serial Number: To Be Filled By O.E.M.
[/quote]
C’est un peu long mais j’en posterai volontiers l’output au besoin.
Donc le problème est que cette machine reboote plusieurs par jour, et que je n’arrive pas à trouver la cause.
Je regarde dans syslog, mais la seule trace est le début des logs du reboot lui-même : rien n’est indiqué avant.
Par exemple ce jour je suis passé de :
Sep 24 13:54:27 named[2505]: error (unexpected RCODE REFUSED) resolving ‘78.0.214.80.in-addr.arpa/PTR/IN’: 62.201.159.99#53
À :
Sep 24 13:55:27 kernel: imklog 4.6.4, log source = /proc/kmsg started.
Sep 24 13:55:27 rsyslogd: [origin software=“rsyslogd” swVersion=“4.6.4” x-pid=“2385” x-info=“http://www.rsyslog.com”] (re)start
Sep 24 13:55:27 kernel: Initializing cgroup subsys cpuset
Sep 24 13:55:27 kernel: Linux version 3.2.13-grsec-xxxx-grs-ipv6-64 (root@kernel-64.ovh.net) (gcc version 4.3.2 (Debian 4.3.2-1.1) ) #1 SMP Thu Mar 29 09:48:59 UTC 2012
Sep 24 13:55:27 kernel: Command line: BOOT_IMAGE=/boot/bzImage-3.2.13-xxxx-grs-ipv6-64 root=/dev/md1 ro quiet
etc.
Je me suis bien douté d’un problème hard avec la machine, mais…
Un boot en recovery mode de chez OVH a permis de stress-tester ram, cpu et hdd sans trouver de problème, et j’ai installé lm-sensors qui log régulièrement des températures qui semblent tout à fait correctes.
Voyez-vous dans ce que je poste des choses qui vous semblent évidentes et qui pourraient causer de tels redémarrages ?
Savez-vous comment je pourrais en savoir plus ? Comme je suis à distance, je n’ai pas de visuel écran pour le crash. : /
Si j’ai bien compris, la seule issue que j’aurais serait de modifier le grub pour inclure le dump de mémoire au crash avec kdump, et ensuite de remonter sur la pile avec crash… S’il le faut, je le ferai, mais j’ai peur de saloper la config de base de l’install Debian d’OVH - et le serveur étant bien sûr en prod, je ne voudrais pas risquer de tels soucis.
Merci pour toute idée qui me permettrait d’avancer là-dessus !