turman@195-154-216-106:~$ sudo smartctl -a -d scsi /dev/sda
smartctl 6.6 2017-11-05 r4594 [x86_64-linux-4.15.0-22-generic] (local build)
Copyright (C) 2002-17, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF INFORMATION SECTION ===
Vendor: HP
Product: LOGICAL VOLUME
Revision: 5.12
User Capacity: 1 000 171 331 584 bytes [1,00 TB]
Logical block size: 512 bytes
Rotation Rate: 15000 rpm
Logical Unit id: 0x600508b1001c0d14d74713b1ea75631e
Serial number: PACCRCN810D1QSA
Device type: disk
Local Time is: Sun Aug 25 11:50:31 2019 CEST
SMART support is: Unavailable - device lacks SMART capability.
=== START OF READ SMART DATA SECTION ===
Current Drive Temperature: 0 C
Drive Trip Temperature: 0 C
Error Counter logging not supported
Device does not support Self Test logging
turman@195-154-216-106:~$ sudo smartctl -a -d sat /dev/sda
smartctl 6.6 2017-11-05 r4594 [x86_64-linux-4.15.0-22-generic] (local build)
Copyright (C) 2002-17, Bruce Allen, Christian Franke, www.smartmontools.org
Read Device Identity failed: scsi error unsupported scsi opcode
A mandatory SMART command failed: exiting. To continue, add one or more '-T permissive' options.
De toute évidence votre serveur dédié est un HP (Proliant ou autre ). Les systèmes HP sont équipés d’un port iLO et le plus souvent d’un contrôleur de disque évolué (smartarray ) qui gère le RAID et qui est donc capable de présenter à l’OS un seul disque /dev/sda alors qu’il peut y avoir plusieurs disques physiques dans une grappe RAID qui aggrège ces disques.
Le pilote pour ces contrôleurs smartarray s’appelait cciss et maintenant hpsa. Mais la notation cciss a été conservée pour smartctl .
Pour gérer le RAID depuis l’OS, HP fournissait un utilitaire en ligne de commande nommé hpacucli et maintenant sous un autre nom qui m"échappe (1)
Tentez
sudo hpacucli ctl all show sconfig [details]
Pour obtenir le détail des disques physiques et logiques attaché au contrôleur RAID.
Pour smartctl commecez par obtenir les infos
sudo smartctl -d 'cciss,0' --info /dev/sda
et notez le numéro de série, puis avec -d cciss,1 faites de même (pas de risque)
Une fois que vous avez trouvé les disques physiques sous-jacents, vous pourrez obtenir les attributs SMART avec l’option --all.
Note
(1) C’est un sujet d’irritation pour moi, cette manie de modifier les noms sans raison tecnique. Visitez le site HP Entrepris.
Cordialement,
Regards,
Mit freundlichen Grüßen,
مع تحياتي الخالصة
F. Petitjean
Ingénieur civil du Génie Maritime.
« On ne perd pas son temps en aiguisant ses outils. »
Proverbe français
« Moi, lorsque je n’ai rien à dire, je veux qu’on le sache. » (R. Devos)
Attention les KVM/ILO,IPMI/IRADC nécessite l’utilisation d’une version complétement outdate en générale de java test avec la version 7 de java.
En suite pour l’utilisation de java il faux autoriser son utilisation par l’IP de l’ILO/IPMI etc (voir dans sécurité après être rentré dans la conf de la console java sur le système).
Si il n’y avait que ça récemment j’ai travaillé sur du dell, du hp, du supermicro et du quanta server (aucune majuscule et c’est voulu il n’y a aucun respect à avoir pour ces entreprises), c’est une honte de travailler sous linux et de devoir utilisé à 99% des binaires aussi obscures que le trou du c… (même l’odeur est là) avec des outils bien souvent pas à jour et pas toujours très stable …
Les serveurs sont chouettes mais alors le software …
Effectivement j’avais pris l’option RAID à 5€/mois sur ce serveur.
Voici sur la sortie de smartctl sur cciss,0:
turman@195-154-216-106:~$ sudo smartctl -d 'cciss,0' --info /dev/sda
smartctl 6.6 2017-11-05 r4594 [x86_64-linux-4.15.0-22-generic] (local build)
Copyright (C) 2002-17, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF INFORMATION SECTION ===
Device Model: MB1000EBNCF
Serial Number: WCAW32333375
LU WWN Device Id: 5 0014ee 2b0acc1fe
Firmware Version: HPG0
User Capacity: 1 000 204 886 016 bytes [1,00 TB]
Sector Size: 512 bytes logical/physical
Rotation Rate: 7200 rpm
Form Factor: 3.5 inches
Device is: Not in smartctl database [for details use: -P showall]
ATA Version is: ATA8-ACS T13/1699-D revision 6
SATA Version is: SATA 2.6, 3.0 Gb/s
Local Time is: Sun Aug 25 12:53:59 2019 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
Et voici celle sur cciss,1:
turman@195-154-216-106:~$ sudo smartctl -d 'cciss,1' --info /dev/sda
smartctl 6.6 2017-11-05 r4594 [x86_64-linux-4.15.0-22-generic] (local build)
Copyright (C) 2002-17, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF INFORMATION SECTION ===
Device Model: MB1000EBNCF
Serial Number: WCAW32355604
LU WWN Device Id: 5 0014ee 25b57274e
Firmware Version: HPG0
User Capacity: 1 000 204 886 016 bytes [1,00 TB]
Sector Size: 512 bytes logical/physical
Rotation Rate: 7200 rpm
Form Factor: 3.5 inches
Device is: Not in smartctl database [for details use: -P showall]
ATA Version is: ATA8-ACS T13/1699-D revision 6
SATA Version is: SATA 2.6, 3.0 Gb/s
Local Time is: Sun Aug 25 12:56:12 2019 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
Je n’ai pas bien compris ce quelle commande je devais taper après pour avoir les détails.
Mais peut-être que le RAID serait une piste, avec par ex un mauvais support dans Debian 10 pour ma configuration ?
J’aimerais bien aussi comprendre pourquoi mon syslog ne contient aucun événement depuis mon premier boot en mode rescue il y a 2 jours… alors que c’est justement là où on devrait voir concrètement le problème !
turman@195-154-216-106:~$ sudo smartctl -d 'cciss,0' -a /dev/sda
smartctl 6.6 2017-11-05 r4594 [x86_64-linux-4.15.0-22-generic] (local build)
Copyright (C) 2002-17, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF INFORMATION SECTION ===
Device Model: MB1000EBNCF
Serial Number: WCAW32333375
LU WWN Device Id: 5 0014ee 2b0acc1fe
Firmware Version: HPG0
User Capacity: 1 000 204 886 016 bytes [1,00 TB]
Sector Size: 512 bytes logical/physical
Rotation Rate: 7200 rpm
Form Factor: 3.5 inches
Device is: Not in smartctl database [for details use: -P showall]
ATA Version is: ATA8-ACS T13/1699-D revision 6
SATA Version is: SATA 2.6, 3.0 Gb/s
Local Time is: Sun Aug 25 13:33:30 2019 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
=== START OF READ SMART DATA SECTION ===
SMART Status not supported: Incomplete response, ATA output registers missing
SMART overall-health self-assessment test result: PASSED
Warning: This result is based on an Attribute check.
General SMART Values:
Offline data collection status: (0x84) Offline data collection activity
was suspended by an interrupting command from host.
Auto Offline Data Collection: Enabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: (16860) seconds.
Offline data collection
capabilities: (0x7b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 2) minutes.
Extended self-test routine
recommended polling time: ( 174) minutes.
Conveyance self-test routine
recommended polling time: ( 5) minutes.
SCT capabilities: (0x303d) SCT Status supported.
SCT Error Recovery Control supported.
SCT Feature Control supported.
SCT Data Table supported.
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 129
3 Spin_Up_Time 0x0027 172 172 021 Pre-fail Always - 4366
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 56
5 Reallocated_Sector_Ct 0x0033 184 184 140 Pre-fail Always - 350
7 Seek_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
9 Power_On_Hours 0x0032 008 008 000 Old_age Always - 67547
10 Spin_Retry_Count 0x0033 100 253 051 Pre-fail Always - 0
11 Calibration_Retry_Count 0x0033 100 253 051 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 54
180 Unknown_HDD_Attribute 0x002f 200 200 100 Pre-fail Always - 0
184 End-to-End_Error 0x0033 100 100 097 Pre-fail Always - 0
187 Reported_Uncorrect 0x0032 100 097 000 Old_age Always - 3
188 Command_Timeout 0x0032 100 088 000 Old_age Always - 21
190 Airflow_Temperature_Cel 0x0022 070 051 045 Old_age Always - 30
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 53
193 Load_Cycle_Count 0x0032 200 200 000 Old_age Always - 2
194 Temperature_Celsius 0x0022 117 098 000 Old_age Always - 30
195 Hardware_ECC_Recovered 0x0036 200 200 000 Old_age Always - 0
196 Reallocated_Event_Count 0x0032 193 193 000 Old_age Always - 7
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 0
SMART Error Log Version: 1
No Errors Logged
SMART Self-test log structure revision number 1
No self-tests have been logged. [To run self-tests, use: smartctl -t]
SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
turman@195-154-216-106:~$ sudo smartctl -d 'cciss,1' -a /dev/sda
smartctl 6.6 2017-11-05 r4594 [x86_64-linux-4.15.0-22-generic] (local build)
Copyright (C) 2002-17, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF INFORMATION SECTION ===
Device Model: MB1000EBNCF
Serial Number: WCAW32355604
LU WWN Device Id: 5 0014ee 25b57274e
Firmware Version: HPG0
User Capacity: 1 000 204 886 016 bytes [1,00 TB]
Sector Size: 512 bytes logical/physical
Rotation Rate: 7200 rpm
Form Factor: 3.5 inches
Device is: Not in smartctl database [for details use: -P showall]
ATA Version is: ATA8-ACS T13/1699-D revision 6
SATA Version is: SATA 2.6, 3.0 Gb/s
Local Time is: Sun Aug 25 13:34:10 2019 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
=== START OF READ SMART DATA SECTION ===
SMART Status not supported: Incomplete response, ATA output registers missing
SMART overall-health self-assessment test result: PASSED
Warning: This result is based on an Attribute check.
General SMART Values:
Offline data collection status: (0x84) Offline data collection activity
was suspended by an interrupting command from host.
Auto Offline Data Collection: Enabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: (16560) seconds.
Offline data collection
capabilities: (0x7b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 2) minutes.
Extended self-test routine
recommended polling time: ( 171) minutes.
Conveyance self-test routine
recommended polling time: ( 5) minutes.
SCT capabilities: (0x303d) SCT Status supported.
SCT Error Recovery Control supported.
SCT Feature Control supported.
SCT Data Table supported.
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 3
3 Spin_Up_Time 0x0027 175 174 021 Pre-fail Always - 4233
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 56
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
9 Power_On_Hours 0x0032 015 015 000 Old_age Always - 62087
10 Spin_Retry_Count 0x0033 100 253 051 Pre-fail Always - 0
11 Calibration_Retry_Count 0x0033 100 253 051 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 54
180 Unknown_HDD_Attribute 0x002f 200 200 100 Pre-fail Always - 0
184 End-to-End_Error 0x0033 100 100 097 Pre-fail Always - 0
187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 0
188 Command_Timeout 0x0032 100 095 000 Old_age Always - 10
190 Airflow_Temperature_Cel 0x0022 071 051 045 Old_age Always - 29
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 53
193 Load_Cycle_Count 0x0032 200 200 000 Old_age Always - 2
194 Temperature_Celsius 0x0022 118 098 000 Old_age Always - 29
195 Hardware_ECC_Recovered 0x0036 200 200 000 Old_age Always - 0
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 0
SMART Error Log Version: 1
No Errors Logged
SMART Self-test log structure revision number 1
No self-tests have been logged. [To run self-tests, use: smartctl -t]
SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
Beaucoup de choses obscures pour moi mais j’ai pas l’impression que ça permette de mettre en avant un éventuel problème de disque, n’est ce pas ?
Sinon pour /mnt/var/log/messages c’est exactement pareil que pour syslog: les logs sont corrompus (mots/caractères bizarres) et il n’y a plus rien à partir du 23/08 11h39 c’est à dire mon premier reboot en mode rescue suite à mon dist-upgrade.
Non pas d’erreurs visibles sur la sortie de smartctl
Désolé, mais je ne peux pas t’aider davantage. Je soupçonne un problème matériel avec le contrôleur RAID (ou son pilote incompatible avec Debian 10) mais sans en être sûr du tout.
Il faut peut-être insister auprès de l’assistance technique pour savoir ce qu’il en est.
Concernant ce type de serveur avec Raid matériel, je ne peux qu’approuver l’avis de Clochette.
Pour le même prix tu peux trouver un serveur dédié tout aussi performant avec du Raid logiciel beaucoup plus facile à administrer et à dépanner, et souvent plus performant.
Bon je crois que je vais abandonner et commander un nouveau serveur.
Cela m’embête énormément de savoir qu’une mise à jour de Debian ait pu rendre mon serveur inutilisable, et sans avoir l’explication exacte en plus, c’est assez déprimant…
Je vais essayer de relancer le support d’Online mais sans trop d’espoir.
J’ai regardé les offres de Gandi mais je suis déçu. Chez Online pour à peu près le même prix (36€ HT par mois) je peux avoir du lourd comparé à Gandi:
Xeon 4 cœurs à 3.3 GHz avec 32 Go de RAM et 2x1To en SATA de disque (par contre je vois la différence entre le Pro-2-M-SATA et le Pro-3-S). Je sais pas encore si je vais prendre l’option RAID qui semble compliquer un peu les choses (d’autant que je ne suis pas sûr que je puisse choisir un RAID logiciel).
Édition : c’est un peu plus compliqué à faire que ce qui suit (voir man journalctl)
Il faut préciser quel journal d’amorçage on souhaite voir ; par défaut, c’est celui en cours.
Utiliser :
sudo journalctl --list-boots
Pour se faire une idée.
Il faut avoir la fonctionnalité persistent journal pour accéder à un autre journal que celui en cours.
Ce qui suit n’est donc pas valable.
Depuis l’environnement “chrooté” tu peux utiliser la commande :
sudo journalctl -b
qui te donnera le journal du dernier amorçage normal
et probablement des indices sur l’erreur qui bloque ton serveur.
Ce journal peut être long.
Tu peux utiliser aussi :
sudo journalctl -b > journalctl-b.txt
pour disposer de ce journal d’amorçage normal dans un fichier texte journalctl-b.txt
Ce fichier serait à déposer sur paste.debian.net pour que nous puissions le consulter.
Nous pourrons le consulter si tu nous donnes le lien de ton “paste”
J’ai l’impression qu’il y a plein de choses intéressantes là !
Avant de le copier quelque part voici déjà quelques lignes (je met en gras celle qui sont en rouge dans la console):
août 25 10:26:52 ea71cbeb6893 kernel: DMAR: Host address width 39
août 25 10:26:52 ea71cbeb6893 kernel: DMAR: DRHD base: 0x000000fed90000 flags: 0x1 août 25 10:26:52 ea71cbeb6893 kernel: DMAR: Failed to map dmar0
août 25 10:26:52 ea71cbeb6893 kernel: DMAR: Parse DMAR table failure.
août 25 10:26:52 ea71cbeb6893 kernel: Switched APIC routing to physical flat.
Ou encore:
août 25 10:26:52 ea71cbeb6893 kernel: smpboot: CPU0: Intel® Core™ i3-2100 CPU @ 3.10GHz (family: 0x6, model: 0x2a, stepping: 0x7)
août 25 10:26:52 ea71cbeb6893 kernel: Performance Events: PEBS fmt1+, SandyBridge events, 16-deep LBR, full-width counters, Broken BIOS detected, complain to your hardware vendor. août 25 10:26:52 ea71cbeb6893 kernel: [Firmware Bug]: the BIOS has corrupted hw-PMU resources (MSR 38d is 330)
août 25 10:26:52 ea71cbeb6893 kernel: Intel PMU driver.
août 25 10:26:52 ea71cbeb6893 kernel: … version: 3
août 25 10:26:52 ea71cbeb6893 kernel: … bit width: 48
août 25 10:26:52 ea71cbeb6893 kernel: … generic registers: 4
août 25 10:26:52 ea71cbeb6893 kernel: … value mask: 0000ffffffffffff
août 25 10:26:52 ea71cbeb6893 kernel: … max period: 00007fffffffffff
août 25 10:26:52 ea71cbeb6893 kernel: … fixed-purpose events: 3
août 25 10:26:52 ea71cbeb6893 kernel: … event mask: 000000070000000f
Il y aussi cette partie qui parle des disques et du réseau:
août 25 10:26:53 ea71cbeb6893 kernel: HP HPSA Driver (v 3.4.20-125)
août 25 10:26:53 ea71cbeb6893 kernel: hpsa 0000:04:00.0: can't disable ASPM; OS doesn't have ASPM control
août 25 10:26:53 ea71cbeb6893 kernel: hpsa 0000:04:00.0: Logical aborts not supported
août 25 10:26:53 ea71cbeb6893 kernel: hpsa 0000:04:00.0: HP SSD Smart Path aborts not supported
août 25 10:26:53 ea71cbeb6893 kernel: hidraw: raw HID events driver (C) Jiri Kosina
août 25 10:26:53 ea71cbeb6893 kernel: usbcore: registered new interface driver usbhid
août 25 10:26:53 ea71cbeb6893 kernel: usbhid: USB HID core driver
août 25 10:26:53 ea71cbeb6893 kernel: e1000e: Intel(R) PRO/1000 Network Driver - 3.2.6-k
août 25 10:26:53 ea71cbeb6893 kernel: e1000e: Copyright(c) 1999 - 2015 Intel Corporation.
août 25 10:26:53 ea71cbeb6893 kernel: e1000e 0000:02:00.0: Interrupt Throttling Rate (ints/sec) set to dynamic conservative mode
août 25 10:26:53 ea71cbeb6893 kernel: input: HP Virtual Keyboard as /devices/pci0000:00/0000:00:1c.7/0000:01:00.4/usb3/3-1/3-1:1.0/0003:03F0:7029.0001/input/input4
août 25 10:26:53 ea71cbeb6893 kernel: scsi host0: hpsa
août 25 10:26:53 ea71cbeb6893 kernel: hpsa can't handle SMP requests
août 25 10:26:53 ea71cbeb6893 kernel: hpsa 0000:04:00.0: scsi 0:0:0:0: added RAID HP P410 controller SSDSmartPathCap- En- Exp=1
août 25 10:26:53 ea71cbeb6893 kernel: hpsa 0000:04:00.0: scsi 0:0:1:0: masked Direct-Access ATA MB1000EBNCF PHYS DRV SSDSmartPathCap- En- Exp=0
août 25 10:26:53 ea71cbeb6893 kernel: hpsa 0000:04:00.0: scsi 0:0:2:0: masked Direct-Access ATA MB1000EBNCF PHYS DRV SSDSmartPathCap- En- Exp=0
août 25 10:26:53 ea71cbeb6893 kernel: hpsa 0000:04:00.0: scsi 0:1:0:0: added Direct-Access HP LOGICAL VOLUME RAID-1(+0) SSDSmartPathCap- En- Exp=1
août 25 10:26:53 ea71cbeb6893 kernel: hpsa can't handle SMP requests
août 25 10:26:53 ea71cbeb6893 kernel: scsi 0:0:0:0: RAID HP P410 5.12 PQ: 0 ANSI: 5
août 25 10:26:53 ea71cbeb6893 kernel: scsi 0:1:0:0: Direct-Access HP LOGICAL VOLUME 5.12 PQ: 0 ANSI: 5
août 25 10:26:53 ea71cbeb6893 kernel: scsi 0:0:0:0: Attached scsi generic sg0 type 12
août 25 10:26:53 ea71cbeb6893 kernel: sd 0:1:0:0: Attached scsi generic sg1 type 0
août 25 10:26:53 ea71cbeb6893 kernel: sd 0:1:0:0: [sda] 1953459632 512-byte logical blocks: (1.00 TB/931 GiB)
août 25 10:26:53 ea71cbeb6893 kernel: sd 0:1:0:0: [sda] Write Protect is off
août 25 10:26:53 ea71cbeb6893 kernel: sd 0:1:0:0: [sda] Mode Sense: 6b 00 00 08
août 25 10:26:53 ea71cbeb6893 kernel: sd 0:1:0:0: [sda] Write cache: disabled, read cache: disabled, doesn't support DPO or FUA
août 25 10:26:53 ea71cbeb6893 kernel: [TTM] Zone kernel: Available graphics memory: 1995756 kiB
août 25 10:26:53 ea71cbeb6893 kernel: [TTM] Initializing pool allocator
août 25 10:26:53 ea71cbeb6893 kernel: [TTM] Initializing DMA pool allocator
août 25 10:26:53 ea71cbeb6893 kernel: e1000e 0000:02:00.0 0000:02:00.0 (uninitialized): registered PHC clock
août 25 10:26:53 ea71cbeb6893 kernel: sda: sda1 sda2 sda3
août 25 10:26:53 ea71cbeb6893 kernel: sd 0:1:0:0: [sda] Attached SCSI disk
août 25 10:26:53 ea71cbeb6893 kernel: fbcon: mgadrmfb (fb0) is primary device
août 25 10:26:53 ea71cbeb6893 kernel: hid-generic 0003:03F0:7029.0001: input,hidraw0: USB HID v1.01 Keyboard [HP Virtual Keyboard ] on usb-0000:01:00.4-1/input0
août 25 10:26:53 ea71cbeb6893 kernel: input: HP Virtual Keyboard as /devices/pci0000:00/0000:00:1c.7/0000:01:00.4/usb3/3-1/3-1:1.1/0003:03F0:7029.0002/input/input5
août 25 10:26:53 ea71cbeb6893 kernel: hid-generic 0003:03F0:7029.0002: input,hidraw1: USB HID v1.01 Mouse [HP Virtual Keyboard ] on usb-0000:01:00.4-1/input1
août 25 10:26:53 ea71cbeb6893 kernel: e1000e 0000:02:00.0 eth0: (PCI Express:2.5GT/s:Width x1) 44:1e:a1:3b:21:f6
août 25 10:26:53 ea71cbeb6893 kernel: e1000e 0000:02:00.0 eth0: Intel(R) PRO/1000 Network Connection
août 25 10:26:53 ea71cbeb6893 kernel: e1000e 0000:02:00.0 eth0: MAC: 3, PHY: 8, PBA No: FFFFFF-0FF
août 25 10:26:53 ea71cbeb6893 kernel: e1000e 0000:03:00.0: Interrupt Throttling Rate (ints/sec) set to dynamic conservative mode
août 25 10:26:53 ea71cbeb6893 kernel: e1000e 0000:03:00.0 0000:03:00.0 (uninitialized): registered PHC clock
août 25 10:26:53 ea71cbeb6893 kernel: e1000e 0000:03:00.0 eth1: (PCI Express:2.5GT/s:Width x1) 44:1e:a1:3b:21:f7
août 25 10:26:53 ea71cbeb6893 kernel: e1000e 0000:03:00.0 eth1: Intel(R) PRO/1000 Network Connection
août 25 10:26:53 ea71cbeb6893 kernel: e1000e 0000:03:00.0 eth1: MAC: 3, PHY: 8, PBA No: FFFFFF-0FF
août 25 10:26:53 ea71cbeb6893 kernel: e1000e 0000:02:00.0 enp2s0: renamed from eth0
C’est le journal d’amorçage d’urgence que nous avons là et pas celui du dernier amorçage normal.
Regarde l’horodatage.
Par contre le fichier /mnt/var/log/kern.log (environnement non chrooté)
ou /var/log/kern.log (environnement chrooté) peut comporter quelque chose éventuellement.
Il faut dire qu’une valeur de 118° cela fait peur, a priori, mais une valeur brute de 29° tout en fin de ligne, c’est beaucoup plus sympathique.
Reprenons, d’abord remarquez que le numéro de série dans la sortie de
sudo smartctl -d 'cciss,1' --info /dev/sda
n’est pas le même que celui affiché avec èd cciss,0. On a bien accès à des disques physiques différents.
Je vous conseille donc de lancer
sudo smartctl -d cciss,$D --info /dev/sda
pour des valeurs $D égales à 2,3,… jusqu’à ce que le disque ne soit plus trouvé ( erreur ou numéro de série affiché inchangé )
Il est grand temps de lancer des tests SMART
sudo smartctl -d cciss,0 -t short /dev/sda
sudo smartctl -d cciss,1 -t short /dev/sda
et ainsi de suite pour $D = 2,3, …
Notez l’heure à laquelle vous pourrez consulter les résultats (option -a )
Une remarque sur le partitionnement
On voit que vous avez attribué tout l’espace disponible à un seul système de fichiers racine (ext4) directement sur une partition sda2. Cela présente de nombreux inconvénients pour un serveur
vous mélangez la partie système et la partie applicative
si il y a un problème avec une application qui remplit les journaux, ( /var/log) vous risquez de remplir à terme la racine.
Les écritures sur la partie système ( / /usr /etc /boot /lib /usr ) sont nettement moins fréquentes que sur la partie applicative, si on prend soin d’avoir /var comme système de fichiers séparé.
il en résulte que la probabilité d’avoir des ennuis en mettant tout dans un seul FS comme vous l’avez fait est augmentée d’au moins deux ordres de grandeur par rapport à un partitionnement plus adapté.
Si vous reconstruisez le serveur , je ne peux que vous conseiller d’utiliser LVM ce qui vous permettra d’avoir la possibilité d’agrandir après coup les systèmes de fichiers ( même la racine ou le swap peuvent être dans un volume logique, donc extensible )
Cordialement,
Regards,
Mit freundlichen Grüßen,
مع تحياتي الخالصة
F. Petitjean
Ingénieur civil du Génie Maritime.
« On ne perd pas son temps en aiguisant ses outils. »
Proverbe français
« Moi, lorsque je n’ai rien à dire, je veux qu’on le sache. » (R. Devos)
J’essayerai les commandes littlejohn ce soir en espérant trouver le temps nécessaire.
En attendant je vois que /mnt/var/log/kern.log est comme les autres logs (syslog et messages): le texte est corrompu et il n’y a rien depuis le 23/08 !
Et effectivement journalctl ne renvoie rien une fois chrooté:
root@195-154-216-106:/$journalctl -b
No journal files were found.
– No entries –
root@195-154-216-106:/$journalctl --list-boots
No journal files were found.
Lorsque je ne suis pas chrooté mais j’ai toujours les erreurs postées plus haut, et aussi celle ci:
août 25 16:24:20 ea71cbeb6893 kernel: ------------[ cut here ]------------
août 25 16:24:20 ea71cbeb6893 kernel: Your BIOS is broken; DMAR reported at address fed90000 returns all ones!
BIOS vendor: HP; Ver: J01; Product Version:
août 25 16:24:20 ea71cbeb6893 kernel: WARNING: CPU: 0 PID: 0 at /build/linux-lZKWha/linux-4.15.0/drivers/iommu/dmar.c:848 warn_invalid_dmar.part.11+0x5c/0x70
août 25 16:24:20 ea71cbeb6893 kernel: Modules linked in:
août 25 16:24:20 ea71cbeb6893 kernel: CPU: 0 PID: 0 Comm: swapper Not tainted 4.15.0-22-generic #24-Ubuntu
août 25 16:24:20 ea71cbeb6893 kernel: Hardware name: HP ProLiant DL120 G7, BIOS J01 07/01/2013
août 25 16:24:20 ea71cbeb6893 kernel: RIP: 0010:warn_invalid_dmar.part.11+0x5c/0x70
août 25 16:24:20 ea71cbeb6893 kernel: RSP: 0000:ffffffffb6e03da0 EFLAGS: 00010086
août 25 16:24:20 ea71cbeb6893 kernel: RAX: 0000000000000000 RBX: 00000000fed90000 RCX: ffffffffb6e628a8
août 25 16:24:20 ea71cbeb6893 kernel: RDX: 0000000000000001 RSI: 0000000000000082 RDI: 0000000000000046
août 25 16:24:20 ea71cbeb6893 kernel: RBP: ffffffffb6e03dc0 R08: 6e657620534f4942 R09: 000000000000009a
août 25 16:24:20 ea71cbeb6893 kernel: R10: ffffffffb6e03d80 R11: 726556203b504820 R12: ffffffffb6b4b381
août 25 16:24:20 ea71cbeb6893 kernel: R13: ffffffffb753d004 R14: ffffffffb753d02c R15: ffffffffff200a30
août 25 16:24:20 ea71cbeb6893 kernel: FS: 0000000000000000(0000) GS:ffff92aa46200000(0000) knlGS:0000000000000000
août 25 16:24:20 ea71cbeb6893 kernel: CS: 0010 DS: 0000 ES: 0000 CR0: 0000000080050033
août 25 16:24:20 ea71cbeb6893 kernel: CR2: ffff92aa4bdff000 CR3: 000000002b40a001 CR4: 00000000000606b0
août 25 16:24:20 ea71cbeb6893 kernel: Call Trace:
août 25 16:24:20 ea71cbeb6893 kernel: dmar_validate_one_drhd+0x84/0xe0
août 25 16:24:20 ea71cbeb6893 kernel: dmar_walk_remapping_entries+0xa6/0x1d0
août 25 16:24:20 ea71cbeb6893 kernel: detect_intel_iommu+0x66/0xef
août 25 16:24:20 ea71cbeb6893 kernel: ? xen_swiotlb_init+0x4e0/0x4e0
août 25 16:24:20 ea71cbeb6893 kernel: pci_iommu_alloc+0x55/0x71
août 25 16:24:20 ea71cbeb6893 kernel: mem_init+0x1c/0xa9
août 25 16:24:20 ea71cbeb6893 kernel: start_kernel+0x2ce/0x4fd
août 25 16:24:20 ea71cbeb6893 kernel: x86_64_start_reservations+0x24/0x26
août 25 16:24:20 ea71cbeb6893 kernel: x86_64_start_kernel+0x74/0x77
août 25 16:24:20 ea71cbeb6893 kernel: secondary_startup_64+0xa5/0xb0
août 25 16:24:20 ea71cbeb6893 kernel: Code: 7e 1c 00 bf 01 00 00 00 49 89 c5 e8 2f 7e 1c 00 4d 89 f1 4d 89 e8 48 89 c1 4c 89 e2 48 89 de 48 c7 c7 60 aa b4 b6 e8 b4 8a a5 ff <0f> 0b 5b 41 5c 41 5d 41 5e 5d c3 66 0f 1f 84 00 00 00 00 00 e8
août 25 16:24:20 ea71cbeb6893 kernel: ---[ end trace e522152bd8c158c3 ]---
Je sais pas si ce problème de BIOS est pertinent ou pas mais il doit être aussi présent à priori lorsque le serveur démarre en mode normal…
On y voit que c’est le pilote hpsa pour le contrôleur disque et e1000epour les interfaces réseau.
La dernière ligne est très claire
août 25 10:26:53 ea71cbeb6893 kernel: e1000e 0000:02:00.0 enp2s0: renamed from eth0
c’est bien enp2s0 qui doit apparaître dans /etc/network/interfaces.
J’ai déjà eu des renommages d’interfaces réseau avec Debian 7 ou 8 je ne sais plus, du genre eth1 est renommé eth3 ou autre bizarreries ( sur les Proliant avec une carte additionnelle 2 ports , combiner les 4 ethX pour de l’agrégation de lien etc ) Je n’ai pas encore passé aux noms persistants et à Buster sur ces systèmes.
J’ai l’impression que le système actuel est sain, qu’il démarre bien mais que la configuration réseau n’est plus bonne.
Les outils HP (hpacucli ou autre) sont en général installés dans /opt
ls -l /mnt/opt
Cordialement,
Regards,
Mit freundlichen Grüßen,
مع تحياتي الخالصة
F. Petitjean
Ingénieur civil du Génie Maritime.
« Celui qui, parti de rien, n’est arrivé nulle part n’a de merci à dire à personne !! »
Pierre Dac
Alors déjà “sudo smartctl -d cciss,$D --info /dev/sda” ne fonctionne qu’avec 0 et 1 (au delà j’ai du “No such device or address”). Ensuite si je lance les tests (“sudo smartctl -d cciss,$D --info /dev/sda”) il me dit que le résultat sera prêt 2 minutes plus tard et basta (il y a peut-être un fichier créé mais je sais pas où).
Sinon dans /mnt/opt je n’ai rien mis à part des veilles versions de Groovy que j’avais essayé il y a longtemps…
Mais donc il faudrait revenir au nommage eth0 ? Ok je vais remettre eth0 dans /etc/network/interfaces mais dois je aussi décommenter les lignes que j’avais commenté dans 70-persistent-net.rules ?
Au final la seule chose qui aura été faite sera le nettoyage par fsck.
Edit: sinon le support d’Online me proposait d’effacer complètement /etc/network/interfaces, j’essayerai après…
Arf j’ai effectivement lu à l’envers, désolé ! Je commence un peu à saturer…
Là je viens de tenter la suppression de /etc/network/interfaces mais c’est toujours unpingable en mode normal…
De toutes les manières, il y a forcément un problème au niveau des disques (en plus d’un probleme réseau éventuel) puisque tous mes logs sont corrompus et inexistants à partir de vendredi, on est bien d’accord ?