Qu’est-ce qui s’est passé depuis la dernière fois pour en arriver là ?
Les disques n’auraient pas changé de noms ?
Que disent
cat /proc/mdstat
mdadm --examine --verbose --scan
Qu’est-ce qui s’est passé depuis la dernière fois pour en arriver là ?
Les disques n’auraient pas changé de noms ?
Que disent
cat /proc/mdstat
mdadm --examine --verbose --scan
j’ai reboot entre temps, d’ailleur je ne sais pas si c’est la cause d’une utilisation de ram mais je suis souvent a 100% de ram(4g) use et 10-40% de swap(5g).
C’est un logiciel(SIA host) qui pompe la ram mais il utilise le raid comme espace de stockage
Les disque ont bien les même noms.
cat /proc/mdstat
Personalities : [raid6] [raid5] [raid4] [linear] [multipath] [raid0] [raid1] [raid10]
md127 : active raid5 sdf1[3] sdb1[1] sdd[4](F)
1953260544 blocks super 1.2 level 5, 512k chunk, algorithm 2 [3/2] [_UU]
bitmap: 5/8 pages [20KB], 65536KB chunk
unused devices: <none>
donc la même chose que la dernière fois
mdadm --examine --verbose --scan
ARRAY /dev/md/2 level=raid5 metadata=1.2 num-devices=3 UUID=f1a0ef99:ea007236:03204e21:ceca4abf name=raid6:2
devices=/dev/sdf1,/dev/sdb1
Je n’ai pas d’explication. Un superbloc RAID n’est pas censé disparaître comme ça. Le disque est peut-être défectueux ? Tu l’as vérifié avec smartctl du paquet smartmontools ?
Tu peux en profiter pour recréer une table de partition et une partition RAID, et resynchroniser le RAID sur la partition comme initialement et comme sur les deux autres disques. Mais si quelque chose efface le superbloc de façon récurrente, cela ne règlera pas le problème.
PS : J’ai modifié ton message pour mettre le contenu de /proc/mdstat en format texte préformaté, sinon la mise le forum interprète son contenu comme une mise en forme et affiche sdd[4](F)
comme sdd4.
(Si quelqu’un a une explication je prends)
J’ai jeter un coup d’œil de SMART via l’utilitaire d’Ubuntu : tout est bon (si tu a une commande particulière avec smartctl en tête?).
Comme dis plus haut c’est un disque dur reconditionné, quand je l’ai eu il avait très peu servi, 2 mois sans problèmes, c’est possible que SMART ne détecte pas la panne ?
Je vais effectivement reformater le disque et le ré-ajouter, si le problème se reproduit ça veut dire que c’est uniquement matériel ? Si c’est le cas comment je peut prouver la panne auprès du sav de ldlc ?
smartctl -a /dev/sdd
Il est toujours possible que SMART ne détecte pas une panne, surtout si elle ne provoque pas d’erreurs visibles. Mais les codes correcteurs intégrés aux données enregistrés devraient permettre de détecter une altération de celles-ci. Des disques avec des erreurs et des secteurs illisibles, j’en ai vu un tas, mais un disque qui perd spontanément ses données sans erreur, jamais.
Est-ce que cela arrive toujours suite à un redémarrage, ou en cours de fonctionnement ?
smartctl -a /dev/sdd smartctl 6.5 2016-01-24 r4214 [x86_64-linux-4.10.0-40-generic] (local build) Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org
Short INQUIRY response, skip product id A mandatory SMART command failed: exiting. To continue, add one or more '-T permissive' options.
edit:
Visiblement mon disque a un problème : la même commande avec un autre disque renvoi des infos
L’échec d’une requête SMART ne signifie pas forcément que le disque est défectueux. Cela peut être causé par exemple par :
un contrôleur hôte SATA ou un adaptateur USB peu coopératif qui ne laisse pas passer les commandes SMART. Le disque est-il branché sur le même contrôleur SATA que les autres ? Il n’est pas branché en USB, n’est-ce pas ?
la désactivation de SMART sur ce disque par le BIOS (essayer de l’activer avec smartctl -s on /dev/sdd
)
une implémentation déficiente de SMART (essayer en ajoutant l’option -T permissive
mentionnée dans le message d’erreur)
Que rapportait l’utilitaire d’Ubuntu exactement ? As-tu exécuté smartctl du même système Ubuntu ?
Il est connecté de la même façons que les autres : direct sur la CM
J’ai pu tester l’état smart de ce disque donc il est bien actif
C’est l’utilitaire de disque, “As-tu exécuté smartctl du même système Ubuntu ?” c’est a dire ?
Sinon je vais le remplacer par un neuf.
Je veux dire : est-ce que tu as exécuté smartctl dans le même système Ubuntu que l’utilitaire de disque qui a indiqué que “tout est bon”, ou bien dans un autre système ?
Sinon je l’ai remplacer par un dd tout neuf (qui est aussi /dev/sdd) et tout fonctionne de nouveau
Sur le même système Oui. je l’ai mis dans un lecteur de disque est j’ai essayer sur un autre pc et voila le resultat :
sudo smartctl -a /dev/sdc
smartctl 6.5 2016-01-24 r4214 [x86_64-linux-4.10.0-42-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF INFORMATION SECTION ===
Device Model: WDC WD10EZRZ-00HTKB0
Serial Number: WD-WCC4J5DZXRSH
LU WWN Device Id: 5 0014ee 2b887a218
Firmware Version: 01.01A01
User Capacity: 1 000 204 886 016 bytes [1,00 TB]
Sector Sizes: 512 bytes logical, 4096 bytes physical
Rotation Rate: 5400 rpm
Device is: Not in smartctl database [for details use: -P showall]
ATA Version is: ACS-2, ACS-3 T13/2161-D revision 3b
SATA Version is: SATA 3.1, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is: Wed Dec 13 23:39:21 2017 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
General SMART Values:
Offline data collection status: (0x84) Offline data collection activity
was suspended by an interrupting command from host.
Auto Offline Data Collection: Enabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: (14460) seconds.
Offline data collection
capabilities: (0x7b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 2) minutes.
Extended self-test routine
recommended polling time: ( 165) minutes.
Conveyance self-test routine
recommended polling time: ( 5) minutes.
SCT capabilities: (0x3035) SCT Status supported.
SCT Feature Control supported.
SCT Data Table supported.
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 137 137 021 Pre-fail Always - 4108
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 106
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 200 200 000 Old_age Always - 0
9 Power_On_Hours 0x0032 098 098 000 Old_age Always - 1765
10 Spin_Retry_Count 0x0032 100 100 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 100 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 105
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 100
193 Load_Cycle_Count 0x0032 200 200 000 Old_age Always - 2329
194 Temperature_Celsius 0x0022 118 103 000 Old_age Always - 25
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 200 200 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 200 200 000 Old_age Offline - 0
SMART Error Log Version: 1
No Errors Logged
SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Short offline Completed without error 00% 1765 -
# 2 Short offline Completed without error 00% 0 -
# 3 Short offline Completed without error 00% 0 -
SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
Aucun défaut ni erreur visible.
J’ai encore perdu un disque mais je n’arrive pas a l’identifier les smartctl sont ok, peut être la CM qui est en fin de vie ?
cat /proc/mdstat
Personalities : [raid6] [raid5] [raid4] [linear] [multipath] [raid0] [raid1] [raid10]
md127 : active raid5 sdf1[3] sdb1[1] sdd1[4](F)
1953260544 blocks super 1.2 level 5, 512k chunk, algorithm 2 [3/2] [_UU]
bitmap: 7/8 pages [28KB], 65536KB chunk
unused devices: <none>
Bonjour eliasb
Je me suis permis d’apporter quelques modifications dans tes messages de ce fil de discussion
pour changer l’apparence de certains blocs de texte.
Comment ça, tu n’arrives pas à l’identifier ? On voit que c’est sdd qui est marqué défaillant. Tu veux dire que tu ne sais pas de quel disque physique il s’agit ? smartctl ou hdparm affichent le modèle et le numéro de série du disque, ils devraient être inscrits sur l’étiquette et permettre de l’identifier.
Concernant la raison pour laquelle le disque a été marqué défaillant, il faudrait regarder dans les logs du noyau au moment où ça s’est produit. Si l’événement est récent, il peut encore être dans le tampon du noyau affiché par la commande dmesg. Sinon, il faut regarder dans les fichiers /var/log/kern.log*.
Bonjour eliasb
Dans le deuxième et le troisième copié/collé de ton premier message,
tu avais eu la bonne idée de sélectionner
le prompt qui avait été utilisé pour lancer la ligne de commande :
le prompt était :
root@raid:#
la ligne de commande était :
mdadm --detail --verbose /dev/md127
Malheureusement, il y manque le prompt de retour,
plus aucun prompt n’apparaît dans les copié/collé suivants,
et parfois, certains copié/collés sont tronqués,
comme par exemple celui qui est dans ton message du 6 décembre 2017 à 13:58
Dans les copiés/collés que tu nous transmets,
le prompt de départ nous permets d’éviter d’avoir
à te demander plusieurs précisions
qui sont parfois importantes concernant le contexte :
Le prompt de retour de commande nous permets de savoir
Donc, quand tu fais ta sélection pour un copié/collé
n’hésite pas à sélectionner
la ligne de commande(s) et son retour complet,
du prompt de départ (inclus),
au prompt de retour (inclus).
comme par exemple dans le copié/collé ci-dessous,
dans lequel on peut voir :
michel@debg53sw:~$ date
jeudi 28 décembre 2017, 16:34:49 (UTC+0100)
michel@debg53sw:~$
(En plus, Judge Dredd appréciera)
Merci.
Ok je vais faire des efforts dans la prez Sinon t’a une définition de prompt ? j’ai peur de ne pas bien comprendre. Sinon je tape la plus part des cmd en root
Pour en revenir a mon histoire de raid effectivement le mdadm affiche bien que sdd est en fail cependant le disque est tout neuf ! et c’est encore le même qui merde (sdd c’est possible que ça vienne de la carte mère, ou du contrôleur sata ?) ><"
Je viens de reboot (on ne sait jamais ) et le tuto que j’ai suivis pour la config du raid c’est https://www.justegeek.fr/tuto-creer-raid-logiciel-mdadm-debian/
root@raid6:/home/raid6# mdadm --detail --verbose /dev/md127
/dev/md127:
Version : 1.2
Creation Time : Fri Sep 29 06:44:43 2017
Raid Level : raid5
Array Size : 1953260544 (1862.77 GiB 2000.14 GB)
Used Dev Size : 976630272 (931.39 GiB 1000.07 GB)
Raid Devices : 3
Total Devices : 2
Persistence : Superblock is persistent
Intent Bitmap : Internal
Update Time : Sat Dec 30 01:05:32 2017
State : clean, degraded
Active Devices : 2
Working Devices : 2
Failed Devices : 0
Spare Devices : 0
Layout : left-symmetric
Chunk Size : 512K
Name : raid6:2 (local to host raid6)
UUID : f1a0ef99:ea007236:03204e21:ceca4abf
Events : 59253
Number Major Minor RaidDevice State
0 0 0 0 removed
1 8 17 1 active sync /dev/sdb1
3 8 81 2 active sync /dev/sdf1
root@raid6:/home/raid6# smartctl -a /dev/sdd
smartctl 6.5 2016-01-24 r4214 [x86_64-linux-4.10.0-42-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org
=== START OF INFORMATION SECTION ===
Device Model: ST1000DM010-2EP102
Serial Number: Z9AGTSYC
LU WWN Device Id: 5 000c50 0a415508e
Firmware Version: CC43
User Capacity: 1 000 204 886 016 bytes [1,00 TB]
Sector Sizes: 512 bytes logical, 4096 bytes physical
Rotation Rate: 7200 rpm
Form Factor: 3.5 inches
Device is: Not in smartctl database [for details use: -P showall]
ATA Version is: ATA8-ACS T13/1699-D revision 4
SATA Version is: SATA 3.0, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is: Sat Dec 30 01:09:06 2017 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
General SMART Values:
Offline data collection status: (0x82) Offline data collection activity
was completed without error.
Auto Offline Data Collection: Enabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: ( 0) seconds.
Offline data collection
capabilities: (0x7b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 1) minutes.
Extended self-test routine
recommended polling time: ( 105) minutes.
Conveyance self-test routine
recommended polling time: ( 2) minutes.
SCT capabilities: (0x1085) SCT Status supported.
SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000f 083 063 006 Pre-fail Always - 217721307
3 Spin_Up_Time 0x0003 100 100 000 Pre-fail Always - 0
4 Start_Stop_Count 0x0032 100 100 020 Old_age Always - 1
5 Reallocated_Sector_Ct 0x0033 100 100 010 Pre-fail Always - 0
7 Seek_Error_Rate 0x000f 061 060 045 Pre-fail Always - 1420902
9 Power_On_Hours 0x0032 100 100 000 Old_age Always - 420
10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 100 100 020 Old_age Always - 1
183 Runtime_Bad_Block 0x0032 099 099 000 Old_age Always - 1
184 End-to-End_Error 0x0032 100 100 099 Old_age Always - 0
187 Reported_Uncorrect 0x0032 100 100 000 Old_age Always - 0
188 Command_Timeout 0x0032 100 100 000 Old_age Always - 0
189 High_Fly_Writes 0x003a 100 100 000 Old_age Always - 0
190 Airflow_Temperature_Cel 0x0022 074 071 040 Old_age Always - 26 (Min/Max 23/29)
193 Load_Cycle_Count 0x0032 100 100 000 Old_age Always - 18
194 Temperature_Celsius 0x0022 026 023 000 Old_age Always - 26 (0 23 0 0 0)
195 Hardware_ECC_Recovered 0x001a 006 001 000 Old_age Always - 217721307
197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0010 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x003e 200 197 000 Old_age Always - 110
240 Head_Flying_Hours 0x0000 100 253 000 Old_age Offline - 418 (155 32 0)
241 Total_LBAs_Written 0x0000 100 253 000 Old_age Offline - 2171635865
242 Total_LBAs_Read 0x0000 100 253 000 Old_age Offline - 32619889
SMART Error Log Version: 1
No Errors Logged
SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Short offline Completed without error 00% 0 -
SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
La ligne :
7 Seek_Error_Rate 0x000f 061 060 045 Pre-fail Always - 1420902
Je trouve que 1420902 erreur d’accès c’est beaucoup pour un disque neuf ! :o
Es que le problème peut venir de la configuration des disque dans mdadm ?
root@raid6:/home/raid6# mdadm --examine /dev/sdd
/dev/sdd:
MBR Magic : aa55
Partition[0] : 1953525167 sectors at 1 (type ee)
root@raid6:/home/raid6# mdadm --examine /dev/sdb
/dev/sdb:
MBR Magic : aa55
Partition[0] : 1953525167 sectors at 1 (type ee)
root@raid6:/home/raid6# mdadm --examine /dev/sdf
/dev/sdf:
MBR Magic : aa55
Partition[0] : 1953525167 sectors at 1 (type ee)
Là je ne vois pas ou se trouve le problème, le smart des disque est bon et aussi la config MBR. Comme si sdd était sorti du raid comme ça !
Un petit mdadm --manage --add /dev/md127 /dev/sdd1
ça peut se tenter pour l’ajouter a la grappe ?
Bonjour
L’interpréteur de ligne de commandes (ash, bash, csh, dash, ksh, tcsh, etc.)
qu’on appelle aussi le shell signale à l’utilisateur qu’il est disponible
en affichant une invite de commande : le prompt
L’utilisateur peut donc entrer une ligne de commande,
et quand cet interpréteur de commande aura terminé l’exécution des commandes
lues dans la ligne de commande qu’il a interprété,
l’interpréteur de commande signalera à l’utilisateur qu’il est a nouveau disponible
en affichant l’invite de commande : le prompt
C’est dans la variable d’environnement PS1
qu’est définie l’apparence du prompt.
Voici l’apparence du prompt
dans une session utilisateur
dont le nom du compte utilisateur est : michel
sur ma machine dont le nom est debg53sw
quand le répertoire courant est le
répertoire personnel du compte utilisateur ~
michel@debg53sw:~$
Voici l’apparence du prompt
dans une session utilisateur
dont le nom du compte utilisateur est : michel
sur ma machine dont le nom est debg53sw
quand le répertoire courant est le
le sous-répertoire Téléchargements/mesScripts/
du répertoire personnel du compte utilisateur ~
michel@debg53sw:~/Téléchargements/mesScripts$
Et voici l’apparence du prompt
dans une session utilisateur
dont le nom du compte utilisateur est : root
sur la machine dont le nom est aptvirt
quand le répertoire courant est le
le répertoire /etc/X11
root@aptvirt:/etc/X11#
ok merci Sinon le prompt s’affiche après chacune de mes commandes
Et je ne sais pas si tu a vu mais j’ai fais plusieurs edit de mon post.
Sympa, merci.
Oui, s’il est toujours branché au même port. Ou du câble de données ou d’alimentation.
La valeur normalisée est dans les clous, et “rate” indique qu’il s’agit d’un taux (nombre par unité de temps), pas d’une valeur absolue qui ne peut qu’augmenter avec le temps.
Comme je te l’ai déjà suggéré, il faut regarder dans les logs système au moment où le disque est passé en fail.
Oui, jusqu’au prochain fail. L’ensemble RAID retrouvera de la redondance une fois la reconstruction terminée.