Raid 5 dégradé !

Qu’est-ce qui s’est passé depuis la dernière fois pour en arriver là ?
Les disques n’auraient pas changé de noms ?
Que disent

cat /proc/mdstat
mdadm --examine --verbose --scan

j’ai reboot entre temps, d’ailleur je ne sais pas si c’est la cause d’une utilisation de ram mais je suis souvent a 100% de ram(4g) use et 10-40% de swap(5g).
C’est un logiciel(SIA host) qui pompe la ram mais il utilise le raid comme espace de stockage

Les disque ont bien les même noms.

cat /proc/mdstat
Personalities : [raid6] [raid5] [raid4] [linear] [multipath] [raid0] [raid1] [raid10]
md127 : active raid5 sdf1[3] sdb1[1] sdd[4](F)
      1953260544 blocks super 1.2 level 5, 512k chunk, algorithm 2 [3/2] [_UU]
      bitmap: 5/8 pages [20KB], 65536KB chunk

unused devices: <none>

donc la même chose que la dernière fois

mdadm --examine --verbose --scan
ARRAY /dev/md/2  level=raid5 metadata=1.2 num-devices=3 UUID=f1a0ef99:ea007236:03204e21:ceca4abf name=raid6:2
   devices=/dev/sdf1,/dev/sdb1

Je n’ai pas d’explication. Un superbloc RAID n’est pas censé disparaître comme ça. Le disque est peut-être défectueux ? Tu l’as vérifié avec smartctl du paquet smartmontools ?

Tu peux en profiter pour recréer une table de partition et une partition RAID, et resynchroniser le RAID sur la partition comme initialement et comme sur les deux autres disques. Mais si quelque chose efface le superbloc de façon récurrente, cela ne règlera pas le problème.

PS : J’ai modifié ton message pour mettre le contenu de /proc/mdstat en format texte préformaté, sinon la mise le forum interprète son contenu comme une mise en forme et affiche sdd[4](F)comme sdd4.
(Si quelqu’un a une explication je prends)

J’ai jeter un coup d’œil de SMART via l’utilitaire d’Ubuntu : tout est bon (si tu a une commande particulière avec smartctl en tête?).

Comme dis plus haut c’est un disque dur reconditionné, quand je l’ai eu il avait très peu servi, 2 mois sans problèmes, c’est possible que SMART ne détecte pas la panne ?
Je vais effectivement reformater le disque et le ré-ajouter, si le problème se reproduit ça veut dire que c’est uniquement matériel ? Si c’est le cas comment je peut prouver la panne auprès du sav de ldlc ?

smartctl -a /dev/sdd

Il est toujours possible que SMART ne détecte pas une panne, surtout si elle ne provoque pas d’erreurs visibles. Mais les codes correcteurs intégrés aux données enregistrés devraient permettre de détecter une altération de celles-ci. Des disques avec des erreurs et des secteurs illisibles, j’en ai vu un tas, mais un disque qui perd spontanément ses données sans erreur, jamais.

Est-ce que cela arrive toujours suite à un redémarrage, ou en cours de fonctionnement ?

smartctl -a /dev/sdd
smartctl 6.5 2016-01-24 r4214 [x86_64-linux-4.10.0-40-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org
Short INQUIRY response, skip product id
A mandatory SMART command failed: exiting. To continue, add one or more '-T permissive' options.

edit:
Visiblement mon disque a un problème : la même commande avec un autre disque renvoi des infos :frowning:

L’échec d’une requête SMART ne signifie pas forcément que le disque est défectueux. Cela peut être causé par exemple par :

  • un contrôleur hôte SATA ou un adaptateur USB peu coopératif qui ne laisse pas passer les commandes SMART. Le disque est-il branché sur le même contrôleur SATA que les autres ? Il n’est pas branché en USB, n’est-ce pas ?

  • la désactivation de SMART sur ce disque par le BIOS (essayer de l’activer avec smartctl -s on /dev/sdd)

  • une implémentation déficiente de SMART (essayer en ajoutant l’option -T permissive mentionnée dans le message d’erreur)

Que rapportait l’utilitaire d’Ubuntu exactement ? As-tu exécuté smartctl du même système Ubuntu ?

Il est connecté de la même façons que les autres : direct sur la CM
J’ai pu tester l’état smart de ce disque donc il est bien actif
C’est l’utilitaire de disque, “As-tu exécuté smartctl du même système Ubuntu ?” c’est a dire ?

Sinon je vais le remplacer par un neuf.

Je veux dire : est-ce que tu as exécuté smartctl dans le même système Ubuntu que l’utilitaire de disque qui a indiqué que “tout est bon”, ou bien dans un autre système ?

Sinon je l’ai remplacer par un dd tout neuf (qui est aussi /dev/sdd) et tout fonctionne de nouveau :slight_smile:

Sur le même système Oui. je l’ai mis dans un lecteur de disque est j’ai essayer sur un autre pc et voila le resultat :

sudo smartctl -a /dev/sdc
smartctl 6.5 2016-01-24 r4214 [x86_64-linux-4.10.0-42-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Device Model:     WDC WD10EZRZ-00HTKB0
Serial Number:    WD-WCC4J5DZXRSH
LU WWN Device Id: 5 0014ee 2b887a218
Firmware Version: 01.01A01
User Capacity:    1 000 204 886 016 bytes [1,00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    5400 rpm
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   ACS-2, ACS-3 T13/2161-D revision 3b
SATA Version is:  SATA 3.1, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is:    Wed Dec 13 23:39:21 2017 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x84)	Offline data collection activity
					was suspended by an interrupting command from host.
					Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0)	The previous self-test routine completed
					without error or no self-test has ever 
					been run.
Total time to complete Offline 
data collection: 		(14460) seconds.
Offline data collection
capabilities: 			 (0x7b) SMART execute Offline immediate.
					Auto Offline data collection on/off support.
					Suspend Offline collection upon new
					command.
					Offline surface scan supported.
					Self-test supported.
					Conveyance Self-test supported.
					Selective Self-test supported.
SMART capabilities:            (0x0003)	Saves SMART data before entering
					power-saving mode.
					Supports SMART auto save timer.
Error logging capability:        (0x01)	Error logging supported.
					General Purpose Logging supported.
Short self-test routine 
recommended polling time: 	 (   2) minutes.
Extended self-test routine
recommended polling time: 	 ( 165) minutes.
Conveyance self-test routine
recommended polling time: 	 (   5) minutes.
SCT capabilities: 	       (0x3035)	SCT Status supported.
					SCT Feature Control supported.
					SCT Data Table supported.

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   137   137   021    Pre-fail  Always       -       4108
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       106
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   200   200   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   098   098   000    Old_age   Always       -       1765
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       105
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       100
193 Load_Cycle_Count        0x0032   200   200   000    Old_age   Always       -       2329
194 Temperature_Celsius     0x0022   118   103   000    Old_age   Always       -       25
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   200   200   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   200   200   000    Old_age   Offline      -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%      1765         -
# 2  Short offline       Completed without error       00%         0         -
# 3  Short offline       Completed without error       00%         0         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

Aucun défaut ni erreur visible.

J’ai encore perdu un disque mais je n’arrive pas a l’identifier les smartctl sont ok, peut être la CM qui est en fin de vie ?

cat /proc/mdstat
Personalities : [raid6] [raid5] [raid4] [linear] [multipath] [raid0] [raid1] [raid10]
md127 : active raid5 sdf1[3] sdb1[1] sdd1[4](F)
      1953260544 blocks super 1.2 level 5, 512k chunk, algorithm 2 [3/2] [_UU]
      bitmap: 7/8 pages [28KB], 65536KB chunk

unused devices: <none>

Bonjour eliasb

Je me suis permis d’apporter quelques modifications dans tes messages de ce fil de discussion
pour changer l’apparence de certains blocs de texte.

Comment ça, tu n’arrives pas à l’identifier ? On voit que c’est sdd qui est marqué défaillant. Tu veux dire que tu ne sais pas de quel disque physique il s’agit ? smartctl ou hdparm affichent le modèle et le numéro de série du disque, ils devraient être inscrits sur l’étiquette et permettre de l’identifier.

Concernant la raison pour laquelle le disque a été marqué défaillant, il faudrait regarder dans les logs du noyau au moment où ça s’est produit. Si l’événement est récent, il peut encore être dans le tampon du noyau affiché par la commande dmesg. Sinon, il faut regarder dans les fichiers /var/log/kern.log*.

Bonjour eliasb

Dans le deuxième et le troisième copié/collé de ton premier message,
tu avais eu la bonne idée de sélectionner
le prompt qui avait été utilisé pour lancer la ligne de commande :

le prompt était :

root@raid:#

la ligne de commande était :

mdadm --detail --verbose /dev/md127

Malheureusement, il y manque le prompt de retour,
plus aucun prompt n’apparaît dans les copié/collé suivants,
et parfois, certains copié/collés sont tronqués,
comme par exemple celui qui est dans ton message du 6 décembre 2017 à 13:58


Dans les copiés/collés que tu nous transmets,
le prompt de départ nous permets d’éviter d’avoir
à te demander plusieurs précisions
qui sont parfois importantes concernant le contexte :

  • Quel est le compte utilisateur qui a été utilisé pour lancer la ligne de commande
  • Sur quelle machine ce compte utilisateur a été utilisé pour lancer la ligne de commande
  • Si le compte utilisateur est le compte du super-utilisateur (root) de cette machine
  • Quel est le répertoire courant

Le prompt de retour de commande nous permets de savoir

  • Si la commande s’est bien terminée
  • Et que le copié/collé n’a pas été tronqué

Donc, quand tu fais ta sélection pour un copié/collé
n’hésite pas à sélectionner
la ligne de commande(s) et son retour complet,
du prompt de départ (inclus),
au prompt de retour (inclus).


comme par exemple dans le copié/collé ci-dessous,
dans lequel on peut voir :

  • le prompt de départ avec la ligne de commande
  • le retour de la ligne de commande
  • le prompt de retour
michel@debg53sw:~$ date
jeudi 28 décembre 2017, 16:34:49 (UTC+0100)
michel@debg53sw:~$ 

(En plus, Judge Dredd appréciera)

Merci.

Ok je vais faire des efforts dans la prez :slight_smile: Sinon t’a une définition de prompt ? j’ai peur de ne pas bien comprendre. Sinon je tape la plus part des cmd en root

Pour en revenir a mon histoire de raid effectivement le mdadm affiche bien que sdd est en fail cependant le disque est tout neuf ! et c’est encore le même qui merde (sdd c’est possible que ça vienne de la carte mère, ou du contrôleur sata ?) ><"
Je viens de reboot (on ne sait jamais ) et le tuto que j’ai suivis pour la config du raid c’est https://www.justegeek.fr/tuto-creer-raid-logiciel-mdadm-debian/

root@raid6:/home/raid6# mdadm --detail --verbose /dev/md127
/dev/md127:
        Version : 1.2
  Creation Time : Fri Sep 29 06:44:43 2017
     Raid Level : raid5
     Array Size : 1953260544 (1862.77 GiB 2000.14 GB)
  Used Dev Size : 976630272 (931.39 GiB 1000.07 GB)
   Raid Devices : 3
  Total Devices : 2
    Persistence : Superblock is persistent

  Intent Bitmap : Internal

    Update Time : Sat Dec 30 01:05:32 2017
          State : clean, degraded
 Active Devices : 2
Working Devices : 2
 Failed Devices : 0
  Spare Devices : 0

         Layout : left-symmetric
     Chunk Size : 512K

           Name : raid6:2  (local to host raid6)
           UUID : f1a0ef99:ea007236:03204e21:ceca4abf
         Events : 59253

    Number   Major   Minor   RaidDevice State
       0       0        0        0      removed
       1       8       17        1      active sync   /dev/sdb1
       3       8       81        2      active sync   /dev/sdf1

root@raid6:/home/raid6# smartctl -a /dev/sdd
smartctl 6.5 2016-01-24 r4214 [x86_64-linux-4.10.0-42-generic] (local build)
Copyright (C) 2002-16, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Device Model:     ST1000DM010-2EP102
Serial Number:    Z9AGTSYC
LU WWN Device Id: 5 000c50 0a415508e
Firmware Version: CC43
User Capacity:    1 000 204 886 016 bytes [1,00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    7200 rpm
Form Factor:      3.5 inches
Device is:        Not in smartctl database [for details use: -P showall]
ATA Version is:   ATA8-ACS T13/1699-D revision 4
SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is:    Sat Dec 30 01:09:06 2017 CET
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status:  (0x82) Offline data collection activity
                                        was completed without error.
                                        Auto Offline Data Collection: Enabled.
Self-test execution status:      (   0) The previous self-test routine completed
                                        without error or no self-test has ever
                                        been run.
Total time to complete Offline
data collection:                (    0) seconds.
Offline data collection
capabilities:                    (0x7b) SMART execute Offline immediate.
                                        Auto Offline data collection on/off support.
                                        Suspend Offline collection upon new
                                        command.
                                        Offline surface scan supported.
                                        Self-test supported.
                                        Conveyance Self-test supported.
                                        Selective Self-test supported.
SMART capabilities:            (0x0003) Saves SMART data before entering
                                        power-saving mode.
                                        Supports SMART auto save timer.
Error logging capability:        (0x01) Error logging supported.
                                        General Purpose Logging supported.
Short self-test routine
recommended polling time:        (   1) minutes.
Extended self-test routine
recommended polling time:        ( 105) minutes.
Conveyance self-test routine
recommended polling time:        (   2) minutes.
SCT capabilities:              (0x1085) SCT Status supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   083   063   006    Pre-fail  Always       -       217721307
  3 Spin_Up_Time            0x0003   100   100   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       1
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   061   060   045    Pre-fail  Always       -       1420902
  9 Power_On_Hours          0x0032   100   100   000    Old_age   Always       -       420
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       1
183 Runtime_Bad_Block       0x0032   099   099   000    Old_age   Always       -       1
184 End-to-End_Error        0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Command_Timeout         0x0032   100   100   000    Old_age   Always       -       0
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   074   071   040    Old_age   Always       -       26 (Min/Max 23/29)
193 Load_Cycle_Count        0x0032   100   100   000    Old_age   Always       -       18
194 Temperature_Celsius     0x0022   026   023   000    Old_age   Always       -       26 (0 23 0 0 0)
195 Hardware_ECC_Recovered  0x001a   006   001   000    Old_age   Always       -       217721307
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   197   000    Old_age   Always       -       110
240 Head_Flying_Hours       0x0000   100   253   000    Old_age   Offline      -       418 (155 32 0)
241 Total_LBAs_Written      0x0000   100   253   000    Old_age   Offline      -       2171635865
242 Total_LBAs_Read         0x0000   100   253   000    Old_age   Offline      -       32619889

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%         0         -

SMART Selective self-test log data structure revision number 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Selective self-test flags (0x0):
  After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.

La ligne :

7 Seek_Error_Rate 0x000f 061 060 045 Pre-fail Always - 1420902

Je trouve que 1420902 erreur d’accès c’est beaucoup pour un disque neuf ! :o
Es que le problème peut venir de la configuration des disque dans mdadm ?

root@raid6:/home/raid6# mdadm --examine /dev/sdd
/dev/sdd:
   MBR Magic : aa55
Partition[0] :   1953525167 sectors at            1 (type ee)
root@raid6:/home/raid6# mdadm --examine /dev/sdb
/dev/sdb:
   MBR Magic : aa55
Partition[0] :   1953525167 sectors at            1 (type ee)
root@raid6:/home/raid6# mdadm --examine /dev/sdf
/dev/sdf:
   MBR Magic : aa55
Partition[0] :   1953525167 sectors at            1 (type ee)

Là je ne vois pas ou se trouve le problème, le smart des disque est bon et aussi la config MBR. Comme si sdd était sorti du raid comme ça !
Un petit mdadm --manage --add /dev/md127 /dev/sdd1 ça peut se tenter pour l’ajouter a la grappe ?

Bonjour

L’interpréteur de ligne de commandes (ash, bash, csh, dash, ksh, tcsh, etc.)
qu’on appelle aussi le shell signale à l’utilisateur qu’il est disponible
en affichant une invite de commande : le prompt

L’utilisateur peut donc entrer une ligne de commande,
et quand cet interpréteur de commande aura terminé l’exécution des commandes
lues dans la ligne de commande qu’il a interprété,
l’interpréteur de commande signalera à l’utilisateur qu’il est a nouveau disponible
en affichant l’invite de commande : le prompt

C’est dans la variable d’environnement PS1
qu’est définie l’apparence du prompt.


Voici l’apparence du prompt
dans une session utilisateur
dont le nom du compte utilisateur est : michel
sur ma machine dont le nom est debg53sw
quand le répertoire courant est le
répertoire personnel du compte utilisateur ~

michel@debg53sw:~$

Voici l’apparence du prompt
dans une session utilisateur
dont le nom du compte utilisateur est : michel
sur ma machine dont le nom est debg53sw
quand le répertoire courant est le
le sous-répertoire Téléchargements/mesScripts/
du répertoire personnel du compte utilisateur ~

michel@debg53sw:~/Téléchargements/mesScripts$

Et voici l’apparence du prompt
dans une session utilisateur
dont le nom du compte utilisateur est : root
sur la machine dont le nom est aptvirt
quand le répertoire courant est le
le répertoire /etc/X11

root@aptvirt:/etc/X11#

ok merci :wink: Sinon le prompt s’affiche après chacune de mes commandes
Et je ne sais pas si tu a vu mais j’ai fais plusieurs edit de mon post.

Sympa, merci. :slight_smile:

Oui, s’il est toujours branché au même port. Ou du câble de données ou d’alimentation.

La valeur normalisée est dans les clous, et “rate” indique qu’il s’agit d’un taux (nombre par unité de temps), pas d’une valeur absolue qui ne peut qu’augmenter avec le temps.

Comme je te l’ai déjà suggéré, il faut regarder dans les logs système au moment où le disque est passé en fail.

Oui, jusqu’au prochain fail. L’ensemble RAID retrouvera de la redondance une fois la reconstruction terminée.