Raid 5 perdu

olivier1969 · Mars 2, 2020, 7:07pm

Bonjour,

Sur mon NAS j’ai perdu mon RAID5 , composé de trois disques durs de 2To , dont un est endommagé , je n’y ai même plus accès même en mode dégradé , merci pour votre aide !!!

Pour info :

root@OMV:~# mdadm --detail /dev/md127
/dev/md127:
           Version : 1.2
        Raid Level : raid0
     Total Devices : 2
       Persistence : Superblock is persistent

             State : inactive
   Working Devices : 2

              Name : OMV:Serveur
              UUID : 32f852b3:3f908183:3f2c8da0:2ff7b452
            Events : 14266

    Number   Major   Minor   RaidDevice

       -       8       32        -        /dev/sdc
       -       8       16        -        /dev/sdb

root@OMV:~# mdadm --run /dev/md127
mdadm: failed to start array /dev/md/Serveur: Input/output error

PascalHambourg · Mars 2, 2020, 7:30pm

Qu’y a-t-il dans les logs du noyau (dmesg) concernant le RAID (md) et les disques membres (sdb, sdc) ?
Qu’affiche la commande suivante ?

mdadm --examine /dev/sd[bc]

Note : il est déconseillé d’utiliser des disques entiers comme membres RAID mais plutôt des partitions.

olivier1969 · Mars 3, 2020, 2:26am

root@OMV:~# mdadm --examine /dev/sd[bc]
/dev/sdb:
          Magic : a92b4efc
        Version : 1.2
    Feature Map : 0x0
     Array UUID : 32f852b3:3f908183:3f2c8da0:2ff7b452
           Name : OMV:Serveur
  Creation Time : Fri Jan  8 20:39:50 2016
     Raid Level : raid5
   Raid Devices : 3

 Avail Dev Size : 3906767024 (1862.89 GiB 2000.26 GB)
     Array Size : 3906765824 (3725.78 GiB 4000.53 GB)
  Used Dev Size : 3906765824 (1862.89 GiB 2000.26 GB)
    Data Offset : 262144 sectors
   Super Offset : 8 sectors
   Unused Space : before=262064 sectors, after=1200 sectors
          State : clean
    Device UUID : 3d38a49c:50729bb2:6197fdb0:fe7f5d94

    Update Time : Mon Mar  2 19:20:08 2020
       Checksum : 9fc48cb0 - correct
         Events : 14266

         Layout : left-symmetric
     Chunk Size : 512K

   Device Role : Active device 1
   Array State : .A. ('A' == active, '.' == missing, 'R' == replacing)
/dev/sdc:
          Magic : a92b4efc
        Version : 1.2
    Feature Map : 0x8
     Array UUID : 32f852b3:3f908183:3f2c8da0:2ff7b452
           Name : OMV:Serveur
  Creation Time : Fri Jan  8 20:39:50 2016
     Raid Level : raid5
   Raid Devices : 3

 Avail Dev Size : 3906767024 (1862.89 GiB 2000.26 GB)
     Array Size : 3906765824 (3725.78 GiB 4000.53 GB)
  Used Dev Size : 3906765824 (1862.89 GiB 2000.26 GB)
    Data Offset : 262144 sectors
   Super Offset : 8 sectors
   Unused Space : before=261864 sectors, after=1200 sectors
          State : clean
    Device UUID : 2dee4e52:e11ee7d1:b2181428:e81d98f1

    Update Time : Mon Mar  2 19:20:08 2020
  Bad Block Log : 512 entries available at offset 264 sectors - bad blocks present.
       Checksum : 49140f7e - correct
         Events : 14266

         Layout : left-symmetric
     Chunk Size : 512K

   Device Role : spare
   Array State : .A. ('A' == active, '.' == missing, 'R' == replacing)

olivier1969 · Mars 3, 2020, 6:49am

Et pour les logs , ce qu’il en reste , j’ai redémarré le NAS

[  376.942812] md/raid:md127: device sdb operational as raid disk 1
[  376.943891] md/raid:md127: not enough operational devices (2/3 failed)
[  376.967777] md/raid:md127: failed to run raid set.

[    3.469904] sd 2:0:0:0: [sdb] 3907029168 512-byte logical blocks: (2.00 TB/1.82 TiB)
[    3.469908] sd 2:0:0:0: [sdb] 4096-byte physical blocks
[    3.469935] sd 2:0:0:0: [sdb] Write Protect is off
[    3.469939] sd 2:0:0:0: [sdb] Mode Sense: 00 3a 00 00
[    3.469992] sd 2:0:0:0: [sdb] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA
[    3.500016] sd 2:0:0:0: [sdb] Attached SCSI disk
[  376.942812] md/raid:md127: device sdb operational as raid disk 1

root@OMV:~#  dmesg | grep sdc
[    3.469607] sd 3:0:0:0: [sdc] 3907029168 512-byte logical blocks: (2.00 TB/1.82 TiB)
[    3.469612] sd 3:0:0:0: [sdc] 4096-byte physical blocks
[    3.469643] sd 3:0:0:0: [sdc] Write Protect is off
[    3.469647] sd 3:0:0:0: [sdc] Mode Sense: 00 3a 00 00
[    3.469699] sd 3:0:0:0: [sdc] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA
[    3.504488] sd 3:0:0:0: [sdc] Attached SCSI disk

anon70622873 · Mars 3, 2020, 7:45am

Bonjour,

Si deux disques sur trois sont fautifs comme indiqué par la sortie de dmesg, il est impossible, ou du moins très difficile, de récupérer les données. Il faut dans ce cas changer les disques, recréer éventuellement un RAID1 (le RAID5 'était pas une bonne option) et restaurer les données à partir des sauvegardes.
Ceci dit on ne voit aucune information sur le troisième disque.

olivier1969 · Mars 3, 2020, 7:50am

Hello,
Le troisième disque est enlevé , je vais le remplacer ce soir, mais à priori les 2 autres sont ok

PascalHambourg · Mars 3, 2020, 9:22am

L’affaire me semble mal engagée :

/dev/sdc:
  Bad Block Log : 512 entries available at offset 264 sectors - bad blocks present.
   Device Role : spare
   Array State : .A. ('A' == active, '.' == missing, 'R' == replacing)

En clair : le disque /dev/sdc n’est pas membre actif mais “spare” (en réserve pour remplacer un membre actif défaillant) donc a priori il ne contient pas de données. D’autre part il a des blocs défectueux, à confirmer avec

smartctl -a /dev/sdc

Avec un seul membre actif restant /dev/sdb, l’ensemble RAID 5 ne peut pas démarrer, il en faut au moins deux.

olivier1969 · Mars 3, 2020, 7:00pm

donc , c’est mort pour moi ???

PascalHambourg · Mars 4, 2020, 11:22am

Pour toi, je ne sais pas. Pour l’ensemble RAID, j’en ai bien peur, à moins que quelque chose soit récupérable sur le disque que tu as enlevé.

olivier1969 · Mars 4, 2020, 7:58pm

moi ça va …

par contre effectivement pour le raid j’ai bien les boules , le disque exclu présentant des problèmes mécaniques (grattage de tête) . Du coup si par bonheur j’arrive a cloner le DD , ça peux marcher ??

PascalHambourg · Mars 4, 2020, 8:21pm

Avec deux membres actifs, l’ensemble RAID pourrait être réactivé. Par contre si l’autre disque a été sorti du RAID avant que l’ensemble cesse de fonctionner, les deux disques ne seront pas en phase et la cohérence des données risque d’en être affectée.

Mais je serais curieux de connaître l’historique de cet ensemble RAID pour savoir pourquoi il est dans cet état avec un disque manquant et un disque de spare. Normalement, le disque de spare aurait dû être utilisé pour reconstruire l’ensemble dès la défaillance d’un des trois membre actifs.

anon70622873 · Mars 5, 2020, 9:40am

À ma connaissance on ne peut pas avoir de disque de rechange (spare) dans une telle configuration. Ou alors je n’ai rien compris au RAID 5 et au concept de disque spare.

De plus, il y a des incohérences dans les retours des commandes mdadm :

puis :

PascalHambourg · Mars 5, 2020, 7:02pm

Par défaut, lors de sa création un ensemble RAID 5 à N disques est initialisé avec N-1 disques actifs et 1 disque de spare, et une reconstruction initiale a lieu sur le disque de spare à l’issue de laquelle il devient disque actif. Plus la taille est importante, plus le temps de reconstruction est long. Vu sa date de création (2016), la reconstruction initiale devrait être terminée depuis longtemps, à moins qu’elle ait été interrompue (par la détection de blocs défectueux par exemple). Dans ce cas, l’ensemble RAID a toujours fonctionné avec seulement 2 disques actifs donc sans redondance, et est tombé à la première défaillance.

Normal, certaines informations comme le niveau de RAID affichées par mdadm --detail concernant un ensemble RAID inactif ne sont pas cohérentes.

anon70622873 · Mars 6, 2020, 7:26am

Merci pour les explications.
Je n’aurais pas pensé à ce scénario. Dans ce cas le RAID a toujours fonctionné en mode dégradé et il est irrécupérable.