Problème RAID 1 ! Critique :S

Bonjour à tous,

Je viens vers vous car je n’arrive pas a trouver de solution, j’ai mis en place un RAID1 Logiciel avec mdadm, tout fonctionné, jusqu’a qu’un de mes 2 disque est tombé HS! Je pensais donc que le second aurait repris la relève mais non! Au démarrage de mon PC, j’ai juste un prompt avec ça : _

J’ai donc retirer le disque défectueux via la commande : mdadm /dev/mdX --fail /dev/sdaX et mdadm /dev/mdX --remove /dev/sdaX
le disque est bien démonté car j’ai bien cela [_U]

Après recherche, j’ai compris que c’était parce que cette partition n’était pas bootable (donc pas GRUB d’installé ?), j’ai donc essayé d’installer GRUB via la commande : grub-install /dev/sdbX mais sans succès!

Je commence à ne plus savoir quoi faire, si vous connaissez une solution pour faire booté ma machine sur le second disque RAID et bien sur sans effacé les données, car elle sont très importantes.

Je vous remercie pour votre aide!

Bonjour

Tu peux utiliser le mode [mono]Rescue[/mono] d’une image ISO d’installation [mono]debian[/mono] pour [mono]chroot[/mono]er sur la partition système de ton installation et installer le [mono]chargeur de boot[/mono] de [mono]grub[/mono] dans le [mono]mbr[/mono] du disque.

/dev/sdb pas /dev/sdbX!

Va voir raid5-lvm-avant-l-installation-ajout-de-grub-pc-t48224.html

@ fran.b : [strike]Je pense que sa commande est bonne car ce sont les partitions de ses disques qui sont de type RAID (fd).[/strike]

Ok:
Je parlais de la commande: [mono]mdadm /dev/mdX --fail /dev/sdaX et mdadm /dev/mdX --remove /dev/sdaX[/mono]
la commande dont tu parlais était :[mono]grub-install /dev/sdbX[/mono] qui devrait être comme tu le dis: [mono]grub-install /dev/sdb[/mono]

J’aurais dû faire attention à la lettre du lecteur dont tu parlais: [mono]b[/mono]
Et lire entièrement ton post.

Je suis un peu distrait en ce moment :blush:

Du coup, tu peux supprimer ce post (si tu veux).

Merci pour vos réponse,

J’ai essayé votre commande mais ça n’a pas fonctionné. Par contre X correspond au nom de ma partition de boot, du coup je pensais qu’il fallait que j’installe GRUB dessus mais

Mais là du coup je suis perdu, j’arrive plus à savoir qu’est qui est HS ou pas…
Pour résumer mon problème voici ce que j’ai au démarrage du système :


Voici ce que j’ai lorsque je fait un fdisk -l :

et lorsque je fait un cat/proc/mdstat

J’ai l’impression que j’ai des partitions sur mes 2 disques qui sont HS, est ce que tout cela vous parle plus qu’a moi ?
Je vous remercie

Mais encore ? Il y a eu une erreur lors de son exécution ?

Ta confusion classique vient de ce que grub est divisé en plusieurs parties. Le périphérique spécifié dans la commande (disque ou partition) est l’emplacement ou sera installée la première partie (amorce) ; les modules complémentaires et le fichier configuration sont installés par défaut dans /boot/grub si on ne le précise pas. Sauf contrainte particulière il est recommandé d’installer l’amorce de grub sur le disque de boot et non dans une partition.

Apparemment le disque actuellement nommé /dev/sda2 a un secteur illisible au début de la partition sdb7. Bizarrement, entre les deux captures d’écran le disque a le même nom mais ne semble pas être connecté au même port ATA. En tout cas, la conséquence semble être que le volume RAID contenu dans cette partition n’est pas monté car il n’apparaît pas dans /proc/mdstat.

Si les deux disques sont réellement défectueux, alors tu as un souci plus grave que le boot. Mais cela peut aussi venir du contrôleur hôte. Je recommande la lecture du diagnostic SMART avec [mono]smartctl[/mono] pour en savoir plus sur l’état des deux disques.

Bonsoir,

D’après tes photos, il semblerait que des bouts du disque /dev/sdb soit morts. Comme le RAID (logiciel ou pas) ne gère pas les secteurs défectueux, il va falloir changer le disque. Tous les disques durs récents utilisent une réserve de secteurs. Quand tu en as un qui reste défectueux, c’est que toute la réserve y est déjà passée et que c’est la fin des haricots, de toutes façons.

Sur un PC, le firmware type BIOS (UEFI, c’est différent) te fait booter sur le premier volume qu’il trouve, en chargeant le code du bootloader (le GRUB, en l’occurrence) qui se trouve dans une partie du Master Boot Record (MBR, le premier secteur du disque dur) et dans les secteurs qui sont entre le MBR et le début de la première partition (post-MBR gap).
Sur les PC destinés aux particuliers, le BIOS vérifie souvent qu’une partition soit marquée comme bootable avant de charger le bootloader. Un regrettable résidu des temps anciens.

De toutes les manières, sur ta machine, tu as une partition marquée bootable sur /dev/sda et le problème ne vient donc clairement pas de là.

Ci-dessous un petit guide que j’ai rédigé à la va-vite pour installer le GRUB sur un ou plusieurs autres volumes :

  • Télécharger l’ISO de la systemrescuecd. sysresccd.org/Download
  • Coller l’ISO à la racine d’une clé USB. Pas sur une partition !
  • Démarrer sur la clé USB.
  • Choisir le “kernel 64 bits avec d’autres options”.
  • Choisir ensuite les options de démarrage par défaut pour le kernel 64 bits.
  • Taper 16 avec le pavé numérique quand il est demandé de quel clavier l’on dispose.
  • Attendre la fin du démarrage puis taper [mono]fdisk -u -l -c[/mono] en ligne de commande pour identifier les disques/volumes.
  • [mono]mdadm --assemble --scan[/mono] (pas forcément nécessaire mais ça ne fait pas de mal)
  • [mono]mkdir mntpt[/mono]
  • [mono]mount /dev/md0 mntpt[/mono]
  • [mono]mount /dev/md1 mntpt/boot[/mono], si le volume est bien censé être monté dans /boot. Sinon, adapter.
  • [mono]mount /dev/md2 mntpt/home[/mono], même remarque que ci-dessus.
  • [mono]mount -t proc proc mntpt/proc[/mono]
  • [mono]mount -t sysfs sys mntpt/sys[/mono]
  • [mono]mount -o bind /dev mntpt/dev[/mono]
  • [mono]mount -o bind /dev/pts mntpt/dev/pts[/mono]
  • [mono]chroot mntpt /bin/bash[/mono]
  • [mono]su -l[/mono], Pour régler un problème bizarre avec les locales.
  • [mono]dpkg-reconfigure grub-pc[/mono]. On peut sélectionner PLUSIEURS devices où installer le GRUB. Toujours essayer d’installer à la racine du disque, sur le MBR.
  • [mono]exit[/mono]
  • [mono]exit[/mono]
  • [mono]umount -R mntpt[/mono]
  • [mono]halt[/mono]

Ensuite, changer le disque et ne pas oublier de mettre éventuellement à jour le /etc/mdadm.conf puis un petit coup de [mono]update-initramfs[/mono].


AnonymousCoward

voir aussi la réponse de PascalHambourg

C’est le même numéro de secteur sur les deux photos, à 10 secteurs du début de la partition /dev/sdb7 (visible dans la sortie de fdisk). Si le volume RAID correspondant est au format 1.2 comme les autres volumes, c’est le pire endroit pour un secteur défectueux car cela se situe dans le “superbloc” qui contient les métadonnées et commence à 8 secteurs après le début de la partition.

Et même moins récents. Depuis largement plus de 10 ans.

C’est faux. J’ai vu un tas de disques avec des secteurs illisibles et une réserve de secteurs loin d’être épuisée. Un secteur défectueux n’est remplacé par un secteur de réserve que dans deux situations :

  • si le secteur est encore lisible malgré les erreurs (grâce à l’ECC), il peut alors être remplacé préventivement et son contenu copié dans le nouveau secteur ;
  • sinon il faut attendre que le système hôte écrive dans le secteur, les anciennes données devenant alors sans objet.

Une erreur de lecteur d’un secteur peut être temporaire, aussi le contrôleur intégré ne remplacera jamais spontanément un secteur illisible au prix de la perte irrémédiable de son contenu antérieur.

Corollaire : pour forcer la réallocation d’un secteur (avec perte de son contenu antérieur), il faut explicitement écrire dedans.

Merci pour vos réponse.

Oui pardon, voici ce que cela me fait lorsque je tape la commande :

root@ubuntu:/# grub-install /dev/sdb Installing for i386-pc platform. grub-install: error: failed to get canonical path of `/cow'.

Comme on peut le voir j’utilise un live CD Ubuntu pour faire ces commandes, c’est pas gênant vu que Ubuntu est basé sur Debian, non ?

Merci AnonymousCoward pour ta procédure, je ne l’ai pas encore testé mais ça ne devrait pas tarder…

Oui pardon c’est normal pour le port ATA, j’avais essayé de brancher mes disques sur une autre tour, mais bien vu.

Cela pourrais provenir du fait que mes partions ne soient pas monté en RAID ? Si je réassemble mes partitions, cela devrait refonctionner ?

Je dois utilisé ces commandes ? (Je préfère vous demandez pour être sur, afin d’éviter toutes pertes de données) :

mdadm --assemble /dev/md1 /dev/sda1 /dev/sdb1
mdadm --assemble /dev/md2 /dev/sda2 /dev/sdb2
mdadm --assemble /dev/md5 /dev/sda5 /dev/sdb5
mdadm --assemble /dev/md6 /dev/sda6 /dev/sdb6
mdadm --assemble /dev/md7 /dev/sda7 /dev/sdb7

Par contre je ne sais pas pourquoi lorsque j’utilise le live CD et lorsque je fait un cat /proc/mdstat, cela me fait àa :

root@ubuntu:/# cat /proc/mdstat Personalities : unused devices: <none>

Sinon juste pour info, ça vous parlera peut être plus à vous qu’à moi, voici ce que j’ai lorsque je tape les commandes suivante :

root@ubuntu:/# mdadm --examine /dev/sda /dev/sda: MBR Magic : aa55 Partition[0] : 19529728 sectors at 2048 (type fd) Partition[1] : 1933989890 sectors at 19533822 (type 05) root@ubuntu:/# mdadm --examine /dev/sda1 mdadm: No md superblock detected on /dev/sda1. root@ubuntu:/# mdadm --examine /dev/sda2 /dev/sda2: MBR Magic : aa55 Partition[0] : 97654784 sectors at 2 (type fd) Partition[1] : 9764864 sectors at 97654786 (type 05)[code]
root@ubuntu:/# mdadm --examine /dev/sda5
/dev/sda5:
Magic : a92b4efc
Version : 1.2
Feature Map : 0x0
Array UUID : 9dd9a2b7:e2090517:0148b8ff:8747f74f
Name : AMSRV003:1
Creation Time : Fri Jul 5 12:18:43 2013
Raid Level : raid1
Raid Devices : 2

Avail Dev Size : 97652736 (46.56 GiB 50.00 GB)
Array Size : 48826296 (46.56 GiB 50.00 GB)
Used Dev Size : 97652592 (46.56 GiB 50.00 GB)
Data Offset : 2048 sectors
Super Offset : 8 sectors
State : clean
Device UUID : 365d084b:a0315a8f:d48d157f:f52fbd58

Update Time : Thu Sep  4 10:53:15 2014
   Checksum : b000e457 - correct
     Events : 100

Device Role : Active device 0
Array State : AA (‘A’ == active, ‘.’ == missing)[/code][code]
root@ubuntu:/# mdadm --examine /dev/sda6
/dev/sda6:
Magic : a92b4efc
Version : 1.2
Feature Map : 0x0
Array UUID : 44eafc5d:dbfaf11d:97fd66fc:e6ffdd55
Name : AMSRV003:2
Creation Time : Fri Jul 5 12:18:52 2013
Raid Level : raid1
Raid Devices : 2

Avail Dev Size : 9760768 (4.65 GiB 5.00 GB)
Array Size : 4880372 (4.65 GiB 5.00 GB)
Used Dev Size : 9760744 (4.65 GiB 5.00 GB)
Data Offset : 2048 sectors
Super Offset : 8 sectors
State : clean
Device UUID : 52cd8d93:9b16e7cc:1d3202ad:e6aba4f6

Update Time : Wed Sep  3 14:18:01 2014
   Checksum : a74868f5 - correct
     Events : 28

Device Role : Active device 0
Array State : AA (‘A’ == active, ‘.’ == missing)[/code] root@ubuntu:/# mdadm --examine /dev/sda7 mdadm: No md superblock detected on /dev/sda7.

Et pour le disque 2 :

root@ubuntu:/# mdadm --examine /dev/sdb /dev/sdb: MBR Magic : aa55 Partition[0] : 19529728 sectors at 2048 (type fd) Partition[1] : 1933989890 sectors at 19533822 (type 05)

[code]root@ubuntu:/# mdadm --examine /dev/sdb1
/dev/sdb1:
Magic : a92b4efc
Version : 1.2
Feature Map : 0x0
Array UUID : 17b66a82:dc429882:a2982aa3:f3582532
Name : AMSRV003:0
Creation Time : Fri Jul 5 12:18:28 2013
Raid Level : raid1
Raid Devices : 2

Avail Dev Size : 19527680 (9.31 GiB 10.00 GB)
Array Size : 9763768 (9.31 GiB 10.00 GB)
Used Dev Size : 19527536 (9.31 GiB 10.00 GB)
Data Offset : 2048 sectors
Super Offset : 8 sectors
State : clean
Device UUID : 77130409:f6dc7581:ad8971e4:d41b39a4

Update Time : Mon Sep  8 14:40:56 2014
   Checksum : c3a1f2d1 - correct
     Events : 961

Device Role : Active device 1
Array State : .A (‘A’ == active, ‘.’ == missing)
[/code]

root@ubuntu:/# mdadm --examine /dev/sdb2 /dev/sdb2: MBR Magic : aa55 Partition[0] : 97654784 sectors at 2 (type fd) Partition[1] : 9764864 sectors at 97654786 (type 05)

[code]root@ubuntu:/# mdadm --examine /dev/sdb5
/dev/sdb5:
Magic : a92b4efc
Version : 1.2
Feature Map : 0x0
Array UUID : 9dd9a2b7:e2090517:0148b8ff:8747f74f
Name : AMSRV003:1
Creation Time : Fri Jul 5 12:18:43 2013
Raid Level : raid1
Raid Devices : 2

Avail Dev Size : 97652736 (46.56 GiB 50.00 GB)
Array Size : 48826296 (46.56 GiB 50.00 GB)
Used Dev Size : 97652592 (46.56 GiB 50.00 GB)
Data Offset : 2048 sectors
Super Offset : 8 sectors
State : clean
Device UUID : b8194fcd:e265058d:f966e11b:9708b3d7

Update Time : Mon Sep  8 14:34:40 2014
   Checksum : 4bbb00df - correct
     Events : 116

Device Role : Active device 1
Array State : .A (‘A’ == active, ‘.’ == missing)[/code]

[code]root@ubuntu:/# mdadm --examine /dev/sdb6
/dev/sdb6:
Magic : a92b4efc
Version : 1.2
Feature Map : 0x0
Array UUID : 44eafc5d:dbfaf11d:97fd66fc:e6ffdd55
Name : AMSRV003:2
Creation Time : Fri Jul 5 12:18:52 2013
Raid Level : raid1
Raid Devices : 2

Avail Dev Size : 9760768 (4.65 GiB 5.00 GB)
Array Size : 4880372 (4.65 GiB 5.00 GB)
Used Dev Size : 9760744 (4.65 GiB 5.00 GB)
Data Offset : 2048 sectors
Super Offset : 8 sectors
State : clean
Device UUID : a82e68e9:d20d6e2b:1c48f171:15601d9c

Update Time : Thu Sep  4 13:39:34 2014
   Checksum : c613d42d - correct
     Events : 30

Device Role : Active device 1
Array State : .A (‘A’ == active, ‘.’ == missing)
[/code]

root@ubuntu:/# mdadm --examine /dev/sdb7 mdadm: No md superblock detected on /dev/sdb7.

Et voici ce que cela me donne avec smartcl -a /dev/sda :

[code]smartctl 6.2 2013-07-26 r3841 [x86_64-linux-3.13.0-24-generic] (local build)
Copyright © 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family: Seagate Barracuda 7200.14 (AF)
Device Model: ST1000DM003-1CH162
Serial Number: S1D9MY6R
LU WWN Device Id: 5 000c50 060fb6dea
Firmware Version: CC44
User Capacity: 1 000 204 886 016 bytes [1,00 TB]
Sector Sizes: 512 bytes logical, 4096 bytes physical
Rotation Rate: 7200 rpm
Device is: In smartctl database [for details use: -P show]
ATA Version is: ATA8-ACS T13/1699-D revision 4
SATA Version is: SATA 3.0, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is: Mon Sep 8 15:54:50 2014 UTC

==> WARNING: A firmware update for this drive may be available,
see the following Seagate web pages:
http://knowledge.seagate.com/articles/en_US/FAQ/207931en
http://knowledge.seagate.com/articles/en_US/FAQ/223651en

SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
See vendor-specific Attribute list for marginal Attributes.

General SMART Values:
Offline data collection status: (0x82) Offline data collection activity
was completed without error.
Auto Offline Data Collection: Enabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: ( 575) seconds.
Offline data collection
capabilities: (0x7b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 1) minutes.
Extended self-test routine
recommended polling time: ( 109) minutes.
Conveyance self-test routine
recommended polling time: ( 2) minutes.
SCT capabilities: (0x3085) SCT Status supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000f 087 084 006 Pre-fail Always - 153082138
3 Spin_Up_Time 0x0003 097 097 000 Pre-fail Always - 0
4 Start_Stop_Count 0x0032 100 100 020 Old_age Always - 72
5 Reallocated_Sector_Ct 0x0033 098 098 010 Pre-fail Always - 2716
7 Seek_Error_Rate 0x000f 073 060 030 Pre-fail Always - 8639993768
9 Power_On_Hours 0x0032 089 089 000 Old_age Always - 10231
10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 100 100 020 Old_age Always - 71
183 Runtime_Bad_Block 0x0032 100 100 000 Old_age Always - 0
184 End-to-End_Error 0x0032 100 100 099 Old_age Always - 0
187 Reported_Uncorrect 0x0032 001 001 000 Old_age Always - 12712
188 Command_Timeout 0x0032 100 097 000 Old_age Always - 10 11 11
189 High_Fly_Writes 0x003a 096 096 000 Old_age Always - 4
190 Airflow_Temperature_Cel 0x0022 063 044 045 Old_age Always In_the_past 37 (0 19 38 35 0)
191 G-Sense_Error_Rate 0x0032 100 100 000 Old_age Always - 0
192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always - 48
193 Load_Cycle_Count 0x0032 097 097 000 Old_age Always - 6035
194 Temperature_Celsius 0x0022 037 056 000 Old_age Always - 37 (0 20 0 0 0)
197 Current_Pending_Sector 0x0012 097 097 000 Old_age Always - 508
198 Offline_Uncorrectable 0x0010 097 097 000 Old_age Offline - 508
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0
240 Head_Flying_Hours 0x0000 100 253 000 Old_age Offline - 10216h+02m+38.647s
241 Total_LBAs_Written 0x0000 100 253 000 Old_age Offline - 23750572235
242 Total_LBAs_Read 0x0000 100 253 000 Old_age Offline - 64844670776

SMART Error Log Version: 1
ATA Error Count: 15076 (device log contains only the most recent five errors)
CR = Command Register [HEX]
FR = Features Register [HEX]
SC = Sector Count Register [HEX]
SN = Sector Number Register [HEX]
CL = Cylinder Low Register [HEX]
CH = Cylinder High Register [HEX]
DH = Device/Head Register [HEX]
DC = Device Command Register [HEX]
ER = Error register [HEX]
ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It “wraps” after 49.710 days.

Error 15076 occurred at disk power-on lifetime: 10231 hours (426 days + 7 hours)
When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were:
ER ST SC SN CL CH DH


40 51 00 0a 08 00 00 Error: UNC at LBA = 0x0000080a = 2058

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name


c8 00 08 08 08 00 e0 00 00:58:25.006 READ DMA
c8 00 08 00 08 00 e0 00 00:58:25.006 READ DMA
c8 00 08 f0 07 2a e1 00 00:58:25.005 READ DMA
c8 00 08 80 07 2a e1 00 00:58:25.005 READ DMA
b0 da 00 00 4f c2 00 00 00:51:47.990 SMART RETURN STATUS

Error 15075 occurred at disk power-on lifetime: 10231 hours (426 days + 7 hours)
When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were:
ER ST SC SN CL CH DH


40 51 00 0a 30 91 07 Error: UNC at LBA = 0x0791300a = 126955530

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name


c8 00 08 08 30 91 e7 00 00:29:41.367 READ DMA
c8 00 08 00 30 91 e7 00 00:29:41.366 READ DMA
25 00 08 ff ff ff ef 00 00:29:41.366 READ DMA EXT
25 00 08 ff ff ff ef 00 00:29:41.366 READ DMA EXT
c8 00 08 08 30 fc e6 00 00:29:39.520 READ DMA

Error 15074 occurred at disk power-on lifetime: 10231 hours (426 days + 7 hours)
When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were:
ER ST SC SN CL CH DH


40 51 00 0a 08 00 00 Error: UNC at LBA = 0x0000080a = 2058

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name


c8 00 08 08 08 00 e0 00 00:29:24.312 READ DMA
c8 00 08 00 08 00 e0 00 00:29:24.311 READ DMA
c8 00 08 f0 07 2a e1 00 00:29:24.311 READ DMA
c8 00 08 80 07 2a e1 00 00:29:24.310 READ DMA
c8 00 01 00 00 00 e0 00 00:29:21.291 READ DMA

Error 15073 occurred at disk power-on lifetime: 10231 hours (426 days + 7 hours)
When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were:
ER ST SC SN CL CH DH


40 51 00 0a 08 00 00 Error: UNC at LBA = 0x0000080a = 2058

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name


c8 00 08 08 08 00 e0 00 00:29:13.808 READ DMA
c8 00 08 00 08 00 e0 00 00:29:13.807 READ DMA
c8 00 08 f0 07 2a e1 00 00:29:13.806 READ DMA
c8 00 08 80 07 2a e1 00 00:29:13.806 READ DMA
c8 00 01 00 08 00 e0 00 00:29:11.719 READ DMA

Error 15073 occurred at disk power-on lifetime: 10231 hours (426 days + 7 hours)
When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were:
ER ST SC SN CL CH DH


40 51 00 0a 08 00 00 Error: UNC at LBA = 0x0000080a = 2058

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name


c8 00 08 08 08 00 e0 00 00:29:13.808 READ DMA
c8 00 08 00 08 00 e0 00 00:29:13.807 READ DMA
c8 00 08 f0 07 2a e1 00 00:29:13.806 READ DMA
c8 00 08 80 07 2a e1 00 00:29:13.806 READ DMA
c8 00 01 00 08 00 e0 00 00:29:11.719 READ DMA

Error 15072 occurred at disk power-on lifetime: 10231 hours (426 days + 7 hours)
When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were:
ER ST SC SN CL CH DH


40 51 00 0a 08 00 00 Error: UNC at LBA = 0x0000080a = 2058

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name


c8 00 08 08 08 00 e0 00 00:29:11.320 READ DMA
c8 00 08 00 08 00 e0 00 00:29:11.319 READ DMA
c8 00 08 f0 07 2a e1 00 00:29:11.319 READ DMA
c8 00 08 80 07 2a e1 00 00:29:11.318 READ DMA
c8 00 01 00 08 00 e0 00 00:28:22.318 READ DMA

SMART Self-test log structure revision number 1
No self-tests have been logged. [To run self-tests, use: smartctl -t]

SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
[/code]

Et pour SDB :

[code]smartctl 6.2 2013-07-26 r3841 [x86_64-linux-3.13.0-24-generic] (local build)
Copyright © 2002-13, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family: Seagate Barracuda 7200.14 (AF)
Device Model: ST1000DM003-1CH162
Serial Number: S1D9Q7NT
LU WWN Device Id: 5 000c50 060fa7c3f
Firmware Version: CC44
User Capacity: 1 000 204 886 016 bytes [1,00 TB]
Sector Sizes: 512 bytes logical, 4096 bytes physical
Rotation Rate: 7200 rpm
Device is: In smartctl database [for details use: -P show]
ATA Version is: ATA8-ACS T13/1699-D revision 4
SATA Version is: SATA 3.0, 6.0 Gb/s (current: 6.0 Gb/s)
Local Time is: Mon Sep 8 16:00:46 2014 UTC

==> WARNING: A firmware update for this drive may be available,
see the following Seagate web pages:
http://knowledge.seagate.com/articles/en_US/FAQ/207931en
http://knowledge.seagate.com/articles/en_US/FAQ/223651en

SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
See vendor-specific Attribute list for marginal Attributes.

General SMART Values:
Offline data collection status: (0x82) Offline data collection activity
was completed without error.
Auto Offline Data Collection: Enabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: ( 592) seconds.
Offline data collection
capabilities: (0x7b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 1) minutes.
Extended self-test routine
recommended polling time: ( 114) minutes.
Conveyance self-test routine
recommended polling time: ( 2) minutes.
SCT capabilities: (0x3085) SCT Status supported.

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000f 086 086 006 Pre-fail Always - 99321244
3 Spin_Up_Time 0x0003 097 097 000 Pre-fail Always - 0
4 Start_Stop_Count 0x0032 100 100 020 Old_age Always - 74
5 Reallocated_Sector_Ct 0x0033 100 100 010 Pre-fail Always - 338
7 Seek_Error_Rate 0x000f 077 060 030 Pre-fail Always - 50952592
9 Power_On_Hours 0x0032 089 089 000 Old_age Always - 10215
10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 100 100 020 Old_age Always - 71
183 Runtime_Bad_Block 0x0032 099 099 000 Old_age Always - 1
184 End-to-End_Error 0x0032 100 100 099 Old_age Always - 0
187 Reported_Uncorrect 0x0032 001 001 000 Old_age Always - 7843
188 Command_Timeout 0x0032 100 099 000 Old_age Always - 1 1 1
189 High_Fly_Writes 0x003a 077 077 000 Old_age Always - 23
190 Airflow_Temperature_Cel 0x0022 063 045 045 Old_age Always In_the_past 37 (Min/Max 36/38)
191 G-Sense_Error_Rate 0x0032 100 100 000 Old_age Always - 0
192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always - 45
193 Load_Cycle_Count 0x0032 097 097 000 Old_age Always - 6118
194 Temperature_Celsius 0x0022 037 055 000 Old_age Always - 37 (0 19 0 0 0)
197 Current_Pending_Sector 0x0012 096 096 000 Old_age Always - 782
198 Offline_Uncorrectable 0x0010 096 096 000 Old_age Offline - 782
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0
240 Head_Flying_Hours 0x0000 100 253 000 Old_age Offline - 10200h+21m+54.049s
241 Total_LBAs_Written 0x0000 100 253 000 Old_age Offline - 25914122015
242 Total_LBAs_Read 0x0000 100 253 000 Old_age Offline - 62230231257

SMART Error Log Version: 1
ATA Error Count: 8870 (device log contains only the most recent five errors)
CR = Command Register [HEX]
FR = Features Register [HEX]
SC = Sector Count Register [HEX]
SN = Sector Number Register [HEX]
CL = Cylinder Low Register [HEX]
CH = Cylinder High Register [HEX]
DH = Device/Head Register [HEX]
DC = Device Command Register [HEX]
ER = Error register [HEX]
ST = Status register [HEX]
Powered_Up_Time is measured from power on, and printed as
DDd+hh:mm:SS.sss where DD=days, hh=hours, mm=minutes,
SS=sec, and sss=millisec. It “wraps” after 49.710 days.

Error 8870 occurred at disk power-on lifetime: 10215 hours (425 days + 15 hours)
When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were:
ER ST SC SN CL CH DH


40 51 00 0a 30 91 07 Error: UNC at LBA = 0x0791300a = 126955530

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name


c8 00 08 08 30 91 e7 00 01:00:28.846 READ DMA
c8 00 08 00 30 91 e7 00 01:00:28.846 READ DMA
25 00 08 ff ff ff ef 00 01:00:28.846 READ DMA EXT
25 00 08 ff ff ff ef 00 01:00:28.845 READ DMA EXT
c8 00 08 08 30 fc e6 00 01:00:13.982 READ DMA

Error 8869 occurred at disk power-on lifetime: 10215 hours (425 days + 15 hours)
When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were:
ER ST SC SN CL CH DH


40 51 00 0a 30 91 07 Error: UNC at LBA = 0x0791300a = 126955530

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name


c8 00 08 08 30 91 e7 00 00:18:50.883 READ DMA
c8 00 08 00 30 91 e7 00 00:18:50.854 READ DMA
25 00 08 ff ff ff ef 00 00:18:50.853 READ DMA EXT
25 00 08 ff ff ff ef 00 00:18:50.853 READ DMA EXT
b0 da 00 00 4f c2 00 00 00:11:47.352 SMART RETURN STATUS

Error 8868 occurred at disk power-on lifetime: 10214 hours (425 days + 14 hours)
When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were:
ER ST SC SN CL CH DH


40 51 00 0a 30 91 07 Error: UNC at LBA = 0x0791300a = 126955530

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name


c8 00 08 08 30 91 e7 00 00:01:29.237 READ DMA
27 00 00 00 00 00 e0 00 00:01:29.236 READ NATIVE MAX ADDRESS EXT [OBS-ACS-3]
ec 00 00 00 00 00 a0 00 00:01:29.228 IDENTIFY DEVICE
ef 03 46 00 00 00 a0 00 00:01:29.222 SET FEATURES [Set transfer mode]
27 00 00 00 00 00 e0 00 00:01:29.193 READ NATIVE MAX ADDRESS EXT [OBS-ACS-3]

Error 8867 occurred at disk power-on lifetime: 10214 hours (425 days + 14 hours)
When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were:
ER ST SC SN CL CH DH


40 51 00 0a 30 91 07 Error: UNC at LBA = 0x0791300a = 126955530

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name


c8 00 08 08 30 91 e7 00 00:01:28.862 READ DMA
c8 00 08 20 30 91 e7 00 00:01:28.861 READ DMA
c8 00 08 00 32 91 e7 00 00:01:28.861 READ DMA
c8 00 08 f8 33 91 e7 00 00:01:28.861 READ DMA
c8 00 08 f0 33 91 e7 00 00:01:28.861 READ DMA
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name


c8 00 08 08 30 91 e7 00 00:01:29.237 READ DMA
27 00 00 00 00 00 e0 00 00:01:29.236 READ NATIVE MAX ADDRESS EXT [OBS-ACS-3]
ec 00 00 00 00 00 a0 00 00:01:29.228 IDENTIFY DEVICE
ef 03 46 00 00 00 a0 00 00:01:29.222 SET FEATURES [Set transfer mode]
27 00 00 00 00 00 e0 00 00:01:29.193 READ NATIVE MAX ADDRESS EXT [OBS-ACS-3]

Error 8867 occurred at disk power-on lifetime: 10214 hours (425 days + 14 hours)
When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were:
ER ST SC SN CL CH DH


40 51 00 0a 30 91 07 Error: UNC at LBA = 0x0791300a = 126955530

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name


c8 00 08 08 30 91 e7 00 00:01:28.862 READ DMA
c8 00 08 20 30 91 e7 00 00:01:28.861 READ DMA
c8 00 08 00 32 91 e7 00 00:01:28.861 READ DMA
c8 00 08 f8 33 91 e7 00 00:01:28.861 READ DMA
c8 00 08 f0 33 91 e7 00 00:01:28.861 READ DMA

Error 8866 occurred at disk power-on lifetime: 10214 hours (425 days + 14 hours)
When the command that caused the error occurred, the device was active or idle.

After command completion occurred, registers were:
ER ST SC SN CL CH DH


40 51 00 0a 30 91 07 Error: UNC at LBA = 0x0791300a = 126955530

Commands leading to the command that caused the error were:
CR FR SC SN CL CH DH DC Powered_Up_Time Command/Feature_Name


c8 00 08 08 30 91 e7 00 00:01:28.473 READ DMA
27 00 00 00 00 00 e0 00 00:01:28.472 READ NATIVE MAX ADDRESS EXT [OBS-ACS-3]
ec 00 00 00 00 00 a0 00 00:01:28.464 IDENTIFY DEVICE
ef 03 46 00 00 00 a0 00 00:01:28.456 SET FEATURES [Set transfer mode]
27 00 00 00 00 00 e0 00 00:01:28.420 READ NATIVE MAX ADDRESS EXT [OBS-ACS-3]

SMART Self-test log structure revision number 1
No self-tests have been logged. [To run self-tests, use: smartctl -t]

SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
[/code]

Apparemment, il y as pas mal d’erreur… :S

C’est sans importance. L’important est : as-tu fait un chroot sur la racine du système à dépanner avant ?

Non, c’est la conséquence.

J’en doute. Si md n’active que certains volumes RAID, alors c’est que les autres ont un problème.

Les résultats de mdadm --examine pour sda et sda2 sont normaux, car ce ne sont pas des partitions RAID. On a déjà vu que sdb7 a un secteur défectueux dans son superbloc, donc pas très surprenant que mdadm n’arrive pas à trouver un superbloc valide sur cette partition. Le résultat pour sda1 et sda7 est plus surprenant, à moins que ces partitions aient aussi des secteurs défectueux dans leurs superblocs.

Smartctl montre des secteurs défectueux (et d’anciens secteurs défectueux réalloués) en nombre important. Les disques sont inutilisables en l’état. Autre information intéressante : le seuil de température Airflow_Temperature_Cel a été atteint ou dépassé sur les deux disques. Je soupçonne qu’une surchauffe est à l’origine de ces défaillances.

Euh non, qu’elle est la procédure ? J’ai trouvé ça, c’est bien ça ?

[code]sudo fdisk -l # pour vous aider à trouver la partition sur laquelle est votre ubuntu
sudo mount /dev/sdaX /mnt # montage de celle-ci en remplaçant le X par le bon numéro de partition
sudo mount --bind /dev /mnt/dev # lien symbolique du dossier /dev en cours d’utilisation vers le disque monté
sudo mount --bind /dev/pts /mnt/dev/pts # lien symbolique du dossier /dev/pts en cours d’utilisation vers le disque monté
sudo mount --bind /sys /mnt/sys # lien symbolique du dossier /sys en cours d’utilisation vers le disque monté
sudo mount -t proc /proc /mnt/proc # Pour que Grub2 trouve /proc/mounts
sudo chroot /mnt /bin/bash # mise à la racine du disque monté
mount -a # montage des partitions dans le chroot
apt-get install grub-pc # installation du logiciel Grub2 (sur le disque maintenant à la racine)
update-grub # création d’un nouveau fichier de configuration : grub.cfg
grub-install /dev/sda # installation de grub sur le MBR

umount -a

sudo umount /mnt/{dev/pts,dev,sys,proc}
sudo umount /mnt[/code]

Déjà merci car j’ai apprit des choses :slightly_smiling: Donc du coup étant données que mes partitions sda1 et sda7 ont aussi un soucis, cela signifie que mes 2 disques sont totalement HS ? Impossible d’en faire démarrer un ? Et question bête, est ce que étant donné que j’ai réussi a récupérer toutes les données de mes partitions, si je fait un simple copié/collé sur un disque vierge, est ce que cela fonctionnerai ?

Sinon j’ai réussi a trouver un logiciel sous Windows pour récupérer toutes mes données, aucunes de mes données n’étaient corrompu (ou avait l’air)

Bonjour,

Lorsque tu boote sur un Linux quelconque et que tu lance [mono]grub-install[/mono], tu installe le GRUB, la configuration, les kernels du Linux sur lequel tu as démarré. Pas le GRUB et la configuration du Linux à dépanner.

Lorsque tu utilise la commande [mono]chroot[/mono], tu retrouve ton ancien système Linux quasiment comme ce qu’il était. Et dans ce cas là, lorsque-tu lance un [mono]grub-install[/mono] (ou un [mono]dpkg-reconfigure grub-pc[/mono] qui sous-traite lui-même à [mono]grub-install[/mono]), tu uilise la configuration ETC de ton Linux à dépanner. Et ça a tendance à bien mieux marcher. :whistle:

La procédure que tu as copié/coller est très proche de celle que je t’ai donnée. Elle contient également un appel à [mono]chroot[/mono], si tu regardes bien.

Les informations données par SMART ne sont pas standardisées d’une quelconque manière, ce qui les rends quasi-inutilisables. Tu as des valeurs qui augmentent ou diminuent quand le disque se dégrade, d’autres qui commencent à une certaine valeur. Et je ne parle même pas des fois où les disques lâchent sans que SMART ne t’indique quoi que ce soit. De plus, ces valeurs sont utilisées de manières différentes entre chaque constructeur et parfois même entre des disques durs de deux gammes différentes. C’est un vrai bor…l .

Par contre, tu peux tester si le disque contient ou pas des secteurs défectueux avec une commande telle que :
[mono]badblocks -e 1 /dev/sda; if [ $? -eq 0 ]; then echo ‘Le volume ne contient pas le moindre secteur défectueux.’; else echo ‘Le volume contient un ou plusieurs secteurs défectueux en lecture.’; fi[/mono] , en adaptant éventuellement /dev/sda .


AnonymousCoward

La réinstallation de grub n’est plus d’actualité car le problème est ailleurs : tes deux disques sont défectueux. Réinstaller quoi que ce soit dessus revient à bâtir sur du sable mouvant. Si tu as pu récupérer toutes les données importantes, alors c’est le principal.

Ensuite, deux “philosophies” s’affrontent :

  • Disque = consommable pas cher, si contient des secteurs défectueux -> pas fiable, poubelle.

  • Ce ne sont que quelques secteurs défectueux qui sont peut-être dus à une surchauffe temporaire -> on peut essayer de récupérer les disques.
    Etape 1 : résoudre le problème de surchauffe en espaçant les disque, en améliorant la ventilation… car les mêmes causes produiront les mêmes effets.
    Etape 2 : sauvegarder les données importantes (apparemment, ça, c’est fait).
    Etape 3 : tenter de forcer la réallocation des secteurs défectueux avec [mono]badblocks[/mono] en mode écriture destructive (option -w), ce qui va effacer le contenu des disques comme son nom le suggère :

Exécuter [mono]smartctl -A /dev/sdX[/mono] pour vérifier s’il reste des secteurs défectueux (valeur brute de l’attribut [mono]197 Current_Pending_Sector[/mono] > 0) et les températures ([mono]190 Airflow_Temperature_Cel[/mono] et [mono]194 Temperature_Celsius[/mono]). La colonne RAW_VALUE contient la valeur brute, “physique”. La colonne VALUE contient la valeur normalisée. La colonne THRESH contient le seuil, la valeur minimale en dessous de laquelle la valeur normalisée ne doit pas descendre. Recommencer l’étape 3 si nécessaire.