Perte d'un disque dans un raid6

Bonjour,

Voilà j’utilise maintenant depuis de nombreux mois un serveur sous debian que j’ai installé dans un raid6.

Je viens de constater qu’un disque avait été supprimé de l’array depuis quelques jours, celui-ci semble hors service. smartmontools renvoie une erreur sur le disque qui ne semple plus répondre quoique ce soit de valide…

Donc je vais avoir besoin de remplacer ce disque rapidement, et ayant déjà perdu un raid5 par le passé à cause d’une mauvaise manipulation, je voudrais pas refaire de conneries.

Je voudrais effectuer le remplacement du disque à chaud, est-ce que vous auriez le moindre truc pour m’aider à identifier le disque défectueux sur les 6 disques installés dans le serveur ?

Je sais que si je débranche par inadvertance un disque valide, je vais me payer une reconstruction de l’array interminable, sans oublier les risques de corruption de données (c’est ce qui était arrivé avec le raid5, après reconstruction… les tables lvm avaient disparu du disque, je n’utilise plus lvm, mais je voudrais éviter de faire face une nouvelle fois à ça).

Donc si vous avez des conseils pour faire face à cette situation, merci d’avance ^^

Bonjour,

Il faudrait d’abord savoir comment le raid6 est construit: raid logiciel ou raid matériel ?

Si c’est un raid logiciel, la commande mdadm doit te donner le disque défaillant.

Si c’est un raid matériel, tu dois utiliser les logiciels de diagnostics fourni par le constructeur de la carte contrôleur.

Cordialement.

Si le matériel est une machine serveur, tu devrais voir les loupiottes des disques clignoter avec l’activité sur le raid. Le disque qui n’est plus dans le raid est celui qui ne clignote pas.
Quant à retirer le disque à chaud, tu ne préfères pas le retirer à froid si c’est possible ? Des fois que ton contrôleur de disques ne supporte pas de perdre des disques à chaud.

Oui, désolé, j’avais oublié de préciser.

C’est un raid logiciel avec mdadm, j’ai le nom du disque mort (c’est /dev/sdb).

J’aimerais faire le changement à chaud parce que je ne suis pas certain de pouvoir booter correctement sur un raid dégradé… je voudrais pas prendre le risque.

Donc j’ai pas de diode, c’est un pc normal que j’utilise comme serveur.

Un pote m’a dit de toucher les disques, celui qui est mort devrait être plus froid que les autres, mais j’ai pas l’impression qu’il soit éteint car il est encore présent dans le système.

En fait, j’étais à la recherche de n’importe quelle astuce pour identifier le disque hs. J’ai pensé regarder les numéros de séries avec smartmontools, mais j’ai peur de pas avoir accès au numéro de série du disque facilement…

Peut-être qu’il existe un moyen de connaitre le port sata sur lequel sont reliés les différents disques… je n’ai pas l’impression toutefois…

Quand j’y pense, j’aurais peut-être du faire des étiquettes avec les uuid sur les disques ^^

Pas con, c’est vrai qu’avec smartctl -i /dev/sdX, tu récupères le numéro de série du disque.

Bonjour,

Tu peux éventuellement booter avec un cd live.

Tu lances un shell.

Tu débranche un par un les disques et tu regardes les événéments dans le journal (ou par dmesg).

Tu dois pouvoir identifier le disque /dev/sdb facilement.

C’est brutal mais ca doit fonctionner.

Cordialement.

[quote=“aleph.nevel”]Bonjour,

Tu peux éventuellement booter avec un cd live.

Tu lances un shell.

Tu débranche un par un les disques et tu regardes les événéments dans le journal (ou par dmesg).

Tu dois pouvoir identifier le disque /dev/sdb facilement.

C’est brutal mais ca doit fonctionner.

Cordialement.[/quote]

Est-ce que tu sais s’il n’y a pas de soucis pour booter sur un raid dégradé ? parce que j’ai justement peur d’éteindre ma machine et de ne pas pouvoir la booter après…

Bonjour,

C’est pour cette raison que je te propose de booter avec un cd live.

Ton raid logiciel ne devrait pas être actif - au pire tu l’arrêtes s’il est activé par le cdlive -.

Concernant le raid dégradé, si c’est ton disque logique sur lequel est installé la partition /boot ca peut empêcher que le grub soit trouvé lors démarrage de la machine.

Le cas peut se produire sur un raid 1 - déjà rencontré -.

Cordialement.

[quote=“aleph.nevel”]Bonjour,

C’est pour cette raison que je te propose de booter avec un cd live.

Ton raid logiciel ne devrait pas être actif - au pire tu l’arrêtes s’il est activé par le cdlive -.

Concernant le raid dégradé, si c’est ton disque logique sur lequel est installé la partition /boot ca peut empêcher que le grub soit trouvé lors démarrage de la machine.

Le cas peut se produire sur un raid 1 - déjà rencontré -.

Cordialement.[/quote]

Non, /boot est installé sur un disque externe usb, je boot avec lilo, donc je n’aurai pas de soucis, c’est juste surtout pour être certain que lilo arrivera bien à booter la machine s’il manque un disque au raid, parce que si c’est le cas, ta méthode est effectivement celle que j’appliquerai je pense si je n’arrive pas à identifier le disque en panne au toucher.

Toutes ces manipulations de débranchement me semblent bien hasardeuses.
Le numéro de série rapporté par hdparm -i ou -I devrait figurer sur une étiquette collée sur le disque.

Autre piste possible, le numéro du port SATA si la correspondance entre les ports logiques (vus par le noyau) et physiques (marqués sur la carte mère) est bien identifiée.

Bon bah finalement, je n’ai pas pu changer le disque à chaud… j’ai bien réussi à l’identifier, mais la impossible de l’enlever sans démonter le boitier…

Résultat, kernel panic au boot, il ne parvient pas à trouver la partition racine… c’était à prévoir…

Je sens que ça va être prise de tête, d’autant plus que l’installation est entrièrement chiffrée…