Problème de future panne de disque dur

hobby1 · Février 21, 2016, 6:33pm

Bonjour,

J’ai un vieux PC qui est sous Wheezy 7.2 qui me sert de serveur de fichiers. Il reste allumé très souvent.

Hier soir, j’ai eu un message du système m’indiquant qu’un disque dur est défaillant. Le messgae d’erreur est [quote]reallocated sector count[/quote]

J’ai démonté le disque et lancé un badblocks -wvs
Après 20% de test, il a commencé à m’afficher des nombre (n° des secteurs défectueux je suppose).
Puis il a arrêté d’afficher quoique ce soit, le curseur restant désespérement vide.
J’ai laissé tourner toutes la nuit et ce matin, c’était la même chose.

Est-ce grave ?
Puis-je encore l’utilsier pour dupliquer les données ?
Si je lance un “rsync” (car j’ai déjà du contenu ailleurs) ou “cp” il ne va pas me ramener des erreurs ?

Merci de vos éclaircissements.

thuban · Février 21, 2016, 6:33pm

Grave? Je ne saurais l’affirmer.

Cela dit, une sauvegarde ne sera pas de trop.
Tu ne risques rien avec rsync ou cp (le premier est sans doute plus adapté pour les sauvegardes), à part mettre de côté le maximum de données qui peuvent encore être récupérées. Il te retournera peut-être une erreur (fichier non lisible par exemple), mais rien de “bloquant”

BelZeButh · Février 21, 2016, 6:33pm

Salut,

[quote=“hobby1”]Puis-je encore l’utilsier pour dupliquer les données ?
[/quote]
C’est le moment ou jamais, avant le HS de ton disque.
Ceci dit évites tout type d’écriture sur ce dernier en cette heure.

Utilises l’option simulation -n de rsync et tu aviseras en conséquence.

ben_raven · Février 21, 2016, 6:33pm

Si tu veux plus de précisions, je serais toi j’utiliserais smartmontools.

Un simple

et tu pourras en savoir davantage.

hobby1 · Février 21, 2016, 6:33pm

Voici le résultat de smartcl :

[quote]ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000f 253 100 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0007 100 100 015 Pre-fail Always - 7424
4 Start_Stop_Count 0x0032 099 099 000 Old_age Always - 1997
5 Reallocated_Sector_Ct 0x0033 001 001 010 Pre-fail Always FAILING_NOW 6783
7 Seek_Error_Rate 0x000f 253 253 051 Pre-fail Always - 0
8 Seek_Time_Performance 0x0025 253 253 015 Pre-fail Offline - 0
9 Power_On_Hours 0x0032 100 100 000 Old_age Always - 35722
10 Spin_Retry_Count 0x0033 253 253 051 Pre-fail Always - 0
11 Calibration_Retry_Count 0x0012 253 253 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 099 099 000 Old_age Always - 1055
13 Read_Soft_Error_Rate 0x000e 100 100 000 Old_age Always - 21401
187 Reported_Uncorrect 0x0032 253 253 000 Old_age Always - 0
188 Command_Timeout 0x0032 100 100 000 Old_age Always - 1
190 Airflow_Temperature_Cel 0x0022 073 052 000 Old_age Always - 27
194 Temperature_Celsius 0x0022 157 094 000 Old_age Always - 27
195 Hardware_ECC_Recovered 0x001a 100 100 000 Old_age Always - 21401
196 Reallocated_Event_Count 0x0032 001 001 000 Old_age Always - 6783
197 Total_Pending_Sectors 0x0012 253 253 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 253 253 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 1
200 Multi_Zone_Error_Rate 0x000a 253 100 000 Old_age Always - 0
201 Soft_Read_Error_Rate 0x000a 253 100 000 Old_age Always - 0
202 Data_Address_Mark_Errs 0x0032 100 100 000 Old_age Always - 5[/quote]

Et donc il est clair que le DD est en fin de vie

bobo38 · Février 21, 2016, 6:33pm

[quote=“ben_raven”]

et tu pourras en savoir davantage.[/quote]

Merci pour cette commande, j’ai moi-même 3 pre-fails (Raw_Read_Error_Rate, Spin_Up_Time, Reallocated_Sector_Ct), tout le reste en old_age. Il faudrait peut-être que je comprenne un peu ce qui se cache derrière ces tests (analyse de log ? autres données système ?).

ben_raven · Février 21, 2016, 6:34pm

[quote=“bobo38”][quote=“ben_raven”]

et tu pourras en savoir davantage.[/quote]

Merci pour cette commande, j’ai moi-même 3 pre-fails (Raw_Read_Error_Rate, Spin_Up_Time, Reallocated_Sector_Ct), tout le reste en old_age. Il faudrait peut-être que je comprenne un peu ce qui se cache derrière ces tests (analyse de log ? autres données système ?).[/quote]

Les pre-fail et old-age sont normaux.
Le type d’attribut Old-age indique que si l’indice VALUE est inférieur à THRESH alors cela indique que le produit est en fin de vie du fait d’une usure normale.
L’attribut Pre-Fail indique que si l’indice VALUE est inférieur à THRESH alors une panne est imminente, il faut prévoir un remplacement.

En revanche Le champ WHEN_FAILED indique la probabilité de panne : FAILING_NOW indique une panne imminente. In_the_past indique que l’indice VALUE est déjà passé une fois sous la valeur THRESH : il faudra surveiller ce disque de près.
L’absence de valeur indique que le disque fonctionne normalement.

Donc dans le cas de @hobby1 par exemple il y a bien une panne imminente de signalé.