Allumage bruyant n40l : trois disques avec de nombreux High_Fly_Writes

hdd
bruit
high_fly_writes
alimentation
Tags: #<Tag:0x00007f0945df70c8> #<Tag:0x00007f0945df5ca0> #<Tag:0x00007f0945df5598> #<Tag:0x00007f0945df4aa8>

#1

Bonsoir,

Je viens de vivre une mauvaise expérience à l’allumage de mon serveur n40l.
Il était éteint depuis une bonne journée.

édit : ce qui suit a coïncidé avec le premier boot du noyau mis à jour ;

Linux n40l 4.9.0-8-amd64 #1 SMP Debian 4.9.110-3+deb9u6 (2018-10-08) x86_64 GNU/Linux

J’ai entendu ces bruits caractéristiques qui m’ont fait penser à des redémarrages électriques d’un moteur d’un disque dur dès l’allumage du serveur ; et pendant quelques minutes.

Le premier boot a échoué ; j’ai branché un écran pour y voir un kernel panic et l’indication “(0,0) non trouvé”. J’ai dû faire un hard-off.

Il a fallu ensuite deux amorçages qui ont réussi tout en indiquant des erreurs ata sur la console et avec les mêmes bruits en même temps mais moins fréquents et moins forts.

Maintenant, après un autre reboot, il n’y a plus ces bruits et dmesg n’indique pas d’erreur ata.
Le RAID6 n’est pas dégradé au vu de /proc/mdstat

J’ai cependant trois disques qui présentent une diminution totale de la réserve du registre SMART High_Fly_Writes pour chacun ; En valeur brute, 700 pour sdd, 347 pour sde et 655 pour sdf.
Zéro pour les trois premiers sd[abc].

Je n’ai rien tenté de particulier pour le moment.

Il me semble que ce micro-serveur préfère tourner ou redémarrer que d’avoir à être allumé.
Je pense à une faiblesse de l’alimentation pendant et après l’appel de courant de spinup simultané des 6 disques (ST4000VN000). C’est une petite alimentation de 150 W. d’origine qui mène la danse.

J’y pensais de temps en temps, au temps des ennuis qui commencent…
Ce n40l fonctionne depuis août 2012 et presque sans interruption.

Je ne sais pas trop comment je vais aborder la situation et quels choix je vais faire.
C’est plutôt le comportement à venir de ce petit serveur qui va m’orienter.
C’est quand même bien embêtant d’envisager de le perdre avec ses données.

Si je suis sûr de mon coup, je peux probablement trouver une alimentation plus puissante.
Par contre je ne sais pas trop quels sont les conséquences pour les disques durs qui ont “couiné” vilain.

Je peux donner les infos que vous me demanderez.
Merci pour vos idées, conseils et suggestions.
Merci pour la lecture.


rem@n73sm ~/Pay closer attention to other parameters and overall drive health (High_Fly_Writes) $ ls
smartctl-a-sda  smartctl-a-sdb  smartctl-a-sdc  smartctl-a-sdd  smartctl-a-sde  smartctl-a-sdf
rem@n73sm ~/Pay closer attention to other parameters and overall drive health (High_Fly_Writes) $ cat * | grep -e ATTRIBUTE_NAME -e Reallocated_Sector_Ct -e High_Fly_Writes -e Offline_Uncorrectable -e Airflow_Temperature_Cel -e Seek_Error_Rate -e Power_On_Hours -e "LU WWN Device Id"
LU WWN Device Id: 5 000c50 066dae310
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   082   060   030    Pre-fail  Always       -       183975896
  9 Power_On_Hours          0x0032   067   067   000    Old_age   Always       -       29398
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   071   050   045    Old_age   Always       -       29 (Min/Max 28/29)
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
LU WWN Device Id: 5 000c50 066da5580
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   082   060   030    Pre-fail  Always       -       184812492
  9 Power_On_Hours          0x0032   067   067   000    Old_age   Always       -       29400
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   070   059   045    Old_age   Always       -       30 (Min/Max 28/30)
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
LU WWN Device Id: 5 000c50 09d18b311
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   076   060   045    Pre-fail  Always       -       41992422
  9 Power_On_Hours          0x0032   094   094   000    Old_age   Always       -       5659 (203 65 0)
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   072   063   040    Old_age   Always       -       28 (Min/Max 27/28)
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
LU WWN Device Id: 5 000c50 06581c9cb
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   079   060   030    Pre-fail  Always       -       8788640751
  9 Power_On_Hours          0x0032   060   060   000    Old_age   Always       -       35391
189 High_Fly_Writes         0x003a   001   001   000    Old_age   Always       -       700
190 Airflow_Temperature_Cel 0x0022   071   061   045    Old_age   Always       -       29 (Min/Max 27/29)
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
LU WWN Device Id: 5 000c50 06581d21a
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   080   060   030    Pre-fail  Always       -       104818942
  9 Power_On_Hours          0x0032   071   071   000    Old_age   Always       -       26074
189 High_Fly_Writes         0x003a   001   001   000    Old_age   Always       -       347
190 Airflow_Temperature_Cel 0x0022   067   057   045    Old_age   Always       -       33 (Min/Max 29/33)
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
LU WWN Device Id: 5 000c50 06581cc3c
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  5 Reallocated_Sector_Ct   0x0033   100   100   010    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000f   082   060   030    Pre-fail  Always       -       175114852
  9 Power_On_Hours          0x0032   067   067   000    Old_age   Always       -       29400
189 High_Fly_Writes         0x003a   001   001   000    Old_age   Always       -       655
190 Airflow_Temperature_Cel 0x0022   070   051   045    Old_age   Always       -       30 (Min/Max 27/30)
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
rem@n73sm ~/Pay closer attention to other parameters and overall drive health (High_Fly_Writes) $ 

registres SMART complets - n40l sd[abcdef] - 17 nov. 2018

smartctl -a sda - n40l - 17 nov. 2018
smartctl -a sdb - n40l - 17 nov. 2018
smartctl -a sdc - n40l - 17 nov. 2018
smartctl -a sdd - n40l - 17 nov. 2018
smartctl -a sde - n40l - 17 nov. 2018
smartctl -a sdf - n40l - 17 nov. 2018


#2

Bonjour,

J’ai décidé d’arrêter ce micro-serveur sous Debian. Déjà, il est bon à dépoussiérer.
Mes sauvegardes prioritaires sont faites ; mon portable est plein comme un œuf.

Je vais probablement continuer de regarder les offres pour acheter un bloc d’alimentation.

Mais je ne suis pas certain de vouloir vraiment poursuivre cette “aventure” NAS ;
C’était disproportionné par rapport à l’utilisation qui en était faite.
Il y a quand même un coût non négligeable pour faire durer un gros stockage.

Je suis donc séparé de mes bibliothèques AV ; reste à voir l’effet que ça va me faire…
Et je n’ai donc plus de Debian active ; je vais penser à me faire une VM.

Un peu de lecture sur tablette va certainement me faire du bien :slight_smile:

édit :
entre ces deux offres
https://www.ebay.fr/itm/Power-Supply-for-HP-Proliant-G7-N54L-N40L-N36L-DPS-150TB-630295-001-620827-001-/153166210335
https://www.amazon.com/gp/product/B07D2NWJJR/
J’ai commandé la moins chère, la deuxième.
Je verrai bien…

édit :
Ces deux modèles d’alimentation n’ont pas le ventilateur interne placé au même endroit d’après les photos
Côté intérieur pour la première offre et côté extérieur pour la deuxième.
Pour ce point, je préfère avoir le ventilateur côté extérieur.

J’espère ne pas me tromper dans mon achat…

Si le modèle dit 350 Watts que j’ai choisi a un mauvais rendement, j’aurai vite dépensé en électricité la vingtaine d’euros d’économie à l’achat ; c’est pas évident de choisir une offre.

J’ai eu la référence 658553-421 de livrée pour le n40l.


#3

salut
ca ne semble pas totalement rédhibitoire
https://kb.acronis.com/content/9124

apparemment les têtes qui ont disjonctées un coup :joy: elles devaient être coincées, ça leur a dégagé les bronches :grin:

si tu as sauvegardé, c’est simplement à surveiller


#4

salut

oui, j’ai bien entendu des bruits de bras pas ordinaires avec un léger cliquetis.

ma sauvegarde ne concerne que les éléments ayant un caractère personnel.

j’ai voulu allumer le serveur ce matin et il n’y a eu aucun souci audible ni visible sur la console ni dans dmesg ensuite et jusqu’à présent.

j’ai mis en place une surveillance qui m’envoie un mail toutes les 3 heures avec le contenu de
# smartctl --health --attributes device
en 6 pièces-jointes, une par disque. (c’est facile à lire en PJ)

j’ai quand même les boules - surtout que je n’ai pas de certitude sur la cause ;
et moi aussi j’ai une bronchite…

je ne vois rien d’autre comme cause qu’un rapport à l’alimentation ; elle-même ou une connectique.
j’ai un des disques en volant, posé sur un isolant électrique creux et léger sur le dessus du n40l ;
normalement, ça ne bouge pas.

Merci pour ton humour :slight_smile:

Édit : caractéristiques de l’alimentation choisie

KDM-MFX9350

édition du 6 décembre :

Elle n’est pas dimensionnée correctement pour remplacer une HP P/N:630295-001 qui elle coulisse bien.
Il faut exercer une très forte pression pour l’insérer !
Je pense que ce bloc ne sortirai pas du logement même en suspendant verticalement 10 kg !
Genre il faut oublier de pouvoir l’enlever… ou alors prévoir des ancrages et le faire à deux.
Va-t’elle réduire à la cuisson ?
Le trou de vissage supérieur n’est pas aligné.
Je la juge mécaniquement incompatible avec le n40l 658553-421
Pour le bruit ça va ; pour la différence de consommation, je n’ai pas pris de référence à l’ampèremètre…
La distribution des lignes de Molex est identique.
Mauvaise affaire pour ce bloc qui coince si fort !
Ne pas oublier de commuter sur 230 V

C’est plutôt bien remonté avec, tout propre et ça tourne comme avant.
Les High_Fly_Writes ont augmenté très légèrement mais ça remonte à juste après ma note du 17 nov.
Je continue donc de surveiller avec les mails.