Hard Disk Health Warning

Bonjour,

ce message me poursuit depuis des semaines (je n’ai pas eu de temps pour m’en occuper).

Je n’ai pas osé redémarrer avant de savoir ce qu’il faut en faire.

Lorsque je fait apt upgrade, j’ai aussi systématiquement un message me demandant de redémarrer
(Debian 12 - bookworm)

This message was generated by the smartd daemon running on:

   host name:  Leopard
   DNS domain: XXXXX

The following warning/error was logged by the smartd daemon:

Device: /dev/sda [SAT], failed to read SMART Attribute Data
Device info:
TOSHIBA MQ03UBB200, S/N:471BT81UT, WWN:0-000000-000000000, FW:JP050U, 2.00 TB

For details see host's SYSLOG.

You can also use the smartctl utility for further investigation.
Another message will be sent in 24 hours if the problem persists.

Device info:
TOSHIBA MQ03UBB200, S/N:471BT81UT, WWN:0-000000-000000000, FW:JP050U, 2.00 TB

For details see host's SYSLOG.

You can also use the smartctl utility for further investigation.
Another message will be sent in 24 hours if the problem persists.

et tu as quoi dans dmesg et syslog/journald?

Et que donne une analyse via smartctl ?

smartctl

Merci à tous les deux. Je dors assis, je reviens demain après avoir pris vos réponses en compte

J’ai fait une erreur:

le message récurrent ne concerne pas (pas seulement?) sda (un volume USB absent actuellement), mais les 2 SSD internes:

/dev/nvme0, number of Error Log entries increased from 2410 to 2411

et

Device: /dev/nvme1, number of Error Log entries increased from 2409 to 2410

This message was generated by the smartd daemon running on:

   host name:  Leopard
   DNS domain: XXXXX

The following warning/error was logged by the smartd daemon:

Device: /dev/nvme0, number of Error Log entries increased from 2410 to 2411

Device info:
CT4000P3PSSD8, S/N:2331E86580DB, FW:P9CR40A

For details see host's SYSLOG.

You can also use the smartctl utility for further investigation.
The original message about this issue was sent at Sat May 31 09:20:03 2025 CEST
Another message will be sent in 24 hours if the problem persists.

Je n’ai rien trouvé (mais que chercher?) dans syslog.

Dans dmesg:

sudo dmesg | egrep -iA6 nvme
[6826565.196834] nvme nvme0: 8/0/0 default/read/poll queues
[6826565.199595] nvme nvme0: Ignoring bogus Namespace Identifiers
[6826565.199915] nvme nvme1: 8/0/0 default/read/poll queues
[6826565.221629] nvme nvme1: Ignoring bogus Namespace Identifiers
[6826566.392212] mei_hdcp 0000:00:16.0-b638ab7e-94e2-4ea2-a552-d1c54b627f04: bound 0000:00:02.0 (ops i915_hdcp_component_ops [i915])
[6826566.393018] OOM killer enabled.
[6826566.393023] Restarting tasks ... done.
[6826566.401516] random: crng reseeded on system resumption
[6826566.433146] PM: suspend exit
[6826566.527227] Generic FE-GE Realtek PHY r8169-0-2e00:00: attached PHY driver (mii_bus:phy_addr=r8169-0-2e00:00, irq=MAC)

des erreurs dans plein de disques ?!

  • vérifie puis essaie de changer les fils ( des bestioles dans ton ordis? )
  • essaie de faire des smartctl en mettant les disque sur un autre ordi
$sudo smartctl -l error /dev/nvme0n1
smartctl 7.3 2022-02-28 r5338 [x86_64-linux-6.1.0-37-amd64] (local build)
Copyright (C) 2002-22, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF SMART DATA SECTION ===
Error Information (NVMe Log 0x01, 16 of 16 entries)
Num   ErrCount  SQId   CmdId  Status  PELoc          LBA  NSID    VS
  0       2412     0  0xf00f  0x4005  0x028            0     0     -

et

$sudo smartctl -l error /dev/nvme1n1
smartctl 7.3 2022-02-28 r5338 [x86_64-linux-6.1.0-37-amd64] (local build)
Copyright (C) 2002-22, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF SMART DATA SECTION ===
Error Information (NVMe Log 0x01, 16 of 16 entries)
Num   ErrCount  SQId   CmdId  Status  PELoc          LBA  NSID    VS
  0       2411     0  0xc00a  0x4005  0x028            0     0     -

Merci Dindoun, mais ça dépasse mes compétences.

Peux tu donner le résultat complet de
smartctl -a /dev/nvme0n1
(sous root)?

Merci fran.b

$sudo smartctl -a /dev/nvme0n1
smartctl 7.3 2022-02-28 r5338 [x86_64-linux-6.1.0-37-amd64] (local build)
Copyright (C) 2002-22, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Number:                       CT4000P3PSSD8
Serial Number:                      2331E86580DB
Firmware Version:                   P9CR40A
PCI Vendor/Subsystem ID:            0xc0a9
IEEE OUI Identifier:                0x00a075
Controller ID:                      1
NVMe Version:                       1.4
Number of Namespaces:               1
Namespace 1 Size/Capacity:          4 000 787 030 016 [4,00 TB]
Namespace 1 Formatted LBA Size:     512
Namespace 1 IEEE EUI-64:            6479a7 7f60000050
Local Time is:                      Wed Sep 24 11:03:51 2025 CEST
Firmware Updates (0x12):            1 Slot, no Reset required
Optional Admin Commands (0x0017):   Security Format Frmw_DL Self_Test
Optional NVM Commands (0x005e):     Wr_Unc DS_Mngmt Wr_Zero Sav/Sel_Feat Timestmp
Log Page Attributes (0x06):         Cmd_Eff_Lg Ext_Get_Lg
Maximum Data Transfer Size:         64 Pages
Warning  Comp. Temp. Threshold:     85 Celsius
Critical Comp. Temp. Threshold:     95 Celsius

Supported Power States
St Op     Max   Active     Idle   RL RT WL WT  Ent_Lat  Ex_Lat
 0 +     6.00W  0.0000W       -    0  0  0  0        0       0
 1 +     3.00W  0.0000W       -    0  0  0  0        0       0
 2 +     1.50W  0.0000W       -    0  0  0  0        0       0
 3 -   0.0250W  0.0000W       -    3  3  3  3     5000    1900
 4 -   0.0030W       -        -    4  4  4  4    13000  100000

Supported LBA Sizes (NSID 0x1)
Id Fmt  Data  Metadt  Rel_Perf
 0 +     512       0         1
 1 -    4096       0         0

=== START OF SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

SMART/Health Information (NVMe Log 0x02)
Critical Warning:                   0x00
Temperature:                        31 Celsius
Available Spare:                    100%
Available Spare Threshold:          5%
Percentage Used:                    2%
Data Units Read:                    65 209 718 [33,3 TB]
Data Units Written:                 24 286 893 [12,4 TB]
Host Read Commands:                 307 916 017
Host Write Commands:                406 768 297
Controller Busy Time:               3 503
Power Cycles:                       208
Power On Hours:                     14 459
Unsafe Shutdowns:                   78
Media and Data Integrity Errors:    0
Error Information Log Entries:      2 413
Warning  Comp. Temperature Time:    0
Critical Comp. Temperature Time:    0
Temperature Sensor 1:               31 Celsius
Temperature Sensor 2:               45 Celsius
Temperature Sensor 8:               31 Celsius

Error Information (NVMe Log 0x01, 16 of 16 entries)
Num   ErrCount  SQId   CmdId  Status  PELoc          LBA  NSID    VS
  0       2413     0  0x7010  0x4005  0x028            0     0     -

IL y a pas mal d’erreur sur le disque. Ce n’est pas bon signe. Sur mes 4 disques nvme je n’ai aucun log d’erreur pour des niveau d’utilisation allant de 25 à 190 TB en lecture et de 1 à 25 TB d’écriture.

Il faudrait avoir un détail de ces logs d’erreurs avec:

smartctl -l error /dev/nvme0n1

Voici le syslog d’aujourd’hui
(sudo cat /var/log/syslog | grep -E --color=never ^2025-09-24)
syslog_2025-09-24.txt (370,9 Ko)

PS
il n’y a aucun volume branché sur /dev/sda

Les tests smartctl -a /dev/sdb et smartctl -a /dev/sdc renvoient «No Errors Logged»
(info sans doute utile pour Dindoun)

salut
j’ai aussi mes habitudes de lecture :
peux-tu donner le résultat de

for devsd in $(blkid |grep 'TYPE="ext'|sed 's#[0-9]\:.*##'|sort -u);do echo $devsd ; date ; smartctl -t short $devsd ; done ; sleep 4m; for devsd in $(blkid |grep 'TYPE="ext'|sed 's#[0-9]\:.*##'|sort -u);do echo $devsd ; smartctl -A $devsd |grep "Power_On_Hours" |sed "s#.* \([0-9]*\)#\1 heures#" ; smartctl -H $devsd ;smartctl --quietmode=errorsonly --all $devsd ; done

issu de

Ca ne marche pas bien ton script s’il y a du LVM :slight_smile:
Tu ne peux pas faire un smartctl sur une partition; uniquement sur des disques.

En effet, je cherchais en vain à appliquer la recommandation (-d)qui suit l’échec:

/dev/mapper/VG0-Eric:: Unable to detect device type
Please specify device type with the -d option.

Use smartctl -h to get a usage summary

Je vais essayer de décomposer cette commande pour qu’elle fonctionne sur /dev/nvme* au lieu des /dev/mapper/*

C’est parce que la liste est faite à partir de lsblk; pour ça il faut filtrer avec la colonne TYPE=disk:

# lsblk
NAME                                          MAJ:MIN RM   SIZE RO TYPE  MOUNTPOINTS
sda                                             8:0    0 894,3G  0 disk  
sdb                                             8:16   0 894,3G  0 disk  
nvme3n1                                       259:0    0   1,8T  0 disk  
└─nvme3n1p1                                   259:4    0   1,8T  0 part  
  └─nvme3n1p1_crypt                           253:1    0   1,8T  0 crypt 
    └─vg01-home                               253:10   0   2,3T  0 lvm   /home

non, c’est blkkid

$sudo blkid |grep 'nvme'|sed 's#[0-9]\:.*##'|sort -u
/dev/nvme0n1p
/dev/nvme1n1p

Mais:

s$for devsd in $(sudo blkid |grep 'nvme'|sed 's#[0-9]\:.*##'|sort -u);do echo $devsd ; date ; sudo smartctl -t short $devsd ; done ; sleep 4m; for devsd in $(sudo blkid |grep 'TYPE="ext'|sed 's#[0-9]\:.*##'|sort -u);do echo $devsd ; sudo smartctl -A $devsd |grep "Power_On_Hours" |sed "s#.* \([0-9]*\)#\1 heures#" ; sudo smartctl -H $devsd ;sudo smartctl --quietmode=errorsonly --all $devsd ; done 2>&1 >> HardDiskHealthWarning_dindoun.list
/dev/nvme0n1p
mer. 24 sept. 2025 15:45:29 CEST
smartctl 7.3 2022-02-28 r5338 [x86_64-linux-6.1.0-37-amd64] (local build)
Copyright (C) 2002-22, Bruce Allen, Christian Franke, www.smartmontools.org

Smartctl open device: /dev/nvme0n1p failed: No such device
/dev/nvme1n1p
mer. 24 sept. 2025 15:45:29 CEST
smartctl 7.3 2022-02-28 r5338 [x86_64-linux-6.1.0-37-amd64] (local build)
Copyright (C) 2002-22, Bruce Allen, Christian Franke, www.smartmontools.org

Smartctl open device: /dev/nvme1n1p failed: No such device

ça coince encore.

$sudo smartctl -t short /dev/nvme1n1
smartctl 7.3 2022-02-28 r5338 [x86_64-linux-6.1.0-37-amd64] (local build)
Copyright (C) 2002-22, Bruce Allen, Christian Franke, www.smartmontools.org

NVMe device successfully opened

Use 'smartctl -a' (or '-x') to print SMART (and more) information

Non ça ne coince pas, -t c’est une option pour faire un test, short pour un test en arrière plan.
En arrière plan ça veut dire que ça n’affiche pas de résultat.
Sachant que pour un disque NVME c’est experimental:

short - [NVMe: NEW EXPERIMENTAL SMARTCTL 7.4 FEATURE] runs the « Short » self-test for current namespace.

l’option -a c’est pour afficher les information SMART(toutes les informations).

l’option -x c’est pour afficher toues les informations SMART et NON SMART.

pour le message ^précédent:

C’est normal, le disque c’est /dev/nvme0n1, les nvmen0n1p c’est p pour partition, donc p1, p2, etc…

Je ne vois pas d’erreurs matérielles là dedans, en revanche les erreurs que tu signales (log) sont des erreurs de commandes (firmware, driver). As tu changer de noyau ou de firmware récemment? Si oui reinstalles le noyau ou le firmware précédent.

Tu as arrêté de façon impropre 73 fois ta machine, tu confirmes l’ordre de grandeur (moi c’est 14)

Merci,

je remplace la liste des boucles par simplement "/dev/nmve???" et j’envoie la liste des commandes suivante:

$for devsd in /dev/nvme??? ; do echo $devsd ; date ; sudo smartctl -t short $devsd ; done ; sleep 4m; for devsd in /dev/nvme???; do echo $devsd ; sudo smartctl -A $devsd |grep "Power_On_Hours" |sed "s#.* \([0-9]*\)#\1 heures#" ; sudo smartctl -H $devsd ; sudo smartctl --quietmode=errorsonly --all $devsd ; done/dev/nvme0n1

Voici le résultat:

mer. 24 sept. 2025 16:01:04 CEST
smartctl 7.3 2022-02-28 r5338 [x86_64-linux-6.1.0-37-amd64] (local build)
Copyright (C) 2002-22, Bruce Allen, Christian Franke, www.smartmontools.org

NVMe device successfully opened

Use ‹ smartctl -a › (or ‹ -x ›) to print SMART (and more) information

/dev/nvme1n1
mer. 24 sept. 2025 16:01:04 CEST
smartctl 7.3 2022-02-28 r5338 [x86_64-linux-6.1.0-37-amd64] (local build)
Copyright (C) 2002-22, Bruce Allen, Christian Franke, www.smartmontools.org

NVMe device successfully opened

Use ‹ smartctl -a › (or ‹ -x ›) to print SMART (and more) information

/dev/nvme0n1
smartctl 7.3 2022-02-28 r5338 [x86_64-linux-6.1.0-37-amd64] (local build)
Copyright (C) 2002-22, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

/dev/nvme1n1
smartctl 7.3 2022-02-28 r5338 [x86_64-linux-6.1.0-37-amd64] (local build)
Copyright (C) 2002-22, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED