Bloquage système et erreur récurrente : ata2: COMRESET failed (errno=-16)

Bonjour,
Env : STRETCH…

Depuis quelques temps j’ai une erreur au boot qui m’empêche de démarrer le pc :

févr. 07 10:34:51 cattenom kernel: ata2: COMRESET failed (errno=-16)
févr. 07 10:34:51 cattenom kernel: ata2: COMRESET failed (errno=-16)

A la fin de la séquence de boot il est demandé d’édité : journalctl -xb
Suite à cela, le pc redémarre correctement…

Après recherche, j’ai isolé le disque / comme étant le problème “Potentiel” puis :

fsck.ext4 -yfv -C0 /dev/sda2

/root % fsck.ext4 -yfv -C0 /dev/sda2
e2fsck 1.43.6 (29-Aug-2017)
Pass 1: Checking inodes, blocks, and sizes
Pass 2: Checking directory structure
Pass 3: Checking directory connectivity
Pass 4: Checking reference counts
Pass 5: Checking group summary information

  186527 inodes used (2.57%, out of 7266304)
      82 non-contiguous files (0.0%)
     193 non-contiguous directories (0.1%)
         # of inodes with ind/dind/tind blocks: 0/0/0
         Extent depth histogram: 169031/50
 1913158 blocks used (6.58%, out of 29060864)
       0 bad blocks
       1 large file

  153290 regular files
   15258 directories
       7 character device files
       0 block device files
       0 fifos
      30 links
   17962 symbolic links (17430 fast symbolic links)
       1 socket

  186548 files 

Mais les choses ne sembles pas s’arrangés et le problème se déplace apparemment :

root@cattenom:/home/irena# cat /var/log/messages | grep error
Feb 4 09:34:11 cattenom kernel: [ 950.169592] buffer_io_error: 44 callbacks suppressed
Feb 4 10:12:56 cattenom kernel: [ 2.088465] EXT4-fs (sda2): re-mounted. Opts: errors=remount-ro
Feb 4 10:21:35 cattenom kernel: [ 521.625437] sd 1:0:0:0: [sdb] tag#18 Add. Sense: Unrecovered read error - auto reallocate failed
Feb 4 10:21:38 cattenom kernel: [ 524.600659] sd 1:0:0:0: [sdb] tag#24 Add. Sense: Unrecovered read error - auto reallocate failed
Feb 4 10:26:39 cattenom kernel: [ 825.254370] sd 1:0:0:0: [sdb] tag#17 Add. Sense: Unrecovered read error - auto reallocate failed
Feb 4 10:26:42 cattenom kernel: [ 828.379217] sd 1:0:0:0: [sdb] tag#21 Add. Sense: Unrecovered read error - auto reallocate failed

J’ai tenté une installation sur un nouveau dd, problème identique.
Dois-je en déduire une défaillance de CM ?
ou plutôt un problème avec le kernel ? (je n’ai pas le souvenir d’une MAJ récente… )

Une MAJ du bios ne semble pas règler ce problème

Merci pour votre aide au possible.

Regarde les dates, ces erreurs sont antérieures de plusieurs jours.

Le motif de ton grep (UUoC en passant) est trop restrictif, tu vois bien qu’il ne prend pas les erreurs COMRESET.

Il s’agit d’erreurs matérielles d’accès disque. fsck ne corrige que les erreurs logiques du système de fichiers et n’a aucune efficacité contre les erreurs d’accès disque. Bien au contraire il risque d’aggraver les choses en provoquant une corruption du système de fichiers.

La cause peut être n’importe où dans la carte mère, le contrôleur SATA, le port SATA, le cable de liaison de données, l’alimentation, le pilote du noyau… a priori pas le disque si tu l’as remplacé (ou alors tu n’as pas de chance de tomber sur deux disques défectueux coup sur coup).

Il y a eu une mise à jour du noyau le mois dernier. Dans les options avancées du menu de GRUB, il doit y avoir un noyau -5 (le dernier) et un noyau -4 (le précédent). Teste si le problème se produit aussi avec le noyau -4.

Il y a combien de disques dans la machine ?
Les messages du 4 février mentionnent le remontage de sda2 (racine) puis des erreurs de lecture avec sdb quelques minutes plus tard. Est-ce le même disque qui a changé de nom entretemps ?

Il y 6 disques dans la machine.
En faisant un df -h, je m’appercois que maintenant je perds mon disque /home

Comment ça, “perds” ?

Mon dd /Home n’apparaît plus (sdb)

Si deux disques présents sont affectés, alors à moins que tu aies interverti les ports SATA ou les câbles de ces deux disques, le problème vient probablement d’un autre élément : chipset de la carte mère, pilote du noyau, alimentation faiblissante.

Je viens de changer de CM + Proc…

Problème identique :frowning:

Quelle version de noyau ?

Je suis sur le -4, mais la dernière version (-5) n’améliore pas non plus.
Dans le doute , a cet instant (ca fonctionne à nouveau…), je ne fais plus d’update.

Avec une CM neuve + Proc + RAM , il ne me reste plus que l’alim à changer , après, mise à part une défaillance de mes DD je ne vois plus quoi faire.