Debian squeeze ralenti - IOwait à 100% par intermittence

Bonjour à tous,

c’est mon premier post sur ce forum et c’est bien évidemment pour un problème que je fais appel à vous.
J’espère arriver à vous fournir les infos nécessaires à l’identification, voire la résolution du problème.

Voilà, depuis qq jours, ma Debian6 est devenue lente, le moniteur système montre des pics d’IOwait à 100% par intermittence.
Inutile de vous dire que c’est complètement corréler avec les “gels” du système.
Ouvrir un petit fichier texte dans VI peut prendre jusqu’à 10 secondes, c’est assez énervant pour travailler…

Mon PC est un portable Dell Latitude E6420, qui n’a que 6 mois.

$ uname -a Linux HOSTNAME 3.2.0-0.bpo.2-amd64 #1 SMP Mon Apr 23 08:38:01 UTC 2012 x86_64 GNU/Linux

$ lspci 00:00.0 Host bridge: Intel Corporation Sandy Bridge DRAM Controller (rev 09) 00:01.0 PCI bridge: Intel Corporation Sandy Bridge PCI Express Root Port (rev 09) 00:16.0 Communication controller: Intel Corporation Cougar Point HECI Controller #1 (rev 04) 00:19.0 Ethernet controller: Intel Corporation 82579LM Gigabit Network Connection (rev 04) 00:1a.0 USB Controller: Intel Corporation Cougar Point USB Enhanced Host Controller #2 (rev 04) 00:1b.0 Audio device: Intel Corporation Cougar Point High Definition Audio Controller (rev 04) 00:1c.0 PCI bridge: Intel Corporation Cougar Point PCI Express Root Port 1 (rev b4) 00:1c.1 PCI bridge: Intel Corporation Cougar Point PCI Express Root Port 2 (rev b4) 00:1c.2 PCI bridge: Intel Corporation Cougar Point PCI Express Root Port 3 (rev b4) 00:1c.3 PCI bridge: Intel Corporation Cougar Point PCI Express Root Port 4 (rev b4) 00:1c.5 PCI bridge: Intel Corporation Cougar Point PCI Express Root Port 6 (rev b4) 00:1d.0 USB Controller: Intel Corporation Cougar Point USB Enhanced Host Controller #1 (rev 04) 00:1f.0 ISA bridge: Intel Corporation Cougar Point LPC Controller (rev 04) 00:1f.2 RAID bus controller: Intel Corporation Mobile 82801 SATA RAID Controller (rev 04) 00:1f.3 SMBus: Intel Corporation Cougar Point SMBus Controller (rev 04) 01:00.0 VGA compatible controller: nVidia Corporation Device 1056 (rev a1) 01:00.1 Audio device: nVidia Corporation Device 0e08 (rev a1) 03:00.0 Network controller: Intel Corporation Centrino Ultimate-N 6300 (rev 35) 0b:00.0 SD Host controller: O2 Micro, Inc. Device 8221 (rev 05) 0b:00.1 Mass storage controller: O2 Micro, Inc. Device 8231 (rev 03)
J’ai regardé les processus qui pourraient poser problème.

# iotop -ako 265 be/3 root 0.00 K 25384.00 K 0.00 % 15.91 % [jbd2/sda1-8] 1093 be/3 root 0.00 K 90824.00 K 0.00 % 13.75 % [jbd2/sda6-8] 1352 be/4 root 0.00 K 532.00 K 0.00 % 0.67 % tinyproxy 1278 be/4 root 1056.00 K 0.00 K 0.00 % 0.66 % [flush-8:0]
Cela ressemble à un problème de disque dur.
Disk Utility m’indique 17 secteurs défectueux, ce qui est peu je crois.
Cependant, en bootant avec un LiveCD Ubuntu 12.04, j’ai lancé des tests sur le disque dur.

# e2fsck -cfpv /dev/sda
Rien à signaler.

# badblocks -nvs
RAS.

J’ai fait un test de vitesse de lecture, dont les résultats sont faibles, mais variables.

# for i in `seq 5`; do hdparm -t /dev/sda ; done /dev/sda: Timing buffered disk reads: 2 MB in 4.43 seconds = 462.60 kB/sec /dev/sda: Timing buffered disk reads: 2 MB in 4.39 seconds = 466.32 kB/sec /dev/sda: Timing buffered disk reads: 50 MB in 3.01 seconds = 16.59 MB/sec /dev/sda: Timing buffered disk reads: 2 MB in 4.38 seconds = 467.75 kB/sec /dev/sda: Timing buffered disk reads: 2 MB in 4.38 seconds = 467.50 kB/sec

Plus d’infos sur le disque dur.

[code]# fdisk -l
Disk /dev/sda: 320.1 GB, 320072933376 bytes
255 heads, 63 sectors/track, 38913 cylinders
Units = cylinders of 16065 * 512 = 8225280 bytes
Sector size (logical/physical): 512 bytes / 512 bytes
I/O size (minimum/optimal): 512 bytes / 512 bytes
Disk identifier: 0x0002ebbc

Device Boot Start End Blocks Id System
/dev/sda1 1 2675 21483520 83 Linux
/dev/sda2 2675 38914 291085313 5 Extended
/dev/sda5 2675 3648 7811072 82 Linux swap / Solaris
/dev/sda6 3648 38914 283273216 83 Linux
[/code]

[code]# hdparm -I /dev/sda
/dev/sda:

ATA device, with non-removable media
Model Number: TOSHIBA MK3261GSYN
Serial Number: 71TBT0X9T
Firmware Revision: MH000D
Transport: Serial, ATA8-AST, SATA 1.0a, SATA II Extensions, SATA Rev 2.5, SATA Rev 2.6
Standards:
Supported: 8 7 6 5
Likely used: 8
Configuration:
Logical max current
cylinders 16383 16383
heads 16 16
sectors/track 63 63

CHS current addressable sectors: 16514064
LBA user addressable sectors: 268435455
LBA48 user addressable sectors: 625142448
Logical Sector size: 512 bytes
Physical Sector size: 512 bytes
device size with M = 10241024: 305245 MBytes
device size with M = 1000
1000: 320072 MBytes (320 GB)
cache/buffer size = 16384 KBytes
Form Factor: 2.5 inch
Nominal Media Rotation Rate: 7200
Capabilities:
LBA, IORDY(can be disabled)
Queue depth: 32
Standby timer values: spec’d by Standard, no device specific minimum
R/W multiple sector transfer: Max = 16 Current = 16
Advanced power management level: 128
Recommended acoustic management value: 254, current value: 254
DMA: sdma0 sdma1 sdma2 mdma0 mdma1 mdma2 udma0 udma1 udma2 udma3 udma4 *udma5
Cycle time: min=120ns recommended=120ns
PIO: pio0 pio1 pio2 pio3 pio4
Cycle time: no flow control=120ns IORDY flow control=120ns
Commands/features:
Enabled Supported:
* SMART feature set
Security Mode feature set
* Power Management feature set
* Write cache
* Look-ahead
* Host Protected Area feature set
* WRITE_BUFFER command
* READ_BUFFER command
* NOP cmd
* DOWNLOAD_MICROCODE
* Advanced Power Management feature set
SET_MAX security extension
Automatic Acoustic Management feature set
* 48-bit Address feature set
* Device Configuration Overlay feature set
* Mandatory FLUSH_CACHE
* FLUSH_CACHE_EXT
* SMART error logging
* SMART self-test
* General Purpose Logging feature set
* WRITE_{DMA|MULTIPLE}_FUA_EXT
* 64-bit World wide name
* IDLE_IMMEDIATE with UNLOAD
* WRITE_UNCORRECTABLE_EXT command
* {READ,WRITE}_DMA_EXT_GPL commands
* Segmented DOWNLOAD_MICROCODE
* Gen1 signaling speed (1.5Gb/s)
* Gen2 signaling speed (3.0Gb/s)
* Native Command Queueing (NCQ)
* Host-initiated interface power management
* Phy event counters
* Idle-Unload when NCQ is active
* unknown 76[13]
* unknown 76[14]
* DMA Setup Auto-Activate optimization
Device-initiated interface power management
* Software settings preservation
* SMART Command Transport (SCT) feature set
* SCT LBA Segment Access (AC2)
* SCT Error Recovery Control (AC3)
* SCT Features Control (AC4)
* SCT Data Tables (AC5)
Security:
Master password revision code = 65534
supported
not enabled
not locked
frozen
not expired: security count
supported: enhanced erase
74min for SECURITY ERASE UNIT. 74min for ENHANCED SECURITY ERASE UNIT.
Logical Unit WWN Device Identifier: 5000039361509915
NAA : 5
IEEE OUI : 000039
Unique ID : 361509915
Checksum: correct
[/code]

Voilà, je m’arrête là pour la description du problème.
J’ai peur que ce soit la fin de mon disque dur, mais si par hasard, cela pouvait se régler sans le changer ce serait pas mal.

Merci d’avance pour votre aide et bonne journée.

il faudrait faire un diagnostic avec smartctl -H /dev/sda (paquet smartmontools)

Merci pour ta réponse.

[code]# smartctl -H /dev/sda
smartctl 5.41 2011-06-09 r3365 [x86_64-linux-3.2.0-0.bpo.2-amd64] (local build)
Copyright © 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED
[/code]
Ca a pris une seconde, c’est normal ?
Ou alors faut-il lancer cette commande lorsque le disque n’est pas monté ?

c’est juste une lecture des infos du disque (son état à l’instant T), il y a d’autres fonctions, comme les tests de surface intégrés au disque.

le plus pratique c’est d’installer une GUI pour smartmontools : gsmartcontrol

comme ça tu pourras lancer un test long pour un résultat plus précis

77 minutes plus tard, voilà le log du test étendu en fin de post.
Chose surprenante, pendant le test, tout revient à la normale :

  • plus d’IOwait du tout
  • le système est aussi rapide qu’avant
    Par contre, une fois fini, je retrouve le problème.
    J’en ai relancer un, juste pour profiter d’un système normal.
    Mais je vais pas lancer des tests non-stop pour utiliser ma machine quand même…
    A votre avis, d’où ça vient ?

[code]smartctl 5.41 2011-06-09 r3365 [x86_64-linux-3.2.0-0.bpo.2-amd64] (local build)
Copyright © 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF INFORMATION SECTION ===
Device Model: TOSHIBA MK3261GSYN
Serial Number: 71TBT0X9T
LU WWN Device Id: 5 000039 361509915
Firmware Version: MH000D
User Capacity: 320,072,933,376 bytes [320 GB]
Sector Size: 512 bytes logical/physical
Device is: Not in smartctl database [for details use: -P showall]
ATA Version is: 8
ATA Standard is: Exact ATA specification draft version not indicated
Local Time is: Thu May 24 22:45:04 2012 CEST
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART overall-health self-assessment test result: PASSED

General SMART Values:
Offline data collection status: (0x00) Offline data collection activity
was never started.
Auto Offline Data Collection: Disabled.
Self-test execution status: ( 0) The previous self-test routine completed
without error or no self-test has ever
been run.
Total time to complete Offline
data collection: ( 120) seconds.
Offline data collection
capabilities: (0x5b) SMART execute Offline immediate.
Auto Offline data collection on/off support.
Suspend Offline collection upon new
command.
Offline surface scan supported.
Self-test supported.
No Conveyance Self-test supported.
Selective Self-test supported.
SMART capabilities: (0x0003) Saves SMART data before entering
power-saving mode.
Supports SMART auto save timer.
Error logging capability: (0x01) Error logging supported.
General Purpose Logging supported.
Short self-test routine
recommended polling time: ( 2) minutes.
Extended self-test routine
recommended polling time: ( 77) minutes.
SCT capabilities: (0x003d) SCT Status supported.
SCT Error Recovery Control supported.
SCT Feature Control supported.
SCT Data Table supported.

SMART Attributes Data Structure revision number: 128
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000b 100 100 050 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 100 100 001 Pre-fail Always - 1228
5 Reallocated_Sector_Ct 0x0033 100 100 050 Pre-fail Always - 17
9 Power_On_Hours 0x0032 097 097 000 Old_age Always - 89261
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 413
191 G-Sense_Error_Rate 0x0032 100 100 000 Old_age Always - 53
192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always - 29
193 Load_Cycle_Count 0x0032 090 090 000 Old_age Always - 103371
194 Temperature_Celsius 0x0022 100 100 000 Old_age Always - 45 (Min/Max 13/46)
199 UDMA_CRC_Error_Count 0x0032 100 100 000 Old_age Always - 8581862
200 Multi_Zone_Error_Rate 0x0032 100 100 000 Old_age Always - 30580945
240 Head_Flying_Hours 0x0032 098 098 000 Old_age Always - 63724
241 Total_LBAs_Written 0x0032 100 100 000 Old_age Always - 2806205628
242 Total_LBAs_Read 0x0032 100 100 000 Old_age Always - 3879598022
254 Free_Fall_Sensor 0x0032 100 100 000 Old_age Always - 3

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error

1 Extended offline Completed without error 00% 1487 -

2 Short offline Completed without error 00% 1481 -

3 Extended offline Completed without error 00% 1394 -

4 Short offline Completed without error 00% 1386 -

5 Short offline Completed without error 00% 1385 -

6 Short offline Completed without error 00% 1384 -

7 Extended offline Completed without error 00% 1372 -

8 Extended offline Completed without error 00% 1361 -

9 Short offline Completed without error 00% 1346 -

#10 Extended offline Interrupted (host reset) 60% 41 -
#11 Short offline Completed without error 00% 41 -
#12 Short offline Completed without error 00% 1 -

SMART Selective self-test log data structure revision number 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Selective self-test flags (0x0):
After scanning selected spans, do NOT read-scan remainder of disk.
If Selective self-test is pending on power-up, resume after 0 minute delay.
[/code]

La bonne nouvelle c’est que ton disque n’est pas en train de mourir :stuck_out_tongue:

il faudrait voir avec une autre distro récente si le problème est présent

Si mon disque n’est pas mort, c’est toujours ça.

Donc en fait, tu me suggères d’installer Ubuntu 12.04 (ou Debian Wheezy par exemple) à la place de Debian Squeeze. Je peux tenter avec un LiveCD en montant mon DD à partir de la session Live pour faire le test ?

Mais pourquoi donc, subitement, le système ne gère pas bien les IO ou le disque dur ?
Il y a surement quelque chose qui s’est passé au niveau hardware ou software, non ?

Merci pour votre aide.

Il faudrait savoir si tu as fait des mises à jour dernièrement, ou trafiqué quelques fichiers de conf…

Bonjour,

désolé pour le manque de retour, dure semaine…

Concernant les fichiers de conf, je n’avais rien modifié.
Je fais régulièrement des mises à jour, donc il y a des chances que ce soit lié à ça.

J’ai pu refaire un test hdparm à partir d’un LiveCD Ubuntu 12.04, qui montre que tout va bien pour le disque.

[code]# for i in seq 5 ; do hdparm -t /dev/sda ; done

/dev/sda:
Timing buffered disk reads: 326 MB in 3.01 seconds = 108.25 MB/sec

/dev/sda:
Timing buffered disk reads: 326 MB in 3.01 seconds = 108.20 MB/sec

/dev/sda:
Timing buffered disk reads: 326 MB in 3.01 seconds = 108.30 MB/sec

/dev/sda:
Timing buffered disk reads: 326 MB in 3.01 seconds = 108.32 MB/sec

/dev/sda:
Timing buffered disk reads: 326 MB in 3.01 seconds = 108.36 MB/sec[/code]

J’ai réinstallé ma Debian dans le doute d’avoir par erreur modifié la config, mais le problème est toujours présent.

Ma conclusion pour l’instant, est que ça doit être dû à la mise à jour d’un paquet qui vient perturber le système. Je vais chercher du côté des laptop-mode-tools et cie.