[nfs] nombre de fils d'exécution du service lockd

survietamine · Février 20, 2016, 10:40pm

bonjour,

nous avons un serveur sous Debian 4.
Celui-ci sert de d’authentification NIS + montage NFS des dossiers personnels (homes) des “clients” semi-légers.

J’ignore pourquoi, depuis plusieurs semaines, dans les journaux, j’ai des lignes de ce style :

Jun 14 10:38:59 localhost kernel: printk: 27 messages suppressed. Jun 14 10:38:59 localhost kernel: lockd: too many open TCP sockets, consider increasing the number of nfsd threads Jun 14 10:38:59 localhost kernel: lockd: last TCP connect from 172.20.17.35:907 Jun 14 10:39:04 localhost kernel: printk: 29 messages suppressed. Jun 14 10:39:04 localhost kernel: lockd: too many open TCP sockets, consider increasing the number of nfsd threads Jun 14 10:39:04 localhost kernel: lockd: last TCP connect from 172.20.17.43:710 Jun 14 10:39:09 localhost kernel: printk: 29 messages suppressed. Jun 14 10:39:09 localhost kernel: lockd: too many open TCP sockets, consider increasing the number of nfsd threads Jun 14 10:39:09 localhost kernel: lockd: last TCP connect from 172.20.18.45:677

dans /etc/default/nfs-kernel-server, j’ai bien tenté d’augmenter le nombre de threads avec :

Mais cela n’a pas l’air d’avoir des répercussions.
Ce qui me surprend aussi, c’est les valeurs nulles sur la ligne TH de /proc/net/rpc/nfsd :

cat /proc/net/rpc/nfsd

rc 0 25020854 19157796 fh 276 0 0 0 0 io 899844043 2470085989 th 1024 0 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 ra 2048 4250593 118232 55926 31504 20253 13815 9875 7028 5546 3991 171551 net 44179842 1 44179026 3092 rpc 44177753 0 0 0 0 proc2 18 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 proc3 22 747 7259760 1383711 1570520 3464939 8436 4688207 21668847 1173194 6457 2127 172 213538 1253 556401 14950 1101 56245 90790 742 367 1989658 proc4 2 0 0 proc4ops 40 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

J’avais dans le passé pensé que c’était lié à un problème relatif au stockage car il est vrai que ce serveur avait eu un disque dur en panne et que la grappe RAID était en reconstruction.
Mais là, c’est réparé et le stockage ne semble pas surexploité :

[code]# iostat -xmd 2
Linux 2.6.18-5-vserver-686 (profil) 14.06.2010

Device: rrqm/s wrqm/s r/s w/s rMB/s wMB/s avgrq-sz avgqu-sz await svctm %util
sda 1,55 113,23 30,49 53,49 0,17 0,65 19,92 7,71 91,79 1,85 15,51

Device: rrqm/s wrqm/s r/s w/s rMB/s wMB/s avgrq-sz avgqu-sz await svctm %util
sda 0,00 8,00 9,50 3,00 0,07 0,04 18,24 1,01 80,48 23,20 29,00

Device: rrqm/s wrqm/s r/s w/s rMB/s wMB/s avgrq-sz avgqu-sz await svctm %util
sda 0,00 1085,28 3,05 517,26 0,01 5,92 23,34 98,87 163,57 1,48 76,95

Device: rrqm/s wrqm/s r/s w/s rMB/s wMB/s avgrq-sz avgqu-sz await svctm %util
sda 1,00 227,50 31,00 42,50 0,20 1,39 44,46 2,56 219,27 5,52 40,60

Device: rrqm/s wrqm/s r/s w/s rMB/s wMB/s avgrq-sz avgqu-sz await svctm %util
sda 3,96 584,16 22,77 307,92 0,18 3,27 21,37 36,59 73,69 0,93 30,89
[/code]

Si vous avez des pistes ça m’aiderait bien car là je sature un peu, d’autant qu’à chaque changement de config ça pénalise les utilisateurs :
D’avance, merci et bonne semaine.

ricardo · Février 20, 2016, 10:40pm

Bienvenue sur “debian-[size=150]fr[/size].org”

survietamine · Février 20, 2016, 10:40pm

merci pour ton message de bienvenue.
Est-ce que le ‘fr’ (de debian-fr.org) en rouge veut dire que je me suis mal exprimé en Français ?

wetaskiwin · Février 20, 2016, 10:40pm

Bonjour

Si tu pouvais traduire le titre de ton fil, Ricardo serait content.

survietamine · Février 20, 2016, 10:40pm

[quote=“wetaskiwin”]Bonjour

Si tu pouvais traduire le titre de ton fil, Ricardo serait content. [/quote]

oups, merci, j’ai remplacé “threads” par “fils d’exécution” si c’est de ça qui posait problème.

ricardo · Février 20, 2016, 10:40pm

Ne me dis pas que tu n’as pas lu le premier fil de ce forum !
http://forum.debian-fr.org/viewtopic.php?f=3&t=28179
Tiens, une devinette : que veut dire “bloqué”

survietamine · Février 20, 2016, 10:40pm

si pourtant, et je répète que je suis désolé, je ne l’ai pas fait exprès.
Ça doit venir du fait que ce terme est trop ancré dans ma tête.

wetaskiwin · Février 20, 2016, 10:40pm

Lockd… verrouillé ?

PS : Je suis facilement moqueuse, j’espère que tu ne le prendras pas mal.

survietamine · Février 20, 2016, 10:40pm

ben, c’est le nom du service, je ne pense pas qu’il faille traduire ça tout de même :\

ricardo · Février 20, 2016, 10:40pm

Non, pas de problèmes, c’est bon comme ça.
@ Westa :
Dans ma tête, “bloquer” avait le même sens que “verrouiller”, çàd ‘interdire l’accès’.

wetaskiwin · Février 20, 2016, 10:40pm

Je te présente mes excuses, j’avais compris de travers. J’espère qu’après toutes ces modifications, quelqu’un donnera une réponse à ta question.

dchost99 · Février 20, 2016, 10:40pm

c’était quoi le titre en anglais?
non, je déconne …

regarde si ce n’est pas coté /etc/sysctl.conf (la limite coté kernel? )
sysctl

http://proj.sunet.se/E2E/tcptune.html

swedish university computer network … mmm c’est en anglais …

survietamine · Février 20, 2016, 10:40pm

Merci dchost99 pour ta proposition.
J’ai déjà eu l’occasion de changer des paramètres noyau avec syctl.
Par exemple pour augmenter des valeurs hautes de la table ARP d’une passerelle ou activation/blocage du forwarding sur une seule interface.
Pour ce cas précis de NFS que je ne connais pas bien, à en lire le message d’erreur, je n’ai pas une idée précise des paramètres à vérifier dans le noyau.
J’ai tenté ceci :

# sysctl -a | grep -i rpc error: "Operation not permitted" reading key "net.ipv6.route.flush" error: "Operation not permitted" reading key "net.ipv4.route.flush" sunrpc.max_resvport = 1023 sunrpc.min_resvport = 665 sunrpc.tcp_slot_table_entries = 16 sunrpc.udp_slot_table_entries = 16 sunrpc.nlm_debug = 0 sunrpc.nfsd_debug = 0 sunrpc.nfs_debug = 0 sunrpc.rpc_debug = 0

ensuite de modifier la valeur tcp puisque c’est de ça dont il s’agit :

Cependant, j’ai toujours les messages d’erreur dans ‘syslog’ et ‘messages’, donc pas d’amélioration notable.

survietamine · Février 20, 2016, 10:40pm

finalement, je me demande si ce n’est pas depuis la migration vers Firefox 3 que le problème existe.
Avec tous les verrous posés depuis l’adoption de sqlite par Mozilla pour le stockage de l’historique et des favoris (fichier places.sqlite)…
Apparemment, je ne peux pas poser une valeur supérieure à 1024 pour RPCNFSDCOUNT.
Au delà, les utilisateurs ne peuvent plus monter le partage NFS.

Je crois que je vais plancher sur une autre solution : plusieurs serveurs NIS/NFS ou passage à LDAP/Samba.

Bonne journée.