Soucis d'instabilité avec lenny 2.6.26-686 avis requis!

salutation a tous,

je travaille donc sur DELL R710 avec une broadcom Gigabit x 4 ports, et une lenny que k’ai installé en passerelle routeur, avec un fonctionnement impecablke jusque il y a 1 semaine.

1-le système à commencé à avoir un comportement aléatoire sur le réseau…accès aux service depuis l’exterieur puis d’un coup plus d’accès, puis les periodes de non accès ont augmenté en delais, aujourd’hui plus moyen de me connecter dessus. par contre je ping de l’exterieur et de l’interieur tout les interfaces… c’est trops bizard.

2-un service chrooté (squid n°1) n’a plus voulut s’eteindre à l’extinction du serveur, le second dans le même cas seteind parfaitement, j’usqua ce matin, ou apres un reboot, les squid ne voulaient plus rien savoir. (killing remaining process : FAILED).
du coup le pid reste polluer le disque et ne redemmarre pas.

3-chaque prison avait son sshd, qui lui fonctionne tres bien… de l’interieur, mais plus moyen d’y accédé de l’exterieur. pas même le sshd global. le service webmin ne marche plus non plus… tout ca a commencé a la suite d’un week end. ( et peut être de l’install clamav, mais je ne vois pas en quoi il peut être la source de ses ennuis là).

mes fichiers de config réseau sont les mêmes, y a pas de cloisonnement sur le switch. c’estvraiment étrange.

Ca veux dire quoi se chmilblic ?
quelqu’un a déjà vécu ca ?
je veux dire un systeme qui chute sans aucune explication logique apparente ?

Salut, alors oui, j’ai 4 choses à dire qui ne t’aideront peut être pas ( voir pas du tout :wink: )

1 er; Clamav n’a je pense (je suis sûr ?) rien à voir la dedans.

2 eme; [quote]je veux dire un systeme qui chute sans aucune explication logique apparente ?[/quote]

97 % de la population connait ou à connu cet enigmatique problème :stuck_out_tongue_winking_eye:

3eme; Je ne travail pas actuellement sur un quelconque serveur, mais mon ami, si ! Et il a eu le même problème que toi, ( et je rajoute qu’il n’a jamais installer d’antivirus sur un Linux )

4eme; Peut être à tout hazard ya t’il un rapport avec ton /etc/resolv.conf ?

@ +

Tu es sûr que ce n’est pas une histoire matérielle ?
Disques durs, cables, poussières, ram, etc ?
Webmin n’est plus recommandé par Debian.

bha , c’est pas webmin, je l’utilise juste pour configurer le firewall ipv4, c’est plus pratique, mais ca s’arrête là.
J’ai repris une sauvegarde de mon syslinux lenny, et tout fonctionne bien a nouveau (nivo system). Mais pas nivo réseau. J’ai tout connecté sur un DLINK DGS 3100-48 hw:A2 f/w:2.0.0.47 gigabit avec la config usine…( je l’ai reinit ) mes pings sont tres aléatoires, il y a perte de données (environ 2 ping sur 6) ca dépend du momment. Que ce soit en sortie ou en entrée.

Je me demande si c’est pas le switch qui merde et ne m’envoie qu’une partie des paquets…

LANIP1 .248----(SWITCH)------ .87 SERVEURLENNY .01 -----(Même SWITCH)---- serveur .04
… perte de données … marche tres bien …
LAN1 192.168.1
LAN2 172.16.0

a n’y rien comprendre, des pings vers le proxy d’un serveur windows sur le même switch et le même vlan ping super correctement.
un pc client dun autre reseaux passant par ce même switch traversant lenny pour retrouver un service sur le serveur…pouet pôuet pouet poueeeeet… perte de données…

ca ne peux pas provenir du switch le probleme… si? c’est comme si le forward de lenny etait scabreux??? pire vu que de temps a autre y plus acces aux services via un interface direct configuré pour ca…alors que le ping passe bien…vous faut quoi comme info pour approfondir ? ya un nombre limite de services réseau sous nunux lenny ?

y a une solution ou faut que je me retappe le montage du serveur ?

Quand je parlais de matos, le switch en faisait partie.
As-tu essayé d’inverser les ports pour savoir si ce n’est qu’un des ports qui merde ?

C’est pas le switch… j’ai tester avec un portable dans le vlan concerné. le serveur répond correctement, mais la passerelle (lenny) refuse de répondre même aux pings. de temps a autre ca refonctionne, puis hop plus rien.

est ce que le firmware broadcom BC y est pour quelque chose ??? des soucis notables ?

voici un sysctl -a

cela fait une heure sans déconnexion… j’espere que c’est réglé…

ce que j’ai fait au final pour voir:
-> verifier les routes des tables secondaire
EN effet (j’ai 4 tables de routages dont MAIN ) 3 pour des réseaux séparés. et j’ai pas preciser “scope link src …” dans les routes… des tables secondaires depuis cette modification, plus de problèmes. j’imagine donc qu’il a pris ses routes comme des routes globaux, qui entrait en conflit avec ceux de la table main…

n’ayant pas codé moi même linux, je m’en remet a votre conclusoin d’expert pour valider le fait que de tels trpoubles peuvent provenir d’un mauvais routage et precisement dans ce cas là.

ANCIENNEMENT

#/var/>ip route list table ADMIN
10.0.0.0/30 dev eth1 scope link  src 10.0.0.2 
172.16.3.0/24 dev eth7  
172.16.0.0/24 dev eth4  
172.16.1.0/24 dev eth5  
default via 10.0.0.1 dev eth1 
#/var/>ip route list table PEDA
172.16.0.4 dev eth4  
172.16.0.3 dev eth4  
172.16.0.2 dev eth4  
10.0.1.0/30 dev eth2  scope link  src 10.0.1.2
172.16.2.0/24 dev eth6  scope link
default via 10.0.1.1 dev eth2

NOUVELLEMENT

#/var/>ip route list table ADMIN
10.0.0.0/30 dev eth1  scope link  src 10.0.0.2
172.16.3.0/24 dev eth7  scope link  src 172.16.3.1
172.16.0.0/24 dev eth4  scope link  src 172.16.0.1
172.16.1.0/24 dev eth5  scope link  src 172.16.1.1
default via 10.0.0.1 dev eth1
#/var/>ip route list table PEDA
172.16.0.4 dev eth4  scope link  src 172.16.1.1
172.16.0.3 dev eth4  scope link  src 172.16.1.1
172.16.0.2 dev eth4  scope link  src 172.16.1.1
10.0.1.0/30 dev eth2  scope link  src 10.0.1.2
172.16.2.0/24 dev eth6  scope link
default via 10.0.1.1 dev eth2

bha non… ya du mieux, mais…la carte reseau se met en pause j’ai l’impression, quand je reprend le ping -t vers un serveur en passant par la passerelle, le réseau de la passerelle repart… apres la perte d’un ping ou deux.

apres quelques temps… bha non , c’est pas ca…
ca recommence… pas moyen de pinger les interfaces… et regardez bien ceci

PS C:\Windows\system32> ping -t 172.16.0.4

Envoi d'une requête 'Ping'  172.16.0.4 avec 32 octets de données :
Réponse de 192.168.1.87 : Impossible de joindre l'hôte de destination.
Délai d'attente de la demande dépassé.
Délai d'attente de la demande dépassé.
Réponse de 172.16.0.4 : octets=32 temps=2 ms TTL=127
Réponse de 172.16.0.4 : octets=32 temps<1ms TTL=127
Réponse de 172.16.0.4 : octets=32 temps<1ms TTL=127


Statistiques Ping pour 172.16.0.4:
    Paquets : envoyés = 9, reçus = 7, perdus = 2 (perte 22%),
Durée approximative des boucles en millisecondes :
    Minimum = 0ms, Maximum = 2ms, Moyenne = 0ms
Ctrl+C

dans le même temps

PS C:\Windows\system32> ping -t 192.168.1.87

Envoi d'une requête 'Ping'  192.168.1.87 avec 32 octets de données :
Réponse de 192.168.1.87 : octets=32 temps<1ms TTL=200
Réponse de 192.168.1.87 : octets=32 temps<1ms TTL=200
Réponse de 192.168.1.87 : octets=32 temps<1ms TTL=64
Réponse de 192.168.1.87 : octets=32 temps<1ms TTL=64
Réponse de 192.168.1.87 : octets=32 temps<1ms TTL=64

pas mal hein ? regardez bien les time to live

personne ne sait d’ou ca viens ? vraiment ?

Regarde les processus qu’il ya et regarde les logs de ton serveur, ça sent le serveur utilisé à l’insu de son plein gré ça…

nouveaux éléments:

  • depuis que j’ai retiré la connexion aux routeurs ca va mieux mais j’ai quand même régulièrement des déconnexion de services (erreur provoqués apparement)
  • chkrootkit ne trouve rien.
  • maintenenant clamscan refuse de fonctionner ( parsed database / malformed database )…
  • j’ai remarqué des messages d’erreur [FAILED] au demarrage mais pas moyen de les trouver ensuite dans les logs.
  • un /etc/init.d/networking stop -> arrête toutes les interfaces sauf eth0 et par foit eth4 , qu’il faut forcer à l’extinction
  • un /etc/init.d/networking start -> demarre toutes les interfaces (et tante un demmarrage service nfs ??? pas demandé mais pitet automatique), mais montre bien failed to bring up eth0—toutefois elle apparait quand même ensuite à l’ifconfig.
  • l’interface eth0 n’a pas d’adresse IPV6… bizarre… les autres en ont.
  • l’ifdown eth0, donne comme resultat : interface not configured… y viens ptet de là mon problème. y a du y avoir une :030 à l’installation des interfaces quand j’ai fait table raze, puis reconstruit les interface et modifier leurs IP.

quelqu’un sait comment on reconfigure les interfaces style dpkg-reconfigure networking (ca marche po).

l’ipv6 est revenu sans demander mon avis sur l’eth0… , l’interface eth0 et les services sshd, et webmin, ping ont été bloqué pendant une heure… puis retour… c’est vraiment… vraiment … :013

de mieux en mieux… plus de règles iptables au redémarrage… :030

bon, c’est grave, je ne ping même plus les interfaces locales…
y veux même plus faire un reboot…;
et le netstat met 3 plombes…
mais enfin c’est quoi ce merdier… jamais vu ca… c’est inouie…