Akunamatata a écrit :il y a combien de chances pour qu'en config RAID tu aies deux disques durs qui tombent en panne simultanement
?
y ' a quoi de faire de la parano!
Très bonne question... j'avoue que comme toi cet épisode m'a fait me poser pas mal de questions. L'info que j'ai d'OVH est qu'ils ont du changer la carte RAID et les 2 disques pour des problèmes d'I/O (j'avoue qu'une fois que j'ai eu cette info par tel je n'ai trop cherché à en savoir plus et me suis précipité pour commencer à mettre en oeuvre mon plan B de réinstallation du système. Une procédure que je n'avais encore pu tester en "grandeur nature"). OVH m'a proposé de racheter l'un des disques si je voulais pour une centaine d'€... Ca aurait été le plan C..
Lors de ma conversation avec le technicien de chez OVH apparement les RAID qui foirent complètement sont monnaie courrante (ils ont 70000 serveurs donc forcement même des problèmes "rares" apparaissent souvent pour le coup). Il m'a dit "si nous avions 5000 serveurs nous verions peut-être ça une à deux fois par mois", mais là j'en déduis qu'ils ont ce genre de situation tous les 2 jours environ... (enfin les 70000 serveurs ne sont pas tous en RAID, et je doute que les chiffres du technicien aient fait l'objet d'une longue étude, c'était sans doute un truc à vue de nez interessant pour l'ordre de grandeur...). Je n'ai pas fait de recherche pour voir si ce genre de stat était au dessus ou en dessous de la moyenne de panne d'un disque seul. En gros si je me base sur les chiffres du technicien, j'ai une "chance" sur 400 de perdre mes disques sur une année soit une durée de vie "moyenne" pour un système de 200ans et cette année j'ai gagné... (

je devrais peut-être tenté la qualif à la lotterie pour Hawaii cette année

...).
Je pense qu'il faut aussi intègrer la réalité des datacenters dans l'équation : Lorsqu'un technicien a beaucoup d'interventions à faire, c'est bcp plus simple et rapide pour lui de changer le matériel et de tout réinitialiser que d'essayer de debugger un serveur instable... D'autant qu'ils remplissent le contrat qu'ils ont avec moi. La panne a été déclarée à 9h23 et avant midi mon serveur était de nouveau techniquement "opérationel", ovh est très réactif au niveau des interventions, je ne peux pas leur oté cela. Pas de pitié par contre, pour les données... mieux vaut ne pas s'attacher...

Pour faire une analogie plus ou moins foireuse c'est comme sur le tour de france, quand on crève, on ne s'embête pas à réparer, on change la roue entière quand ce n'est pas le vélo... (c'est domage qu'ils ne laissent pas le matos sur le bord de la route d'ailleur). La situation est bien différente lorsqu'on a un ordi à la maison ou dans l'entreprise (les efforts de récupération que l'on va entreprendre seront à la hauteur de la valeur des données sur les disques mis HS).
Même si pour le coup ça ne m'a pas du tout fait plaisir je comprends tout à fait cette situation mes priorités et celles d'OVH ne sont pas tour à fait les mêmes et je vais modifier mon système pour en tenir compte encore plus compte (redondance, redondance...).
Je pense que ces problèmes matériels seront d'ici quelques années une histoire du passé avec le developpement des "clouds" mais c'est une autre histoire
Je précise que même si mon expérience en administration de système est plutôt limitée et clairement pas ma tasse de thé, je suis ingénieur système de formation et donc un minimum "armé" pour ce genre de considération
T.