À 3h ce matin l'origine du problème a été identifiée. Un disque défectueux qui ne renvoyait pas d'erreur. C'est une analyse de vitesse qui a permis de trouver. Retour à la normale en cours. Certaines opérations pourront prendre du temps. Merci encore de votre patience et de vos messages.

@zaclys
chez  @Octopuce on teste nos disques (via hdparm -t) 3 fois par jour, on garde la meilleure valeur des 3, et on stocke ça.
Si le disque, sur le temps long, a sa valeur qui baisse trop, on remonte ça dans la supervision.

our 2 cents ;)

@vincib @Octopuce Merci beaucoup, je transmets ce message à l'équipe technique.

Belle journée à vous @Octopuce

@zaclys @vincib @Octopuce J'utilise un petit script pour mettre en valeur 3 paramètres remontées par smartmontools

#Parcours des disques
for i in /dev/sd[a-z] ; do echo "==== DISQUE $i ====" >> $LOG; smartctl -iA $i >> $LOG; done;

#Affichage utilisateur
cat $LOG | grep -E --color "^( 5|187|188|197|198| State).*|" ;

les métriques 5, 187, 188, 197, 198 sont celles qui ont été identifiées comme à surveiller par Blackblaze sur les disques qui deviennent défaillants

@zaclys @vincib @Octopuce Blackblaze est une société de stockage qui a une telle flotte de disques qu'elle établit des statistiques de défaillance publiés annuellement.
backblaze.com/b2/hard-drive-te

Pour info, sur un modeste raid de 4 disques, celui qui a crashé avait ces compteurs qui augmentaient.

@Troupier @vincib @Octopuce Retour de l'équipe : "Merci, nous avons bien une surveillance smart mais tout était en vert.
Nous allons mettre en place des surveillances sur le défaut rencontré mais qu'il y a de fortes chances que le prochain soit tout autre. On se tient prêts face à l’adversité :D

Merci à vous

Sign in to participate in the conversation
Mastodon.zaclys.com

The social network of the future: No ads, no corporate surveillance, ethical design, and decentralization! Own your data with Mastodon!