4 min read

TrueNAS Resilver: Bad Sector sectors on sdd

Ich werde in diesem Artikel mal darauf eingehen wie ich das Problem der defekten Sektoren angegangen bin und erfolgreich gelöst habe.

Alarm von TrueNAS

Zunächst einmal ist es sehr sinnvoll die Alarme unter TrueNAS aktiviert habt, das geht, indem ihr unter Credentials > Users eine E-Mail-Adresse bei eurem Nutzer eintragt. Denn so hat das ganze bei mir gestartet: Am 03.12.21 erhielt ich eine Mail von meinem TrueNAS System:

Ich begann am folgenden Tag die nicht gesicherten Daten auf mein altes System, eine DS216j mit 8 TB im RAID 1, zu sichern. Außerdem verfasste ich diesen Reddit Post. Nachts bekam ich dann erneut einen Alert zugesendet:

Und am folgenden Tag bestellte ich bei Mindfactory eine Ersatz HDD, um damit wieder mein Mirror 1 aufzubauen.
(Es handelt sich um diese Festplatte, ACHTUNG: Nach 3 Monaten können defekte Sektoren auftreten.)

Bis die HDD dann ankam, machte ich mir Gedanken wie der Austausch dann ablaufen könnte. Ich erkundigte mich auf Reddit danach, wie ich herausbekomme, welche von den physischen HDDs kaputt ist. Ich bekam als Antwort, dass ich dies über Pool Status > Edit herausfinden kann:

Ich verglich die Nummer mit der physischen Platte und konnte so einfach herausfinden, um welche HDD es sich handelte.

Resilvering

Als die Festplatte ankam und ich diese austauschen konnte, startete ich das System erneut. Unter Pool Status konnte ich auf die ausgebaute, aber noch angezeigte Platte sdd Replace ausführen. Ich wählte die neu verbaute Platte und schon begann das Resilvering:

Zwischendurch ist aus unerklärlichen Gründen die Verbindung zum Host fehlgeschlagen. Ich habe die Netzwerkkabel am System umgesteckt (es hat 4 Ports) und sah, wie es sich per DHCP neue Adressen zog. Anschließend startete ich das System neu, und zum Glück begann der Resilvering Prozess erneut:

Nach diesem Prozess wurde mir der Pool Status als Online angezeigt, aber das Logo war nicht der grüne Haken, sondern der Pool befand sich im Status Unhealthy. Ebenso erhielt ich nun einen weiteren Alert:

Als ich daraufhin im Forum nachgefragt habe, erhielt ich auch zu diesem Problem hilfreiche Antworten: Die Checksumme war vermutlich nicht korrekt, da die Platte getauscht wurde. Ich erhielt den Hinweis einen erneuten Scrub durchzuführen. Also wählte ich unter Storage > Pool Operations > Scrub Pool aus.

Nachdem dieser Scrub erfolgreich durchlief und keinen Error anzeigte,  verblieb aber der Status Unhealthy:

Diesen konnte mit dem Befehl zpool clear main lösen. Da der Scrub fehlerfrei verlief, kann ich nun davon ausgehen, dass meine Daten zu 100 % erhalten geblieben sind und sich in diesen Error existiert. 🥳

Adressen Neuvergabe und DHCP ausschalten

Dieser Fehler trat bei mir vermutlich auf, weil ich es nicht hinbekommen habe die beiden Netzwerkkabel (für IPMI und das normale) wieder in denselben Port einzustecken. Bis heute ungeklärt ist aber, warum ich während des ersten Resilverings, plötzlich TrueNAS nicht mehr unter der 10.0.12.100 erreichen konnte. Ungeduldig wie ich bin, habe ich das System neu gestartet, woraufhin es von dann an sich die Adresse 10.0.12.104 per DHCP gezogen hat und darunter erreichbar war. Glücklicherweise lief der Resilvering Job aber erneut und endete diesmal erfolgreich.

Als ich dann in pfSENSE das statische DHCP Mapping auf die 10.0.12.100 anlegte, und unter Network > Interfaces DHCP auf dem entsprechenden Interface deaktivierte, war TrueNAS auch wieder unter der gewohnten IP-Adresse erreichbar. Eine Sache funktionierte noch nicht: Ein Reboot war nötig, um die geänderte IP auf die Apps anzuwenden, die unter K8s/Docker auf TrueNAS laufen. Zum Zeitpunkt des Schreibens ist endlich wieder meine Kontakte und Kalender Synchronisation über LineageOS, DavX5 und Card/CalDav aktiv, die auch in Fedora auf meinen PCs eingebunden ist :)

RMA

Zum aktuellen Zeitpunkt formatiere ich die HDD, welche dann zum Hersteller zurückgeht.

Fazit

Also, lasst mich hier drunter mal ein kleines Fazit ziehen, denn auch ein Kollege hat mich gefragt, ob ich TrueNAS weiterempfehlen kann. Außerdem wurde meine Frage auf Reddit einmal mit "get a more consumer-friendly NAS like Synology" abgestempelt.

ABER: Ich kann nach dieser Aktion definitiv sagen, wer sich Zeit nimmt, die Dokumentation gründlich liest und eventuell im Forum nachfragt, der kann von TrueNAS nicht enttäuscht werden.

An dieser Stelle geht auch nochmal ein <3 an die sehr hilfsbereite Community raus!

Gerade in diesem Härtetest, den ich unfreiwillig durchspielen musste, habe ich zwar daran gezweifelt, aber TrueNAS hat in kompletten Umfeld überzeugt.

Um noch eine letzte wichtige Sache zu betonen: Macht eure Backups! Auch wenn ich ein paar mal echt Angst um meine Daten hatte, ich habe zu jedem Zeitpunkt dieses Artikels um ein Offsite Backup und 2 funktionierende Festplatten verfügt, über die ich Zugriff auf meine Daten hatte. Die Stände dieser Platten waren zwar nicht aktuell (ca. 3 Monate "veraltet"), aber ich hätte im Falle eines nicht fehlerfreien Resilverings darauf zurückgreifen können. Gerade während eines so lese intensiven Prozesses wie einem Resilverings von 14 TB ist ein Ausfall nicht unmöglich!

Author: peterge