Computerhardware: HDD: Ausfall

Aus Wikibooks

So wie alle Computerkomponenten gehen auch Festplatten manchmal kaputt. Wenn das DVD-Laufwerk kaputt geht, ist das nicht so schlimm. Man wechselt es aus und arbeitet weiter. Wenn jedoch die Festplatte kaputt ist, kann man die Daten nicht aus der Festplatte entnehmen und sie in die neue Festplatte einsetzen. Deshalb sind zwei Dinge wichtig:

  • Kaufen Sie eine Festplatte mit möglichst hoher statistischer Lebensdauer
  • Bereiten Sie sich auf einen möglichen Festplattenausfall vor, indem Sie ausreichend häufig eine Datensicherung durchführen.

Welche Arten von Festplattenfehlern gibt es?

  • Kurzzeitige Ausfälle: Die Daten sind nicht lesbar, aber nach ein paar Sekunden Abkühlpause oder einem Neustart des Computers ist alles wieder da.
  • Permanente Ausfälle kleinen Umfangs: Einzelne Dateien gehen für immer verloren. Das passiert sehr, sehr selten. Der Verlust einzelner Dateien durch Bedienfehler ist um ein vielfaches häufiger.
  • Permanente Totalschäden: Das ist der häufigste Fehler. Verschleiß, Alterung, Konstruktions- und Materialfehler, Erschütterungen, Spannungsspitzen und vieles andere können die Ursache sein. Hier können sie eine kleine Auswahl an möglichen Ursachen sehen.

Macht Ihre Festplatte ungewöhnliche Geräusche? Unter http://datacent.com/hard_drive_sounds.php sind Geräusche defekter Festplatten gesammelt.

S.M.A.R.T. bedeutet: Die Festplatte meldet sich krank[Bearbeiten]

Ausschnitt einer Defektliste

Das Foto rechts zeigt einen Ausschnitt vom Etikett einer 20 MB großen Festplatte, Baujahr 1992. Der Hersteller hat die fertige Festplatte geprüft und die fehlerhaften Stellen aufgelistet. Dem Händler fiel die Aufgabe zu, diese Tabelle einzutippen, um mit einem Verfahren namens „Low Level Formatierung“ die Defekte vor dem Kunden zu verstecken. Damals waren zehn bis zwanzig defekte Sektoren normal. Eine Festplatte ohne Oberflächenfehler war eine Seltenheit. Seit damals haben sich zwei Umstände verändert:

  • Der Händler braucht nicht mehr die Defekte verstecken, das übernimmt bereits der Hersteller.
  • Bei der inzwischen erreichten Datendichte gibt es keine fehlerfreien Oberflächen mehr. Da die Fehler versteckt werden, merkt das der Kunde nicht.

Die Tabelle der Oberflächenschäden wird auf der Festplatte an einer versteckten Stelle gespeichert. Die Elektronik der Festplatte enthält ein Programm, welches diese Tabelle auswertet. Dieses Diagnose- und Statistikprogramm ist gewissermaßen das BIOS der Festplatte und es heißt SMART. Das ist die Abkürzung von „Self Monitoring, Analysis and Reporting Technology“. Mit einem geeigneten Abfrageprogramm kann jeder die Daten über den Zustand der Festplatte abfragen. Die dafür benötigten Befehle wurden Ende 2000 standardisiert, so dass fast alle seitdem gebauten Festplatten S.M.A.R.T.-tauglich sind.

Dieses SMART-Programm ist imstande, beschädigte Sektoren zu erkennen, zu sperren und sie durch Reservesektoren zu ersetzen. Es wird geschätzt, dass jede Festplatte ein Drittel ihrer nominellen Kapazität als „heimliche Reserve“ zurückhält, um kleine Schäden reparieren zu können. Diese Schäden entstehen vor allem durch leichte Kopfaufsetzer.

Wenn die S.M.A.R.T.-Funktionalität im BIOS eingeschaltet ist (was bei Auslieferung nicht immer der Fall ist), wird das Programm bei einem bevorstehenden Versagen der Festplatte möglicherweise eine Warnung erzeugen, die z. B. so aussehen kann:

S.M.A.R.T. Failure Predicted on Primary Master : IBM-DADA-26480
Immediately back-up your data and replace the hard disk drive.
A failure may be imminent.

(Übersetzung: Sichern Sie Ihre Daten und ersetzen Sie die Festplatte. Ein Defekt könnte unmittelbar bevorstehen).

Anmerkung: Diese Festplatte überlebte die obige Warnmeldung um neun Tage.

Fachbegriffe aus dem Protokoll[Bearbeiten]

Kostenlose Programme können die SMART-Werte lesen, z. B. „HD Tune“, „CrystalDiskInfo“ und „SiSoft Sandra“. Manche Hersteller von Festplatten bieten auf ihrer Website Diagnoseprogramme an. Wenn Ihre Festplatte in die Jahre kommt oder wenn Sie an ihrer Qualität zweifeln, sollten Sie die SMART-Werte ermitteln.

Weder Anzahl noch Bezeichnung der Werte sind standardisiert. Die wichtigsten Werte sind in der aufgeführt. Mit „Current“ oder „Value“ wird der aktuelle Wert bezeichnet, „Worst“ ist der schlechteste jemals gemessene Wert. Keiner der Werte darf den Schwellenwert „Threshold“ überschreiten. Die mit Stern gekennzeichneten Werte sind wichtig für die Lebensdauer. Ein Ausrufezeichen bedeutet, der Wert ist kritisch für den Zustand der Festplatte.

  S.M.A.R.T.-Attribut Bedeutung Problem
Power On Hours Count Zahl der Betriebsstunden Abnutzung
Power Cycle Count Zahl der Einschaltvorgänge
* Raw Read Error Rate nicht korrigierbare Lesefehler Plattenoberfläche
* Write Error Rate Schreibfehlerrate
* Seek Error Rate Fehlerrate beim Positionieren Positionierung
* Spin-Up Time Anlaufzeit des Spindelmotors Motor oder Lager
Start/Stop Count Anzahl Start/Stop-Vorgänge Abnutzung
! Reallocated Sector Count Verbrauchte Reservesektoren Plattenoberfläche
* Spin Retry Count Fehlstarts Motor
Power Cycle Count Anzahl Einschaltvorgänge Abnutzung
* ECC Recovered (korrigierte) Bitfehler Plattenoberfläche
Ultra DMA CRC Error Count Übertragungsfehler zum PC schlechte Kabel oder Kontakte
! Scan Error Rate nicht korrigierbare Fehler Plattenoberfläche
Load/Unload Cycle Count Parkvorgänge Abnutzung

Wie zuverlässig ist S.M.A.R.T.?[Bearbeiten]

Google hat die SMART-Werte von 50 000 Festplatten ausgewertet. Einige davon waren schon fünf Jahre im Dauereinsatz. Die Ergebnisse:[1]

  • In den 60 Tagen nach der ersten SMART-Fehlermeldung fielen Festplatten 40 mal häufiger aus als Festplatten ohne Fehlermeldungen.
  • Bei 36% der defekten Festplatten hatte SMART keine Warnung erzeugt.
  • Fabrikneue Festplatten fallen in den ersten Wochen häufiger aus als später.

Das bedeutet, dass Sie die Festplatte umgehend austauschen sollten, wenn SMART ein Problem meldet. Doch das Ausbleiben einer Warnung bedeutet nicht, dass keine Gefahr droht. Ein Drittel der Google-Platten fiel ohne eine vorherige Warnung durch SMART aus. Was SMART melden muss und wann, ist nicht genormt. Leider kommt es selbst bei neuen PCs vor, dass SMART im BIOS standardmäßig ausgeschaltet ist. Wenn Sie Glück haben, meldet das BIOS während des Selbsttests „S.M.A.R.T. Capable but Disabled“ (deutsch: SMART ist verfügbar, aber ausgeschaltet). Kontrollieren Sie die BIOS-Einstellungen und schalten Sie SMART ein! Es gibt keinen Grund, auf die SMART-Überwachung zu verzichten, es sei denn, Sie lieben „Russisch Roulette“. Immerhin erfolgt in zwei Drittel aller Fälle eine Warnung!

SMART nützt nicht nur dem Kunden. Dass SMART defekte Blöcke unauffällig aus der Reserve ersetzt, bringt dem Hersteller Vorteile: Die Zahl der Reklamationen verringert sich, denn von kleinen Fehlern erfährt der Kunde ja nichts. Schlimmer noch: Geringfügig mangelhafte Festplatten brauchen von der Qualitätskontrolle nicht mehr verschrottet zu werden, weil SMART die Mängel versteckt.

Für den Kunden ist das Versteckspiel durch SMART von Nachteil: Er erfährt zu spät, wenn seine Festplatte „im Sterben liegt“. Denn im Herstellerinteresse kommt die Warnung erst, wenn die Reservesektoren vollständig oder weitgehend aufgebraucht sind. Das ist viel zu spät. Wenn ein Vorgang im Inneren der Festplatte bereits 5 % bis 20 % ihrer Kapazität zerstört hat, wird die Festplatte wohl nicht mehr lange durchhalten.

Herstellerangaben zur Lebensdauer[Bearbeiten]

In den Datenblättern der Festplatten findet man verschiedene Angaben über die vermutliche Lebensdauer von Festplatten. Je nach Hersteller werden MTBF, POH oder AFR angegeben. Was sagen diese Werte aus?

MTBF[Bearbeiten]

Das ist die Abkürzung von „Mean Time Between Failures“, der mittleren Zeit zwischen zwei Fehlern.

Wenn der Hersteller 1000 Festplatten ein halbes Jahr lang unter Idealbedingungen laufen lässt und in dieser Zeit sechs Festplatten ausfallen, rechnet man: 180 Tage x 24 Stunden x 1000 HDD = 4 320 000 Stunden, geteilt durch sechs Ausfälle ergibt eine MTBF von 720 000 Stunden = 82 Jahre. Wobei Seagate unter „Idealbedingen“ eine Temperatur von 25 °C versteht (siehe z. B. Datenblatt der Barracuda ATA V), Western Digital testet die MTBF bei 40 °C. So niedrig sind die Temperaturen in Ihrem PC bestimmt nicht!

Doch so lange wird Ihre Festplatte nicht leben, nicht mal im Durchschnitt: Weil die Lebensdauer der Hauptkomponenten für nicht wesentlich mehr als fünf Jahre konzipiert ist. Dann sind die Lager verschlissen und das Schmiermittel ist aufgebraucht. Die Schutzschicht auf der Scheibenoberfläche ist verdunstet und die Elektrolytkondensatoren sind ausgetrocknet. Dieser statistische Wert dient den Herstellern zum Vergleich verschiedener Modelle und sieht in der Werbung gut aus − doch er sagt gar nichts über die Lebensdauer Ihrer konkreten Festplatte aus, außerdem wird Ihre Festplatte nicht unter idealen Bedingungen betrieben.

MTBF ist ein statistischer Wert für die Ausfallwahrscheinlichkeit neuer Festplatten − welcher Wert würde sich wohl ergeben, wenn man fünf Jahre alte Festplatten testet?

Leider kalkuliert jeder Hersteller die MTBF anders. IBM ging von täglich 11 Stunden bei 25 °C aus, Seagate rechnete mit täglich 9 Stunden bei 40 °C. Beim Versuch der Standardisierung der Messbedingungen sind sich die Hersteller nicht einig geworden. [2]

AFR[Bearbeiten]

Das ist die Abkürzung von „Annualized Failure Rate“, die jährliche Ausfallrate. Sie gibt an, wie viel Prozent der Festplatten innerhalb des ersten Jahres ausfallen. Der Wert sollte deutlich unter einem Prozent liegen. Wird dieser Wert in den Datenblättern nicht angegeben, ist er vermutlich deutlich schlechter.

POH[Bearbeiten]

Das ist die Abkürzung von „Power-On Hours“, und gibt die zulässige Betriebsdauer pro Tag an. Typisch sind acht bis elf Stunden pro Tag. Wird dieser Wert überschritten, verringert sich die Lebensdauer deutlich. Der Wechsel von der 40-Stunden-Woche zur 7 x 24-Stunden-Woche verringert nach Berechnungen von Seagate die MTBF auf 60%, , der Wechsel zur 10-Stunden-Woche verdoppelt die MTBF. [3] IBM gibt an, dass eine Temperaturerhöhung pro Grad die Fehlerrate um zwei bis drei Prozent erhöht. Zehn Grad mehr erhöht die Ausfallwahrscheinlichkeit um 20 bis 30%! Seagate gibt an, dass sich bei 56 °C der AFR-Wert vervierfacht!

Es gibt auch bezahlbare Festplatten, die für Dauerbetrieb zugelassen sind. Präzisere Lager, ein größerer Schmiermittelvorrat, langlebigere Kondensatoren und andere Extras - das macht diese "24*7"-Platten um 20 % bis 30 % teurer.

CDL[Bearbeiten]

Die Angabe eines Component-Design-Live Wertes wurde von Maxtor und Western Digital ersonnen. Damit ist die von den Konstrukteuren vorgesehene Lebensdauer der Schlüsselkomponenten gemeint, die typischerweise fünf Jahre beträgt.

Voraussichtliche Lebensdauer[Bearbeiten]

Wenn Sie Ihren PC täglich einige Stunden benutzen, halten die meisten Festplatten in einem Standard-PC vier bis fünf Jahre durch. Da viele Benutzer alle zwei bis drei Jahre einen neuen PC kaufen, erleben sie das Ende ihrer Festplatte nicht. Dauerbetrieb verkürzt diese Zeit deutlich.

Warum werden keine langlebigeren Festplatten produziert? Es lohnt für die Hersteller nicht, weil sich die große Masse der Käufer ausschließlich für den Preis interessiert. Oder haben Sie schon einmal das Wort „langlebig“ in der Werbung für Komplett-PCs gesehen oder haben Sie den Verkäufer jemals nach der Lebensdauer der Festplatte gefragt? Na also. Doch außer den teuren Hochleistungsplatten für Server gibt es auch langlebige, bezahlbare Festplatten. Sie werden als sogenannte „24 × 7-Platten“ zu einem etwa 30 % höheren Preis verkauft, das bedeutet: für Dauerbetrieb geeignet, bei gelegentlichem Betrieb sehr lange haltbar.

Frühausfälle[Bearbeiten]

Sofern die Betriebsbedingungen eingehalten werden, ist die Ausfallwahrscheinlichkeit in den ersten Stunden und Tagen am höchsten. Dann folgt eine lange Zeit mit geringer Ausfallwahrscheinlichkeit. Gegen Ende der Lebensdauer steigt die Ausfallwahrscheinlichkeit an. Daraus folgt:

  • Wichtige Daten sollten Sie einer neuen Festplatte erst nach einigen Tagen Probelauf anvertrauen. Sie sollten in den ersten Wochen die Häufigkeit Ihrer Datensicherung erhöhen und deren Durchführung kontrollieren.

Vorsicht, Magnetfelder![Bearbeiten]

Die Hersteller geben in ihren Datenblättern eine magnetische Feldstärke von 0,5 bis 1 mT (Milli-Tesla) als zulässigen Höchstwert an. Das Erdmagnetfeld ist etwa 0,05 mT stark, also 10 bis 20 Mal schwächer. Wäre das Erdmagnetfeld konstant, würde es keinen Schaden anrichten. Doch es schwankt leicht und es kann auf lange Sicht die aufgezeichneten Daten schwächen. Man rechnet mit einer Datenlebensdauer von 10 bis 30 Jahren. Den Datenverlust kann man bremsen, indem man alle paar Jahre die Daten neu schreibt.

Magnete im Haushalt haben oft ein Magnetfeld von 20 bis 50 mT, sind also durchaus gefährlich. Auch Lautsprecherboxen und Transformatoren können gefährlich sein. Die Stärke eines Magnetfeldes nimmt mit dem Quadrat der Entfernung ab, in 50 mm Abstand dürfte ein Magnetfeld von 50 mT auf 1 mT gefallen sein.

Für einen Desktop-Computer sind Magnete wenig gefährlich: Das Metallgehäuse schützt die Festplatte weitgehend, außerdem hat die Festplatte von allen Gehäusewänden mindestens zwei Zentimeter Abstand. Bei Notebooks ist die Festplatte nur zwei Millimeter von der Unterseite entfernt, und das Gehäuse ist fast immer aus Plaste. In einigen wenigen Zügen benutzt die Bahn starke Magneten an den Ecken der Klapptische, um diese an der Rückseite der Vordersitze festzuhalten. Wenn Sie Ihr Notebook so auf den Tisch legen, dass die Festplatte über einem Magneten liegt, könnte die Festplatte zerstört werden. Und wenn Sie Ihr Portemonnaie auf dem Magneten ablegen, wird eventuell Ihre EC-Karte gelöscht.


Schocktoleranz[Bearbeiten]

Die Schreib-/Leseeinheit der Festplatte schwebt in einem nur mit Mikroskop wahrnehmbaren Abstand über den sogenannten Plattern, die mit bis zu 150 km/h darunter rotieren. Beim Ausschalten wird sie zudem auf einer Rampe geparkt; immer seltener in einer Landungszone auf den Plattern. Doch die Grenzen sind schnell erreicht. Ein Beispiel mit Formel:

G-Zahl = Fallhöhe / Bremsweg.

Angenommen, eine Festplatte fällt aus 60 Zentimetern Höhe auf einen dicken weichen Teppich, der sich um 3 mm zusammendrücken lässt. Die Bremsbeschleunigung errechnet sich als 600 mm / 3 mm = 200 G. Es handelt sich dabei um einen Durchschnittswert. Da die Bremsung durch den Teppich nicht gleichmäßig verläuft, dürften die Spitzenwerte erheblich höher liegen. Ergebnis: Eine 3,5" Festplatte ist kaputt. Holz oder Beton federn erheblich weniger. Um eine höhere Schocktoleranz zu erreichen:

  • Die Laufwerke vom Gehäuse entkoppeln, um dessen Beschleunigungen abzufedern
  • 2.5" - Festplatten sind für den mobilen Einsatz optimiert und tolerieren derzeit etwa 300 G im Betrieb und 1000 G in Ruhe. Das ist das Drei- bis Vierfache der üblichen 3.5" - Laufwerke. Ausgenommen sind hier nur die seltenen, für den Servereinsatz konzipierten 2.5" - Modelle mit SCSI-Anschluß und 10 000 Touren.
  •  Solid State Disks machen keinen Unterschied zwischen Betrieb und Ruhe, denn sie enthalten keine beweglichen Teile und widerstehen so 1000 bis 2000 G.

Elektrostatik[Bearbeiten]

Hände, Kleidungsstücke und besonders Haare können sich statisch aufladen. Dabei entstehen oft Spannungen von mehreren hundert bishin zu mehreren tausend Volt. Daher kann es, besonders in trockener Luft, zu elektrostatischen Entladungen kommen. Die Leiterbahnen leiten diese zu den Chips, die regulär mit 5 Volt oder weniger arbeiten, wobei Schäden entstehen können. Um eventuelle Aufladung vorsorglich zu entladen:

  • Vor dem Berühren der Festplatte oder dem PC-Interieur immer einen geerdeten Gegenstand wie die Heizung oder das PC-Gehäuse von außen berühren.
  • Bei manchen Laufwerken ist die Leiterplatte elektrostatisch abgeschirmt. So bei der Seagate Barracuda ATA IV und V-Serie. Das erhöht aber die Fertigungskosten und führt zu einem Wärmestau - den der Hersteller wieder beheben muss - und ist daher selten.

An und Aus[Bearbeiten]

Das Anlaufen stellt eine gewisse Belastung für den Festplattenmotor dar. Neben den Starts gibt es auch die Parkvorgänge der Schreib-/Leseeinheit. Bei älteren Modellen ohne Parkrampe werden die Köpfe beim Ausschalten auf die Datenträger abgesenkt. Die Hersteller sprechen von mindestens 20 000 möglichen Starts. Das entspräche fünfjährigem zehnmaligen Anschalten pro Tag. Bei den Festplatten mit Rampe ist sie höher, zwischen 300 000 und 600 000 Mal, denn das Verfahren ist schonender. Das wird dazu genutzt, auch im Leerlauf per Parkung die Schocktoleranz zu erhöhen. Es spielt aber keine Rolle, ob diese Zahl durch Startvorgänge oder Leerlaufparkungen im Betrieb erreicht wird.

Betriebstemperatur[Bearbeiten]

Die Festplattenhersteller betonen die Abhängigkeit der Lebensdauer von der Arbeitstemperatur. Eine Temperatursteigerung von 25 °C auf 40 °C halbiert nach Analysen von Seagate die durchschnittliche Lebensdauer, eine Temperaturerhöhung um weitere 15° auf 55 °C halbiert sie nochmal. [4]

Temperaturänderung[Bearbeiten]

Festplatten speichern ihre Daten in Spuren, ähnlich einer CD. Deren Position ändert sich minimal mit der Ausdehnung der Plattern. Kleine und allmähliche Änderungen werden durch automatische Kalibrierung ausgeglichen. Es gibt Temperaturgrenzen: Im Betrieb sind dies Temperaturen zwischen 5 und 55°C, in Ruhe -40 und 65°C. Ändern sollte sich die Temperatur mit maximal 20°C pro Stunde. Nach Transporten ist daher eine Akklimatisierung einzuplanen.

Luftdruck[Bearbeiten]

Die Köpfe befinden sich im Segelflug über der Oberfläche. Wenn die Luft dünner wird, verringert sich der Auftrieb. Ab einer Höhe von drei Kilometern über Meeresspiegel wird der Abstand zu klein, unter -300 Metern zu groß. Wenn sich die Platte nicht dreht, dürfen es auch 12 km Höhe sein. Zusätzlich dürfte hier die chipfeindliche kosmische Strahlung begrenzend wirken.

Jede Festplatte hat eine kleine, mit einem Feinstfilfer abgedeckte Öffnung für den Druckausgleich. Sie wird auch für den Druckaustausch bei Erwärmung und Abkühlung gebraucht. Achtung, nicht zukleben!

Weiterführende Texte[Bearbeiten]

  1. Google-Studie zu Festplattenausfällen http://static.googleusercontent.com/media/research.google.com/de//archive/disk_failures.pdf
  2. MTBF-Zeiten - nur Schall und Rauch: http://archive.is/JhwUI
  3. Abhängigkeit der MTBF von der Betriebsdauer: http://ixbtlabs.com/articles/storagereliability/#Temperature (Abschnitt "Usage levels")
  4. Abhängigkeit der MTBF von der Temperatur: http://ixbtlabs.com/articles/storagereliability/ (Abschnitt "Temperature")