Computerhardware: HDD: Ausfall
Inhaltsverzeichnis |
So wie alle Computerkomponenten gehen auch Festplatten manchmal kaputt. Wenn das DVD-Laufwerk kaputt geht, ist das nicht so schlimm. Man wechselt es aus und arbeitet weiter. Wenn jedoch die Festplatte kaputt ist, kann man die Daten nicht aus der Festplatte entnehmen und sie in die neue Festplatte einsetzen. Deshalb sind zwei Dinge wichtig:
- Kaufen Sie eine Festplatte mit möglichst hoher statistischer Lebensdauer
- Bereiten Sie sich auf einen möglichen Festplattenausfall vor, indem Sie ausreichend häufig eine Datensicherung durchführen.
Welche Arten von Festplattenfehlern gibt es?
- Kurzzeitige Ausfälle: Die Daten sind nicht lesbar, aber nach ein paar Sekunden Abkühlpause oder einem Neustart des Computers ist alles wieder da.
- Permanente Ausfälle kleinen Umfangs: Einzelne Dateien gehen für immer verloren. Das passiert sehr, sehr selten. Der Verlust einzelner Dateien durch Bedienfehler ist um ein vielfaches häufiger.
- Permanente Totalschäden: Das ist der häufigste Fehler. Verschleiß, Alterung, Konstruktions- und Materialfehler, Erschütterungen, Spannungsspitzen und vieles andere können die Ursache sein. Hier können sie eine kleine Auswahl an möglichen Ursachen sehen.
Macht Ihre Festplatte ungewöhnliche Geräusche? Unter http://datacent.com/hard_drive_sounds.php sind Geräusche defekter Festplatten gesammelt.
S.M.A.R.T. bedeutet: Die Festplatte meldet sich krank [Bearbeiten]
Das Foto rechts zeigt einen Ausschnitt vom Etikett einer 20 MB großen Festplatte, Baujahr 1992. Der Hersteller hat die fertige Festplatte geprüft und die fehlerhaften Stellen aufgelistet. Dem Händler fiel die Aufgabe zu, diese Tabelle einzutippen, um mit einem Verfahren namens „Low Level Formatierung“ die Defekte vor dem Kunden zu verstecken. Damals waren zehn bis zwanzig defekte Sektoren normal. Eine Festplatte ohne Oberflächenfehler war eine Seltenheit. Seit damals haben sich zwei Umstände verändert:
- Der Händler braucht nicht mehr die Defekte verstecken, das übernimmt bereits der Hersteller.
- Bei der inzwischen erreichten Datendichte gibt es keine fehlerfreien Oberflächen mehr. Da die Fehler versteckt werden, merkt das der Kunde nicht.
Die Tabelle der Oberflächenschäden wird auf der Festplatte an einer versteckten Stelle gespeichert. Die Elektronik der Festplatte enthält ein Programm, welches diese Tabelle auswertet. Dieses Diagnose- und Statistikprogramm ist gewissermaßen das BIOS der Festplatte und es heißt SMART. Das ist die Abkürzung von „Self Monitoring, Analysis and Reporting Technology“. Mit einem geeigneten Abfrageprogramm kann jeder die Daten über den Zustand der Festplatte abfragen. Die dafür benötigten Befehle wurden Ende 2000 standardisiert, so dass fast alle seitdem gebauten Festplatten S.M.A.R.T.-tauglich sind.
Dieses SMART-Programm ist imstande, beschädigte Sektoren zu erkennen, zu sperren und sie durch Reservesektoren zu ersetzen. Es wird geschätzt, dass jede Festplatte ein Drittel ihrer nominellen Kapazität als „heimliche Reserve“ zurückhält, um kleine Schäden reparieren zu können. Diese Schäden entstehen vor allem durch leichte Kopfaufsetzer.
Wenn die S.M.A.R.T.-Funktionalität im BIOS eingeschaltet ist (was bei Auslieferung nicht immer der Fall ist), wird das Programm bei einem bevorstehenden Versagen der Festplatte möglicherweise eine Warnung erzeugen, die z. B. so aussehen kann:
S.M.A.R.T. Failure Predicted on Primary Master : IBM-DADA-26480 Immediately back-up your data and replace the hard disk drive. A failure may be imminent.
(Übersetzung: Sichern Sie Ihre Daten und ersetzen Sie die Festplatte. Ein Defekt könnte unmittelbar bevorstehen).
Anmerkung: Diese Festplatte überlebte die obige Warnmeldung um neun Tage.
Fachbegriffe aus dem Protokoll [Bearbeiten]
Es gibt einige kostenlose Programme, mit denen man die SMART-Werte lesen kann, z. B. „HD Tune“. Mit „Current“ wird der aktuelle Wert bezeichnet, „Worst“ ist der schlechteste jemals gemessene Wert. Keiner der Werte darf den Schwellenwert „Threshold“ überschreiten.
| S.M.A.R.T.-Attribut | Bedeutung | Problem | |
|---|---|---|---|
| Power On Hours Count | Zahl der Betriebsstunden | Abnutzung | |
| Power Cycle Count | Zahl der Einschaltvorgänge | ||
| * | Raw Read Error Rate | nicht korrigierbare Lesefehler | Plattenoberfläche |
| * | Write Error Rate | Schreibfehlerrate | |
| * | Seek Error Rate | Fehlerrate beim Positionieren | Positionierung |
| * | Spin-Up Time | Anlaufzeit des Spindelmotors | Motor oder Lager |
| Start/Stop Count | Anzahl Start/Stop-Vorgänge | Abnutzung | |
| ! | Reallocated Sector Count | Verbrauchte Reservesektoren | Plattenoberfläche |
| * | Spin Retry Count | Fehlstarts | Motor |
| Power Cycle Count | Anzahl Einschaltvorgänge | Abnutzung | |
| * | ECC Recovered | (korrigierte) Bitfehler | Plattenoberfläche |
| Ultra DMA CRC Error Count | Übertragungsfehler zum PC | schlechte Kabel oder Kontakte | |
| ! | Scan Error Rate | nicht korrigierbare Fehler | Plattenoberfläche |
| Load/Unload Cycle Count | Parkvorgänge | Abnutzung |
Die mit Stern gekennzeichneten Werte sind wichtig für die Lebensdauer. Ein Ausrufezeichen bedeutet, der Wert ist kritisch für den Zustand der Festplatte.
Wie zuverlässig ist S.M.A.R.T.? [Bearbeiten]
Google hat die SMART-Werte von 50 000 Festplatten ausgewertet. Einige davon waren schon fünf Jahre im Dauereinsatz. Die Ergebnisse:[1]
- In den 60 Tagen nach der ersten SMART-Fehlermeldung fielen Festplatten 40 mal häufiger aus als Festplatten ohne Fehlermeldungen.
- Bei 36% der defekten Festplatten hatte SMART keine Warnung erzeugt.
- Fabrikneue Festplatten fallen in den ersten Wochen häufiger aus als später.
Herstellerangaben zur Lebensdauer [Bearbeiten]
In den Datenblättern der Festplatten findet man verschiedene Angaben über die vermutliche Lebensdauer von Festplatten. Je nach Hersteller werden MTBF, POH oder AFR angegeben. Was sagen diese Werte aus?
MTBF [Bearbeiten]
Das ist die Abkürzung von „Mean Time Between Failures“, der mittleren Zeit zwischen zwei Fehlern. Wenn der Hersteller 1000 Festplatten ein halbes Jahr lang im Labor unter Idealbedingungen laufen lässt und in dieser Zeit sechs Festplatten ausfallen, errechnet sich folgender MTBF-Wert:
180 Tage x 24 Stunden x 1000 HDD = 4 320 000 Stunden, geteilt durch sechs Ausfälle ergibt eine MTBF von 720 000 Stunden. Dieser statistische Wert sagt nichts über die Lebensdauer Ihrer konkreten Festplatte aus, außerdem werden die Idealbedingungen bei Ihnen nie erreicht.
Leider kalkuliert jeder Hersteller die MTBF anders. IBM ging von täglich 11 Stunden bei 25 °C aus, Seagate rechnete mit täglich 9 Stunden bei 40 °C. Beim Versuch der Standardisierung der Messbedingungen sind sich die Hersteller nicht einig geworden. [2]
AFR [Bearbeiten]
Das ist die Abkürzung von „Annualized Failure Rate“, die jährliche Ausfallrate. Sie gibt an, wie viel Prozent der Festplatten innerhalb des ersten Jahres ausfallen. Der Wert sollte deutlich unter einem Prozent liegen. Wird dieser Wert in den Datenblättern nicht angegeben, ist er vermutlich deutlich schlechter.
POH [Bearbeiten]
Das ist die Abkürzung von „Power-On Hours“, und gibt die zulässige Betriebsdauer pro Tag an. Typisch sind acht bis zehn Stunden pro Tag. Wird dieser Wert überschritten, verringert sich die Lebensdauer deutlich. Nur sehr wenige Festplatten sind für Dauerbetrieb zugelassen. Der Wechsel von der 40-Stunden-Woche zur 7 x 24-Stunden-Woche verringert nach Berechnungen von Seagate die MTBF auf 60%. [3]
CDL [Bearbeiten]
Die Angabe eines Component-Design-Live Wertes wurde von Maxtor und Western Digital ersonnen. Damit ist die von den Konstrukteuren vorgesehene Lebensdauer gemeint, typischerweise fünf Jahre.
Frühausfälle [Bearbeiten]
Sofern die Betriebsbedingungen eingehalten werden, ist die Ausfallwahrscheinlichkeit in den ersten Stunden und Tagen am höchsten. Dann folgt eine lange Zeit mit geringer Ausfallwahrscheinlichkeit. Gegen Ende der Lebensdauer steigt die Ausfallwahrscheinlichkeit an. Daraus folgt:
- Wichtige Daten sollten Sie einer neuen Festplatte erst nach einigen Tagen Probelauf anvertrauen. Sie sollten in den ersten Wochen die Häufigkeit Ihrer Datensicherung erhöhen und deren Durchführung kontrollieren.
Schocktoleranz [Bearbeiten]
Die Schreib-/Leseeinheit der Festplatte schwebt in einem nur mit Mikroskop wahrnehmbaren Abstand über den sogenannten Plattern, die mit bis zu 150 km/h darunter rotieren. Beim Ausschalten wird sie zudem auf einer Rampe geparkt; immer seltener in einer Landungszone auf den Plattern. Doch die Grenzen sind schnell erreicht. Ein Beispiel mit Formel:
Angenommen, eine Festplatte fällt aus 60 Zentimetern Höhe auf einen dicken weichen Teppich, der sich um 3 mm zusammendrücken lässt. Die Bremsbeschleunigung errechnet sich als 600 mm / 3 mm = 200 G. Es handelt sich dabei um einen Durchschnittswert. Da die Bremsung durch den Teppich nicht gleichmäßig verläuft, dürften die Spitzenwerte erheblich höher liegen. Ergebnis: Eine 3,5" Festplatte ist kaputt. Holz oder Beton federn erheblich weniger. Um eine höhere Schocktoleranz zu erreichen:
- Die Laufwerke vom Gehäuse entkoppeln, um dessen Beschleunigungen abzufedern
- 2.5" - Festplatten sind für den mobilen Einsatz optimiert und tolerieren derzeit etwa 300 G im Betrieb und 1000 G in Ruhe. Das ist das Drei- bis Vierfache der üblichen 3.5" - Laufwerke. Ausgenommen sind hier nur die seltenen, für den Servereinsatz konzipierten 2.5" - Modelle mit SCSI-Anschluß und 10 000 Touren.
Solid State Disks machen keinen Unterschied zwischen Betrieb und Ruhe, denn sie enthalten keine beweglichen Teile und widerstehen so 1000 bis 2000 G.
Elektrostatik [Bearbeiten]
Hände, Kleidungsstücke und besonders Haare können sich statisch aufladen. Dabei entstehen oft Spannungen von mehreren hundert bishin zu mehreren tausend Volt. Daher kann es, besonders in trockener Luft, zu elektrostatischen Entladungen kommen. Die Leiterbahnen leiten diese zu den Chips, die regulär mit 5 Volt oder weniger arbeiten, wobei Schäden entstehen können. Um eventuelle Aufladung vorsorglich zu entladen:
- Vor dem Berühren der Festplatte oder dem PC-Interieur immer einen geerdeten Gegenstand wie die Heizung oder das PC-Gehäuse von außen berühren.
- Bei manchen Laufwerken ist die Leiterplatte elektrostatisch abgeschirmt. So bei der Seagate Barracuda ATA IV und V-Serie. Das erhöht aber die Fertigungskosten und führt zu einem Wärmestau - den der Hersteller wieder beheben muss - und ist daher selten.
An und Aus [Bearbeiten]
Das Anlaufen stellt eine gewisse Belastung für den Festplattenmotor dar. Neben den Starts gibt es auch die Parkvorgänge der Schreib-/Leseeinheit. Bei älteren Modellen ohne Parkrampe werden die Köpfe beim Ausschalten auf die Datenträger abgesenkt. Die Hersteller sprechen von mindestens 20 000 möglichen Starts. Das entspräche fünfjährigem zehnmaligen Anschalten pro Tag. Bei den Festplatten mit Rampe ist sie höher, zwischen 300 000 und 600 000 Mal, denn das Verfahren ist schonender. Das wird dazu genutzt, auch im Leerlauf per Parkung die Schocktoleranz zu erhöhen. Es spielt aber keine Rolle, ob diese Zahl durch Startvorgänge oder Leerlaufparkungen im Betrieb erreicht wird.
Betriebstemperatur [Bearbeiten]
Die Festplattenhersteller betonen die Abhängigkeit der Lebensdauer von der Arbeitstemperatur. Eine Temperatursteigerung von 25 °C auf 40 °C halbiert nach Analysen von Seagate die durchschnittliche Lebensdauer, eine Temperaturerhöhung um weitere 15° auf 55 °C halbiert sie nochmal. [4]
Temperaturänderung [Bearbeiten]
Festplatten speichern ihre Daten in Spuren, ähnlich einer CD. Deren Position ändert sich minimal mit der Ausdehnung der Plattern. Kleine und allmähliche Änderungen werden durch automatische Kalibrierung ausgeglichen. Es gibt Temperaturgrenzen: Im Betrieb sind dies Temperaturen zwischen 5 und 55°C, in Ruhe -40 und 65°C. Ändern sollte sich die Temperatur mit maximal 20°C pro Stunde. Nach Transporten ist daher eine Akklimatisierung einzuplanen.
Luftdruck [Bearbeiten]
Die Köpfe befinden sich im Segelflug über der Oberfläche. Wenn die Luft dünner wird, verringert sich der Auftrieb. Ab einer Höhe von drei Kilometern über Meeresspiegel wird der Abstand zu klein, unter -300 Metern zu groß. Wenn sich die Platte nicht dreht, dürfen es auch 12 km Höhe sein. Zusätzlich dürfte hier die chipfeindliche kosmische Strahlung begrenzend wirken.
Jede Festplatte hat eine kleine, mit einem Feinstfilfer abgedeckte Öffnung für den Druckausgleich. Sie wird auch für den Druckaustausch bei Erwärmung und Abkühlung gebraucht. Achtung, nicht zukleben!