Informationstechnische Grundlagen (ITG)/ Dateiformate

Aus Wikibooks
Zur Navigation springen Zur Suche springen

Kodierte Information[Bearbeiten]

Binärer Inhalt einer Datei:
4772 6174 756c 6174 696f 6e2c 2044 7520
6861 7374 2064 6965 7365 7320 4461 7465
6966 6f72 6d61 7420 6572 666f 6c67 7265
6963 6820 656e 7473 6368 6c75 6573 7365
6c74 210a 4461 7320 4153 4349 492d 466f
726d 6174 2065 6967 6e65 7420 7369 6368
207a 756d 2073 7065 6963 6865 726e 2065
696e 6661 6368 6572 2054 6578 742d 4461
7465 6965 6e20 6f68 6e65 2055 6d6c 6175
7465 2e0a

Rechner können nur mit Zahlen arbeiten. Daher muss Information in Zahlen „übersetzt“, d.h. kodiert werden, um sie auf Rechnern verarbeiten und in Dateien speichern zu können. Diese Kodierung bezeichnet man als Dateiformat. Das Dateiformat ist die „Sprache“, in der die Information auf dem Rechner vorliegt. Ohne Kenntnis dieser „Sprache“, ohne Kenntnis des Dateiformats, d.h. ohne Kenntnis der Übersetzung Daten ⟷ Information ist die Datei wertlos und stellt nur eine Aneinanderreihung von Zahlen dar.

Als Beispiel ist rechts der Inhalt einer Datei abgebildet. Die Zahlen sind dabei im Hexadezimalsystem angegeben, d.h.: a=10, b=11, c=12, d=13, e=14, f=15. Offensichtlich können wir ohne Kenntnis des Dateiformats keine Information aus dieser Datei entnehmen.

Man unterscheidet zwei grundlegende Arten von Dateiformaten, sog. proprietäre Formate und Freie und Offene Formate. Im Folgenden wollen wir diese beiden Dateiformate genauer betrachten.

Freie und Offene Dateiformate[Bearbeiten]

Freie und Offene Dateiformate sind Formate, deren Spezifikation öffentlich zugänglich ist und die ohne Zahlung von Gebühren und/oder sonstigen Restriktionen (z.B. patent- oder urheberrechtlicher Art) verwendet werden können. Damit kann jeder Programme schreiben, die die in der Datei gespeicherte Information verarbeiten. Einige weit verbreitete Beispiele:

  • ASCII — Text
  • OpenDocument — Textverarbeitung, Tabellenkalkulation, Präsentationen, ...
  • PDF — Dokumente
  • HTML — HyperText Markup Language: Web Browser
  • JPEG — Bilder
  • PNG — Pixelgrafik
  • SVG — Vektorgrafik
  • Ogg — Container für die freien und offenen Formate Vorbis, FLAC, Speex, Opus (Audio) und Theora (Video)
  • WebM — Video/Audio

Auf dem Rechner gespeicherte Information ist vergleichbar mit einem Text in fremder Sprache. Im Falle Freier und Offener Dateiformate stehen Vokabel- und Gramatikbuch zur Verfügung: Wir können uns damit einerseits die im Text enthaltene Information zugänglich machen, andererseits können wir andere Informationen in dieser uns ansonsten unbekannten Sprache aufschreiben, verarbeiten und speichern.

Proprietäre Dateiformate[Bearbeiten]

Proprietäre Dateiformate sind Formate, deren Implementierung durch technische Hürden oder rechtliche Hindernisse erschwert oder sogar unmöglich bzw. illegal gemacht wird. Firmen verwenden proprietäre Formate, um sich ein Monopol bezüglich der Bearbeitung der im Dateiformat kodierten Information zu sichern. Da der Hersteller des proprietären Formats im Extremfall als einziger die gespeicherte Information verarbeiten kann, befindet sich der Nutzer in einem Abhängigkeitsverhältnis (sog. Lock-in-Effekt). Wechselt er (z.B. aus Kostengründen, oder weil die Firma das Produkt nicht mehr unterstützt) zu einem anderen Software–Anbieter, so können die gespeicherten Informationen im Extremfall ganz verloren sein.

Bei unserem Vergleich mit einem in fremder Sprache verfassten Text stehen bei proprietären Formaten weder Vokabel- noch Gramatikbuch zur Verfügung, evtl. ist sogar das Übersetzen „aus rechtlichen Gründen“ untersagt: In diesem Fall kann also nur der Hersteller die im Text enthaltene Information zugänglich machen und Informationen in „seiner“ Sprache aufschreiben, verarbeiten und speichern.

MS-Office Formate[Bearbeiten]

Bekannt und immer noch weit verbreitet sind die alten, proprietären MS-Office Formate doc für Textdokumente, ppt für Präsentationen und xls für Tabellenkalkulation. Mit diesen Formaten erreichte und sichert sich Microsoft im Bereich der Büro-Software noch immer in vielen Branchen eine marktbeherrschende Stellung.

Nachdem die konkurrierenden OASIS-Dateiformate (.odt, .odp, .ods, …) erfolgreich den Standardisierungsprozess der Normungsinstitute durchlaufen hatten, bemühte sich Microsoft bei den neueren MS-Office Dateiformaten (.docx, .pptx, .xlsx, …) ebenfalls um eine Anerkennung als Industrie-Standard. Diese erhielt der Hersteller in einem umstrittenen Verfahren mittlerweile.

Tipp:
  • Meide proprietäre und verwende stattdessen Freie und Offene Formate. Damit stellst du sicher, dass du deine eigenen Daten auch noch in ferner Zukunft verarbeiten kannst. Und das unabhängig vom Hersteller deines Rechners und/oder deines Betriebssystems (Plattformunabhängigkeit).
  • Auch beim Austausch von Daten mit anderen Nutzern empfiehlt sich die Verwendung Freier und Offener Formate. So kann jeder das von ihm bevorzugte Programm zur Bearbeitung verwenden. Bedenke dabei auch, dass Hersteller Programme nicht für jedes Betriebssystem anbieten. Achte auf Interoperabilität.

Aufgaben[Bearbeiten]

  1. Die Datei ist im ASCII–Format gespeichert. Dekodiere ihren Inhalt. Welche Vorteile hat die UTF-8–Kodierung im Vergleich zur ASCII–Kodierung?
  2. Das ASCII–Format ordnet u.a. jedem Buchstaben eine Zahl zu. Damit können wir Text in Zahlen umwandeln und mit dem Rechner verarbeiten. Wie könnte man die Information eines Bildes in Zahlen beschreiben und damit der digitalen Verarbeitung zugänglich machen?

Dateiformate erkennen[Bearbeiten]

Erweiterung Vollständiger Name Bemerkungen, Verwendung
.txt Text Einfacher Text
.odt OpenDocument Text OASIS-Textdokument
.odp OpenDocument Presentation OASIS-Präsentationsdokument
.ods OpenDocument Spreadsheet OASIS-Tabellendokument
.jpg Joint Photographic Experts Group Verlustbehaftete komprimierte Bilddatei
.png Portable Network Graphics Bilddatei
.svg Scalable Vector Graphics Vektorgrafikformat
.exe Executable Ausführbare Datei (DOS, OS/2, Windows)

Wie oben erläutert muss man das Format einer Datei kennen, um die enthaltene Information interpretieren zu können. Diese Erkennung kann auf verschiedene Art erfolgen:

  • Interpretation des Dateinamens
  • Interpretation von Metadaten
  • Interpretation des Dateiinhalts

Wir betrachten hier nur die erste Methode. Dabei wird an jeden Dateinamen eine sogenannte Dateinamenserweiterung (durch einen Punkt „.“ vom Dateinamen abgetrennt) angehängt, die das Dateiformat definiert. Beispiele finden sich in der Tabelle sowie in der Liste von Dateinamenserweiterungen.

Aufgaben[Bearbeiten]

  1. Suche auf deinem Rechner Dateien in den unterschiedlichsten Formaten und ordne die Dateinamenserweiterungen mit Hilfe der Liste von Dateinamenserweiterungen einem Dateiformat zu.
  2. Bei welchen Dateiformaten handelt es sich um Freie und Offene Formate?
  3. Erzeuge mit Programmen deiner Wahl Dateien in verschiedenen Formaten indem du Inhalte entsprechend abspeicherst. Vergleiche die Dateinamenserweiterungen der gespeicherten Dateien.

Empfehlenswerte Dateiformate[Bearbeiten]

Office-Formate[Bearbeiten]

Empfehlenswerte Formate für Office-Dateien (Textdokumente, Tabellendokumente, Präsentationsdokumente, …), die noch weiter bearbeitet werden sollen, sind die von der OASIS entwickelten OpenDocument-Dateiformate .odt, .odp, .ods, ….

Ist ein Dokument fertiggestellt und soll nun digital bereitgestellt/eingereicht werden, so empfiehlt sich der Export in das Portable Document Format (PDF, .pdf). PDF-Dokumente eignen sich weniger zum Bearbeiten, dafür aber zur plattformunabhängigen Darstellung: Das Dokument kann überall geöffnet und gelesen werden, die Darstellung ist auf jedem System identisch. Software zur Darstellung ist sehr verbreitet und mittlerweile in Webbrowsern implementiert.

Zusammengefasst:
  • Dokumente, die noch bearbeitet werden sollen, in Standardformaten wie .odf, .odp, .ods, … abspeichern.
  • Fertige Dokumente, die nicht weiter bearbeitet werden sollen, ins PDF-Format exportieren.

Letzteres betrifft insbesondere digital eingereichte Dokumente wie z.B. Textausarbeitungen und Bewerbungsunterlagen sowie Präsentationen, die auf unbekannten Rechnern gehalten werden sollen.

Bild- und Grafikformate[Bearbeiten]

Für Pixelgrafiken eignet sich im Falle von digitalen Photos als verlustbehaftetes Dateiformat JPEG (.jpg). Ansonsten bietet sich das Format Portable Network Graphics (PNG, .png) an.

Für Vektorgrafiken empfiehlt sich Scalable Vector Graphics (SVG .svg).

Dateiformate konvertieren[Bearbeiten]

Um Dateien in andere Formate zu konvertieren (umzuwandeln), benötigt man ein Programm, das die in der Datei enthaltene Information auslesen und sie anschließend im Zielformat wieder abspeichern kann. Je nach Art der Information (Bilder, Text, Audio/Video) eignen sich dazu verschiedene Programme.

Probleme bei der Konvertierung von Dateiformaten

Bei der Konvertierung eines Formats in ein anderes kommt es immer wieder zu Problemen, d.h. Inhalte werden nicht exakt übernommen und Dokumente weisen nach der Konvertierung mehr oder weniger geringfügige Abweichungen zum „Original“ auf. Gründe für diese Defizite liegen einerseits in der hohen Komplexität vieler Dateiformate, die eine exakte und fehlerlose Implementierung in einem Programm schwierig macht. Andererseits liegt es an proprietären Formaten, deren Spezifikation nicht verfügbar ist und darum erst mühsam rekonstruiert (reverse engineered) werden muss.

Tipp: Es empfiehlt sich darum, schon bei der Erstellung eines Dokuments ein möglichst gut unterstütztes, Freies und Offenes Format zu wählen.

Verlustbehaftete Formate

Manche Formate (insbesondere Bild/Grafik- und Audio/Video-Formate) sind sog. verlustbehaftete Formate. Diese Formate erfassen absichtlich nicht alle vorhandene Information sondern beschränken sich auf die wichtigen Anteile (z.B. werden bei einer Audioaufzeichnung keine für den Menschen unhörbare Töne abgespeichert). Dies spart viel Speicherplatz, kann aber bei mehrfacher Konvertierung die Qualität z.B. eines digitalen Photos, einer Video- oder Audioaufzeichnung, vermindern.

Tipp: Verlustbehaftete Formate nicht unnötig und/oder oft konvertieren.

Um Dateien der üblichen Office-Programme Textverarbeitung, Tabellenkalkulation, Präsentation, etc. in ein anderes Format zu konvertieren, eignet sich LibreOffice. LibreOffice beherrscht eine sehr große Anzahl von Dateiformaten, in denen Inhalte gelesen und geschrieben werden können.

Pixelgrafiken, zu denen digitale Photos gehören, lassen sich mit der Bildbearbeitungssoftware GIMP öffnen, bearbeiten und in unterschiedlichsten Formaten abspeichern. Vektorgrafiken lassen sich mit der Bildbearbeitungssoftware Inkscape öffnen, bearbeiten und ebenfalls in zahlreiche Formate exportieren.

Aufgaben[Bearbeiten]

  1. Konvertiere eine Datei in ein anderes Format. Öffne die konvertierte Datei und speichere sie unter anderem Namen wieder im ursprünglichen Format. Vergleiche das ursprüngliche Dokumente anschließend mit dem hin–und–zurück konvertierten. Weist die Konvertierung Defizite (Fehler) auf?
  2. Welche gebräuchlichen Dateiformate sind verlustbehaftet? Warum sollte man dies Formate nicht unnötig hin–und–her konvertieren?