Die Crux mit der Datenspeicherung

News

Big Data, künstliche Intelligenz, Machine Learning und viele weitere Digitalisierungstrends basieren auf einer Unmenge von Daten. Das stellt Systemadministratoren und Infrastrukturbetreiber vor neue Herausforderungen. Lösungen zur Datenspeicherung sind vielfältig. Die wichtigsten Entscheidungskriterien im Überblick.

(Source: Timothy Simon / Unsplash.com)

Daten sind nicht gleich Daten. Aus Sicht der IT-Infrastrukturbetreiber gibt es eine Vielzahl von Datentypen. Sie lassen sich grob in drei Kategorien unterteilen: Anwendungen, Nutzdaten und Logdaten. In die Kategorie «Anwendungen» fallen beispielsweise Betriebssysteme und Anwendungen. Informationen bestehen aus Nutzdaten. Mit ihnen arbeiten Algorithmen. Nutzdaten können Texte, Bilder, Zahlenfolgen oder Töne sein. Logdaten entstehen beim Zugriff auf Systeme oder werden durch Anwendungen bei der Auswertung von Nutzdaten geschrieben. Sie entstehen auch auf Umsystemen wie Firewalls, Router oder E-Mail-Gateways. Verschiedene Datentypen muss man unterschiedlich behandeln. Das betrifft Speicherart und -ort sowie den Schutz.

Speicherort: Anspruch an Verfügbarkeit entscheidet

Nutzer können sich immer weniger vorstellen, was Speicher ist. Server werden immer kompakter. Geschützt in Rechenzentren bekommen sie Anwender kaum zu Gesicht. Unsere Handys verfügen heute über ansehnliche Speicherkapazitäten. Was auf dem Device keinen Platz mehr hat, landet automatisch in der Cloud. User verlieren deshalb immer mehr den Bezug zwischen Daten und Speichermedium. Sie erwarten, dass alle Daten permanent und schnell verfügbar sind.

Wer mit grossen Datenmengen arbeitet, muss sich mit dieser Erwartungshaltung auseinandersetzen. Gute Systemadministratoren haben eine Vorstellung davon, welche Daten wo liegen. Idealerweise sind Anwendung und Lagerung der Daten aufeinander abgestimmt. Dies kann in Form von vorgegebenen Auswertungszeitfenstern in den Anwendungen geschehen. Datensätze der letzten Sekunden, des letzten Tages oder des letzten Monats kann man so auswerten und an verschiedenen Orten speichern. Das System in einem autonomen Fahrzeug muss anhand soeben entstandener Radardaten entscheiden, wie es sich verhalten soll. Dabei ist ein schneller Zugriff elementar. Die Radardaten liegen folgerichtig im flüchtigen Speicher, dem RAM. Zugriff auf die Positionsdaten ist indessen nur sporadisch nötig. Diese kann man direkt auf langsamere Speichermedien wie Harddisks schreiben.

Speicherbedarf: Fünffacher Platz für maximale Sicherheit

Wie viel Platz Daten effektiv benötigen, ist nicht einfach zu bestimmen. Die Annahme, ein Bild von 30 Megabyte belege in den Systemen exakt 30 Megabyte, trifft nicht zwingend zu. Ein erster Wachstumsfaktor des Platzbedarfs ist der Speicherort auf Harddisks. Um die Ausfallsicherheit zu erhöhen und Datenverlust zu minimieren, muss mindestens ein Drittel, üblicherweise 100 Prozent, idealerweise 200 Prozent an Speicherplatz zur Verfügung stehen. Will man die Daten zudem in eine zweite Region oder ein weiteres Rechenzentrum spiegeln, steigt der Bedarf sogar auf das Dreifache.

Zusätzlich sollte man die Daten auf unabhängigen Datenträgern archivieren. Diese Langzeitspeicher sind im Vergleich zu Harddisks massiv günstiger und verfügen über eine hohe Speicherdichte. Der Platz kostet trotzdem. Hält man bloss zwei Generationen einer Datei im Archiv, so liegt der Bedarf in diesem Beispiel bei 500 Prozent der effektiven Daten.

Speichertempo: Sicherung in Sekunden bis Tagen

Nicht nur Kapazität und Ausfallsicherheit treiben die Entwickler voran. Auch der Bedarf an Back-up und Restore von grossen Datenmengen fordern sie heraus. Der Einsatz von Offlinemedien wie Tapes ist nach wie vor sinnvoll. Über Monate kann man Daten auf Tapes sichern und bei Verlust wiederherstellen. Allerdings dauern das Sichern oder Wiederherstellen Stunden bis Tage. Muss es schneller gehen, sollte man die Daten spiegeln oder Snapshot-Technologien verwenden. Je nach Art der Daten erhöht dies den Bedarf an effektivem Speicherbedarf wiederum signifikant um bis zu 100 Prozent.

Speichernutzung: Wundermittel RAID und Dedup

Die immerzu wachsende Datenmenge fordert die Hardwarehersteller. Technologien wie RAID (redundante Anordnung unabhängiger Festplatten) entstanden schon vor Jahrzehnten und entwickeln sich immer weiter. Ziel von RAID ist es, mittels möglichst günstiger einzelner Harddisks eine maximale Speicherausnutzung zu erhalten. Dabei ist sichergestellt, dass keine Daten verloren gehen, falls eine Harddisk ausfällt. Mit RAID kann man auch den Datendurchsatz optimieren, indem man beispielsweise das Schreiben langsam und das Lesen schnell macht. Eine weitere Technik zur besseren Speichernutzung ist die Deduplizierung (Dedup) der Daten. Dabei werden identische Datensätze nur einmal auf eine Harddisk geschrieben. Vor allem Betriebssysteme oder Anwendungen sind oft für mehrere Systeme identisch und eignen sich für dieses Verfahren. Für diese Art von Daten schrumpft der effektive Platzbedarf auf den Harddisks bis unter ein Drittel. Für Bilder oder Datenbanken hingegen ergibt sich mit Dedup keine Ersparnis von Speicherplatz.

Speicherzugriff: Sicherheit gewährleisten

Eine weitere Herausforderung im Umgang mit Daten ist die Regelung des Zugriffs. Wer welche Daten schreiben, einsehen, verändern oder löschen darf, kann man an verschiedenen Stellen regeln. In Anwendungen ordnet man Menschen oder Maschinen einmal definierte Rollen zu. IT-Organisation müssen das detaillierter betrachten. Unterschiedliche Organisationseinheiten betreuen und beschreiben Perimeter-Systeme wie Firewalls oder Router als Anwendungssysteme. Um Änderungen und ihre Urheber nachweisen zu können, muss man die Logs dieser Systeme in Echtzeit auf Drittsysteme spiegeln. Dabei ist es wichtig, dass sie nicht dieselbe Organisation betreut, wie die Perimeter-Systeme. Zudem müssen die Mechanismen der Logsysteme feststellen, wenn sich ein bereits gespeicherter Datensatz verändert.

Zur Zugriffsicherheit gehört auch das Löschen von Daten. Nicht mehr benötigte Daten muss man so löschen, dass sie nicht unabsichtlich wieder an einem anderen Ort auftauchen. Dies gilt beispielsweise für Tapes, auf denen auch nach Monaten noch Daten gespeichert sind, die in den Anwendungen schon längst gelöscht wurden. Um zu verhindern, dass Daten unbemerkt von Tapes gelesen werden, muss auch der physische Schutz der Speichermedien und Serversysteme geregelt sein.

Public Cloud: Vertrauen ist gefragt

Wer Daten in der Public Cloud verarbeitet, muss sich auf den Anbieter verlassen. Ein guter Anbieter verfügt über adäquate Mechanismen zur Speicherung und zum Schutz der Daten. In der Cloud sind die Ressourcen beinahe unendlich, deshalb sollte man seine Kosten im Auge behalten. In der eigenen Umgebung oder der privaten Cloud im Rechenzentrum schlägt vor allem der effektive Speicherplatz zu Buche. In der Public Cloud entstehen weitere Kosten für den Datentransfer zur oder aus der Cloud. Auch die Replikation der Daten über verschiedene Regionen ist mit Ausgaben verknüpft. Je nach Speichermedium kosten zudem die Schreib- und Lesezugriffe.

Ein Augenmerk muss bei der Public Cloud auf den Logdaten liegen. Um sicherzugehen, dass keine Abhängigkeit zu einem Public-Cloud-Betreiber entsteht, muss man Logdaten ausserhalb der Cloud oder bei einem weiteren Public-Cloud-Provider speichern. Damit sind wiederum Kosten und Anforderung an die Sicherheit im Transport und die Speicherung verbunden.

Sämtliche Faktoren abwägen

Keine Art der Datenspeicherung erfüllt alle Ansprüche an Sicherheit, Tempo und Zugriff im gleichen Ausmass. Dementsprechend gross ist die Palette der Angebote. Am Anfang jedes Angebots muss deshalb ein detailliertes Analysegespräch mit einem Experten stehen. Nur so lässt sich eine Lösung finden, welche die Bedürfnisse des Kunden abdeckt und das Portemonnaie nicht unnötig strapaziert.

Lesen Sie dazu auch das Interview mit Kaspar Geiser: "Die Hersteller werden nicht bloss Blech und Kapazität anbieten"

Artikel teilen: