It’s all about high speed data analytics – stupid!
Wissenschaftliche Erkenntnis ist ohne umfassende Datenanalyse heute undenkbar. Das ideale System dafür ist von zwei Pionieren skizziert worden. Sie schlagen eine Verbindung aus zwei Ecosystemen vor. Auch für Unternehmen ist das interessant!
Der Nobelpreis für Chemie vor zwei Jahren und die vielversprechenden Ergebnisse der LHC Experimente des Cern sind beides Beispiele für den umfassenden Einsatz der Datenanalyse auf hohem Niveau. Im einen Fall waren es differenzierte Computermodelle und im anderen Fall die schnelle Auswertung sehr vieler Messwerte, die ausschlaggebend waren und dem neuen Instrument der Wissenschaft – Scientific Computing – zu internationaler Anerkennung verhalf. Weitere Fragestellungen in den Disziplinen wie der Biologie und Biomedizin, Hochenergiephysik, Klimaforschung, Astronomie und Astrophysik werden heute weltweit von klugen Köpfen mithilfe einer Kombination aus Datenanalyse und extremer Rechenkapazität in Angriff genommen. Die dafür notwendigen Technologien und deren Stand sind im Auftrag des amerikanischen Nationalfonds NSF (National Science Foundation) durch die beiden renommierten Wissenschaftler Reed und Dongarra aufgearbeitet und im Sommer dieses Jahres in der Zeitschrift "Communications of the ACM" publiziert worden. Sie schlagen eine Verbindung aus zwei Ecosystemen vor. Ein Ecosystem ist für die Bereitstellung von Rechenleistung auf Exascale-Ebene (1018 Operationen pro Sekunde) zuständig. Das andere Ecosystem ist für die Analyse sehr grosser Datenmengen gedacht und kann sehr gut als wissenschaftliche Big-Data-Referenzarchitektur angesehen werden.
Das Data-Analytics-Ecosystem
Das Instrumentarium für die Datenanalyse von Reed und Dongarra nennt sich «Data Analytics Ecosystem» und basiert auf einem simplen Modell, bestehend aus den vier Schichten Cluster, System, Datenveredelung (Middleware & Management) und Anwendung (Application). Der interessanteste Teil des Ecosystems ist die Schicht für die Datenveredelung und deren zehn Bestandteile. Da sind etwa ein verteiltes Dateisystem und eine nichtrelationale Datenbank für die Speicherung sehr grosser Datenmengen zuständig. Und es sind spezielle Tools für das Laden, das Verschieben von Daten sowie für die Verarbeitung von gestreamten Daten (Sensordaten, Film, Ton und Daten aus sozialen Netzen) vorgesehen. Darüber hinaus erfolgt der Datenzugriff über Werkzeuge für verteilte oder strukturierte Abfragen oder über direkte Zugriffe auf Pipelines zur Datenverarbeitung. Zusätzlich sind Komponenten für Serialisierung von Daten und die Koordination von Datenströmen beschrieben.
Alternative zu gängigen Lösungen
Viele Unternehmen setzen heute für die umfassende Datenanalyse Big-Data-Architekturen ein, die eine Erweiterung bestehender Business-Intelligence-Infrastrukturen darstellen. Die meisten Hersteller empfehlen diese Lösung ihren Kunden. Das Data-Analytics-Ecosystem stellt eine unabhängige Alternative dar, die durch den zehn wichtigsten Komponenten und deren klare Aufgabenteilung hilft, sich in der Vielzahl der Big-Data-Tools und Angebote zurechtzufinden. Was für kluge Köpfe gut ist, ist auch für kluge Unternehmen gut!