Data-Lakehouse-­Architekturen

GenAI braucht neue Datenarchitekturen

Uhr
von Rodolphe Koller und Yannick Chavanne und Übersetzung: Tanja Mettauer

Die rasante Entwicklung von GenAI-Technologien treibt die Modernisierung von Datensystemen voran. Data-Lakehouse-­Architekturen, die einen einheitlichen und umfassenden Zugang zu Daten versprechen und somit die Entwicklung von KI beschleunigen, liegen im Trend.

(Source: InputUX - stock.adobe.com)
(Source: InputUX - stock.adobe.com)

Die Technologien der künstlichen Intelligenz (KI), insbesondere generative KI, zwingen Unternehmen dazu, ihre Datensysteme zu modernisieren. IT-Verantwortliche suchen nach Datenarchitekturen, die sowohl Innovationen (aufkommende Technologien, Echtzeitdaten) fördern, als auch die Umgebung vereinfachen (Systeme, die strukturierte und unstrukturierte Daten integrieren, einheitliche Governance), wie eine Umfrage der "MIT Technology Review" im Auftrag von Databricks zeigt.

"Die Auswirkungen von GenAI auf die Datenarchitektur sind enorm", kommentiert John Roese, CTO von Dell Technologies. "Ich sehe drei grosse Herausforderungen: Modelle mit riesigen, meist unstrukturierten Datenmengen zu füttern, um sie zu trainieren; Daten langfristig so zu speichern, dass sie für die KI nutzbar sind; und eine angemessene Sicherheit rund um die Modelle zu gewährleisten."

Das Data Lakehouse ist im Aufwind

Diese unterschiedlichen Prioritäten und Herausforderungen führen zu einem zunehmenden Interesse an einheitlichen Architekturen wie einem Data Lakehouse. Drei Viertel der in der Studie befragten Führungskräfte haben ein Data Lake­house eingeführt. Und die meisten, die sich noch nicht für diese Architektur entschieden haben, planen, dies in den kommenden drei Jahren zu tun.

Infrastrukturattribute, die für die Modernisierung erforderlich sind

Die Data-Lakehouse-Architektur erweitert Data Lakes und deren unstrukturierte Daten um eine für Data Ware­houses typische Metadaten-Schicht. Dadurch werden die Daten, die zum Trainieren und Füttern von KI-Modellen dienen, reichhaltiger und leichter zugänglich. "Ein Data Lakehouse nutzt die flexible Speicherung unstrukturierter Daten aus einem Data Lake sowie die Funktionalitäten und Management-Tools von Data Warehouses und implementiert sie dann strategisch zusammen als ein grösseres System", schreibt Oracle. 

Ein weiterer Vorteil besteht darin, dass die Architektur strukturierte und unstrukturierte Daten in einer einzigen Plattform vereint. Das ist ein grosser Vorteil, wenn man bedenkt, dass 80 Prozent der grössten Unternehmen mehr als ein Dutzend verschiedene Daten-, KI- und ML-Systeme besitzen, wie es in der Zeitschrift "MIT Technology Review" heisst. "Es ist nicht notwendig, mehrere Regel- und Governance-Tools, mehrere Warehouses und separate Lakehouses zu haben; Sie können eine Lakehouse-Plattform mit einem einheitlichen Regel- und Governance-Tool haben", fasst Naveen Zutshi, Chief Information Officer bei Databricks, zusammen.

Webcode
omu67b5Z