Durch Microsofts 10-Milliarden-Dollar-Investition in OpenAI sowie durch strategische Initiativen von Meta, Google und anderen im Bereich der generativen KI hat der Boom im Bereich künstlicher Intelligenz (KI) massiv an Fahrt aufgenommen. Was dies auf die Herausforderungen rund um Data Storage bedeutet, beleuchtet Alex McMullan, CTO International bei Pure Storage, im folgenden Gastbeitrag.
Gastbeitrag von Alex McMullan, CTO International bei Pure Storage
In Bezug auf die wahrscheinlichen Auswirkungen auf den Technologiesektor und die Gesellschaft im Allgemeinen ist KI mit der Einführung der relationalen Datenbank vergleichbar. Sie war der Funke, der eine weit verbreitete Wertschätzung für grosse Datensätze auslöste – sowohl bei Endbenutzern als auch bei Softwareentwicklern. KI und maschinelles Lernen (ML) können auf die gleiche Weise betrachtet werden. Sie bilden nicht nur die Grundlage für die Entwicklung leistungsfähiger neuer Anwendungen, sondern erweitern und verbessern auch die Art und Weise für die Nutzung bahnbrechender Technologien sowie grosser und unterschiedlicher Datensätze. Es ist bereits sichtbar, wie diese Entwicklungen helfen können, komplexe Probleme viel schneller zu lösen, als es bisher möglich war.
Herausforderungen der KI-Datenspeicherung verstehen
Um die Herausforderungen zu verstehen, die KI im Hinblick auf die Datenspeicherung mit sich bringt, gilt es, sich die Grundlagen der Technologie anzusehen. Jede Fähigkeit zum maschinellen Lernen erfordert einen Trainingsdatensatz. Im Falle der generativen KI müssen die Datensätze sehr gross und komplex sein und verschiedene Datentypen enthalten. Generative KI stützt sich auf komplexe Modelle. Die Algorithmen, auf denen eine KI basiert, können eine sehr grosse Anzahl von Parametern enthalten, die sie lernen soll. Je grösser die Anzahl der Merkmale, der Umfang und die Variabilität der zu erwartenden Ergebnisse sind, desto grösser ist die Grösse der Datenstapel in Kombination mit der Anzahl der Epochen in den Trainingsläufen, bevor die Inferenz starten kann.
Bei der generativen KI geht es im Wesentlichen darum, auf der Grundlage des Datensatzes eine fundierte Vermutung anzustellen oder eine Extrapolation, Regression oder Klassifizierung durchzuführen. Je mehr Daten dem Modell zur Verfügung stehen, desto grösser ist die Chance auf ein genaues Ergebnis oder die Minimierung der Fehler-/Kostenfunktion. In den letzten Jahren hat KI die Grösse dieser Datensätze stetig erhöht. Mit der Einführung grosser Sprachmodelle, auf die sich ChatGPT und andere generative KI-Plattformen stützen, sind deren Grösse und Komplexität jedoch um eine Grössenordnung gestiegen. Das liegt daran, dass die gelernten Wissensmuster, die während des Trainings der KI-Modelle entstehen, im Speicher abgelegt werden müssen – was bei grösseren Modellen zu einer echten Herausforderung werden kann.
Das Checkpointing grosser und komplexer Modelle stellt auch eine enorme Belastung für die zugrundeliegende Netzwerk- und Speicherinfrastruktur dar, da das Modell erst dann fortgesetzt werden kann, wenn alle internen Daten im Checkpoint gespeichert sind. Diese Checkpoints dienen als Neustart- oder Wiederherstellungspunkte, wenn der Job abstürzt oder sich der Fehlergradient nicht verbessert.
Angesichts des Zusammenhangs zwischen Datenvolumen und Genauigkeit von KI-Plattformen ist es nur logisch, dass Unternehmen, die in KI investieren, ihre eigenen sehr grossen Datensätze aufbauen wollen, um die unbegrenzten Möglichkeiten der KI zu nutzen. Dies wird durch den Einsatz neuronaler Netze erreicht, um die Muster und Strukturen in den vorhandenen Daten zu erkennen und neue, eigene Inhalte zu erstellen. Da die Datenmengen exponentiell ansteigen, ist es wichtiger denn je, dass Unternehmen eine möglichst dichte und effiziente Datenspeicherung nutzen, um die Ausdehnung von Rechenzentren und die damit verbundenen steigenden Strom- und Kühlungskosten zu begrenzen. Dies stellt eine weitere Herausforderung dar, die sich allmählich als bedeutendes Problem erweist – die Auswirkungen, die massiv erhöhte Speicheranforderungen auf die Erreichung der Netto-Null-Emissionsziele bis 2030-2040 haben.
Es liegt auf der Hand, dass KI auch Auswirkungen auf die Nachhaltigkeitsverpflichtungen haben wird, da sie zusätzliche Anforderungen an die Rechenzentren stellt – und das in einer Zeit, in der CO2-Fussabdruck und Energieverbrauch bereits ein grosses Thema sind. Dies wird den Druck auf Unternehmen nur noch erhöhen, lässt sich aber durch die Zusammenarbeit mit den richtigen Technologielieferanten auffangen und managen. Die neuesten GPU-Server verbrauchen jeweils 6-10 kW, aber die meisten bestehenden Rechenzentren sind nicht für eine Leistung von mehr als 15 kW pro Rack ausgelegt. Mit der zunehmenden Verbreitung von GPUs zeichnet sich für Rechenzentrumsexperten bereits eine grosse Herausforderung ab.
Einige Technologieanbieter berücksichtigen die Nachhaltigkeit bereits in ihrem Produktdesign. All-Flash-Speicherlösungen beispielsweise sind effizienter als ihre HDD-Pendants. Einige Anbieter gehen sogar über handelsübliche SSDs hinaus und entwickeln ihre eigenen Flash-Module, die es All-Flash-Arrays ermöglichen, direkt mit dem Flash-Speicher zu kommunizieren. Dadurch gelingt es, aus Flash noch höhere Leistungen, Energienutzung und Effizienz herauszuholen.
Flash-Speicher sind nicht nur nachhaltiger als Festplatten, sondern eignen sich auch viel besser für die Durchführung von KI-Projekten. Der Schlüssel zu den Ergebnissen liegt nämlich in der Verknüpfung von KI-Modellen oder KI-gestützten Anwendungen mit Daten. Um dies umzusetzen, sind grosse und vielfältige Datentypen, Streaming-Bandbreite für Trainingsjobs, Schreibleistung für Checkpointing (und Checkpoint-Restores) und zufällige Leseleistung für Inferenzen erforderlich. Vor allem ist ein zuverlässiger und einfacher Zugriff rund um die Uhr über Silos und Anwendungen hinweg nötig. Dies alles ist mit HDD-basiertem Speicher, um den Betrieb zu unterstützen, nicht möglich. All-Flash, also eine vollständig Flash-basierte Storage-Lösung, kann hingegen alle genannten Anforderungen erfüllen.
Rechenzentren stehen jetzt vor einer zweiten, aber ebenso wichtigen Herausforderung, die sich durch den weiteren Anstieg von KI und ML noch zu verschärfen droht. Das ist der Wasserverbrauch, der zu einem noch grösseren Problem werden dürfte – vor allem, wenn man den weiteren Anstieg der globalen Temperaturen berücksichtigt. Viele Rechenzentren nutzen Verdunstungskühlung, bei der feiner Wassernebel auf Stoffbahnen gesprüht wird, die Umgebungswärme vom Wasser absorbiert wird und so die Luft in der Umgebung kühlt. Das ist eine clevere Idee, aber angesichts der zusätzlichen Belastung, die der Klimawandel auf die Wasserressourcen ausübt – vor allem in Ballungsgebieten – ist sie problematisch. Infolgedessen ist diese Kühlmethode im letzten Jahr in Ungnade gefallen, was dazu geführt hat, dass man sich auf traditionellere, energieintensive Kühlmethoden wie Klimaanlagen verlässt. Dies ist ein weiteres Argument für die Umstellung auf All-Flash-Rechenzentren, die weit weniger Strom verbrauchen und nicht die gleichen intensiven Kühlungsanforderungen haben wie HDD und Hybridspeicher.
Im Zuge der rasanten Entwicklung von KI und ML wird der Schwerpunkt zunehmend auf Datensicherheit, Modellwiederholbarkeit und stärkerer Ethik liegen. Datensicherheit soll gewährleisten, dass vorsätzlich falsche Eingaben das Ergebnis nicht verändern können. Modellwiederholbarkeit erfolgt mithilfe von Techniken wie Shapley-Werten, um besser zu verstehen, wie Eingaben das Modell verändern. Stärkere Ethik soll sicherstellen, dass diese Technologie tatsächlich zum Nutzen der Menschheit eingesetzt wird.
All diese erstrebenswerten Ziele werden zunehmend neue Anforderungen an die Datenspeicherung stellen. Die Anbieter von Speicherlösungen berücksichtigen dies bereits in ihren Produktentwicklungsplänen, um CTOs bei ihrer Suche nach sicheren, leistungsstarken und skalierbaren Speicherlösungen zu unterstützen. Der Fokus sollte daher nicht ausschliesslich auf den Fähigkeiten der Datenspeicherhardware und -software liegen, denn das Gesamtbild ist in diesem Fall in der Tat sehr gross.