KI, die Kreative Intelligenz jetzt in der neuesten Folge SMART&nerdy! Podcastfolge #23.

Computer werden grün

Tastatur grün

[vc_row][vc_column][vc_custom_heading text=“Computer werden grün“ font_container=“tag:h1|font_size:48|text_align:left“ use_theme_fonts=“yes“ css=“.vc_custom_1646053487047{margin-top: -25px !important;}“][vc_custom_heading text=“Green Computing: Rechenzentren, Architektur
und Algorithmen nachhaltig machen“ font_container=“tag:h2|font_size:28|text_align:left|color:%23676b6d“ use_theme_fonts=“yes“ css=“.vc_custom_1646053515747{padding-bottom: 10px !important;}“][vc_column_text]Volker Lindenstruth, Frankfurt Institute for Advanced Studies, Goethe-Universität

(Bildquelle: AdobeStock | 44769948 | cienpies)[/vc_column_text][ultimate_spacer height=“15″ height_on_tabs=“15″ height_on_tabs_portrait=“15″ height_on_mob_landscape=“15″ height_on_mob=“15″][/vc_column][/vc_row][vc_row][vc_column][vc_custom_heading text=“Kurz & Bündig“ font_container=“tag:h2|font_size:34|text_align:left“ use_theme_fonts=“yes“ css=“.vc_custom_1631091070753{margin-top: -25px !important;}“ el_class=“box-headline“][vc_row_inner el_class=“box-content-wrapper“][vc_column_inner][vc_column_text]Green-IT besteht aus drei Hauptaspekten: Rechenzentren, Computerarchitektur und Softwarearchitektur. Während der mittlere Energieaufwand von Rechenzentren in Deutschland bei 60 Prozent liegt, ist eine Reduktion auf weniger als 10 Prozent ohne Einschränkungen der IT-Hardware möglich. Besonders bei numerischen Anwendungen sind Graphikprozessoren für effizientes Rechnen und Vektorisierung essenziell. Die Multi- und Manycore Architektur von Servern erfordert möglichst massiv parallele, vektorisierte Algorithmen.[/vc_column_text][/vc_column_inner][/vc_row_inner][/vc_column][/vc_row][vc_row css=“.vc_custom_1519752670572{margin-top: -10px !important;}“][vc_column][ultimate_spacer height=“30″ height_on_tabs=“15″ height_on_tabs_portrait=“15″ height_on_mob_landscape=“15″ height_on_mob=“15″][vc_column_text]Trotz steigender Servereffizienz überkompensiert die steigende IT-Nachfrage die Effizienzeinsparungen, was zu einem ständigen Anstieg des IT-Energieverbrauchs führt. Green Computing, also effizientes und umweltschonendes Computing, liefert die gleichen Ergebnisse bei geringerem Energieverbrauch und damit kleinerem ökologischen Fußabdruck. Green-IT setzt sich aus drei Hauptbereichen zusammen: Erstens den Rechenzentren, zweitens der Computerarchitektur und drittens der Algorithmen selbst. Im Folgenden werden Beispiele aus allen drei Bereichen vorgestellt und dabei die teilweise gewaltigen Einsparpotenziale aufgezeigt.[/vc_column_text][/vc_column][/vc_row][vc_row][vc_column][vc_custom_heading text=“Die drei Hauptbereiche des Energieverbrauches der Informationstechnologie:“ font_container=“tag:h3|font_size:28|text_align:left|color:%23676b6d“ use_theme_fonts=“yes“ css=“.vc_custom_1646053841291{padding-bottom: 10px !important;}“][vc_custom_heading text=“1. Rechenzentrumsarchitektur“ font_container=“tag:h3|font_size:28|text_align:left|color:%23676b6d“ use_theme_fonts=“yes“ css=“.vc_custom_1646053858202{padding-bottom: 10px !important;}“][vc_column_text]Allein der durchschnittliche Stromverbrauch von Rechenzentren in Deutschland lag im Jahr 2020 bei 2 GW [1]. Unter der Annahme des konventionellen Energiemixes entspricht dies 6,4 Mt CO2. Der durchschnittliche PUE-Wert der Rechenzentren lag bei 1,63, was einem Stromverbrauch von 773 MW pro Rechenzentrum entspricht. Die Power Usage Effectiveness (PUE) ist eine technische Kennzahl, mit der sich die Energieeffizienz eines Rechenzentrums darstellen lässt. Der PUE-Wert setzt die insgesamt in einem Rechenzentrum verbrauchte Energie mit der Energieaufnahme der IT-Infrastruktur ins Verhältnis. Diese Energiemenge wird hauptsächlich für die Kühlungsinfrastruktur benötigt. Die in der Regel eingesetzte Luftkühlung erfordert sehr hohe Luftdurchsatzraten und große Temperaturunterschiede im Kühlkreislauf.
Mit einem Patent wurde eine wesentlich effizientere Technologie entwickelt [2], [3], die auf dem Konzept basiert, die Abwärme der IT-Geräte so früh wie möglich an das Kühlwasser abzugeben. Da die Wärmekapazität von Wasser um einen Faktor 4.000 größer ist als die von Luft, sind die Durchflussmengen und Temperaturunterschiede entsprechend geringer. Für die Kühlung mit Flüssigkeiten gibt es verschiedene Ansätze, wie zum Beispiel die Tauchkühlung oder die direkte Wasserkühlung der Kühlkörper im Server.
Bei der Kühlung von IT-Geräten müssen auch die Kosten für diese Geräte berücksichtigt werden, insbesondere wenn die gewählte Kühltechnologie Auswirkungen auf den verfügbaren Markt für diese Technologie hat. Der Massenmarkt bietet in der Regel den größten Wettbewerb, die kürzeste Markteinführungszeit und damit auch die beste Kosteneffizienz. Dieser sogenannte TCO-Faktor ist von besonderer Bedeutung, da Computer normalerweise nach 5 Betriebsjahren ausgetauscht werden. Im Vergleich dazu werden Rechenzentren durchschnittlich mehr als 20 Jahre lang betrieben.
Bei der Betrachtung generischer luftgekühlter Produkte (COTS-Systeme) ist der zusätzliche Strombedarf für die Lüfter im Servergehäuse zu berücksichtigen. Wenn man bedenkt, dass der Wirkungsgrad eines Lüfters umgekehrt proportional zum Quadrat seiner Drehzahl ist, liegt es auf der Hand, dass größere Lüfter mit geringerer Drehzahl kleineren Lüftern mit entsprechend höherer Drehzahl vorgezogen werden sollten. Bei Einsatz von 2U- oder größeren Servern liegt die typische Lüfterleistung unter 2 Prozent der Serverleistung.
Eine sehr effiziente Möglichkeit zur Kühlung der heißen Serverabluft sind Wärmetauscher, die in der hinteren Tür des Serverschranks montiert werden. Hierbei sind Kühlleistungen bis zu 50 kW pro Schrank möglich. Solche handelsüblichen Wärmetauscher erzeugen keinen nennenswerten Gegendruck auf den Luftstrom (< 30 Pa), wobei die heiße Abluft weniger als 0,2 s benötigt, bevor sie auf den Wärmetauscher trifft. Daher können alle vertikalen Effekte vernachlässigt werden. Es ist möglich, Hochleistungscomputerserver mit Dateiservern mit geringer Leistung im selben Schrank zu kombinieren.
Das Kühlwasser, das die Wärmetauscher durchläuft, muss zurückgekühlt werden. Abbildung 1 zeigt eine Skizze dieser Kühlarchitektur mit zwei Kühlkreisläufen. Der Sekundärkreislauf ist geschlossen, und dieses Wasser ist sauber. Das Kühlwasser im Primärkreislauf wird am effizientesten mit Verdunstungskühlern im offenen Kreislauf gekühlt. Dabei wird das Wasser im Inneren des Kühlers verdampft, wodurch das restliche Wasser im Primärkreislauf abgekühlt wird. Es gibt zwei redundante Pumpensätze, die das Wasser in den beiden Kühlkreisläufen bewegen.
Die wichtige Eigenschaft dieses Kühlsystems ist, dass es auf die Feuchtkugeltemperatur herunterkühlen kann, die in Deutschland unter 22 °C bleibt und typischerweise für etwa 100 Stunden pro Jahr über 20 °C liegt. Die erforderlichen Wasserdurchflussmengen stellen keine hohen Anforderungen an die Pumpenleistung. Diese Lösung hat gezeigt, dass die Raumtemperatur die Feuchtkugeltemperatur nur um 8 °C übersteigt und somit stets bei oder unter 30 °C gehalten werden kann. Abbildung 2 zeigt ein Stockwerk des sechsgeschossigen Green Cubes am GSI Helmholtzzentrum in Darmstadt. Jedes Stockwerk hat eine redundante Kühlleistung von 2 MW. Der Green Cube wird gegenwärtig mit etwa 15 Prozent seiner Kühlkapazität betrieben und hat eine durchschnittliche Gesamteffizienz der Kühlung von 7 Prozent der IT-Leistung (PUE-Wert von 1,07) nachgewiesen. Diese Zahlen wurden vom deutschen TÜV verifiziert. Es wurde bei 2,4 MW ein PUE-Wert von unter 1,03 gemessen. Der Green Cube am GSI Helmholtzzentrum trägt bereits seit mehreren Jahren das deutsche Umweltzeichen „Blauer Engel“.[/vc_column_text][vc_single_image image=“29487″ img_size=“large“ add_caption=“yes“][vc_single_image image=“29488″ img_size=“large“ add_caption=“yes“][vc_custom_heading text=“2. Computerarchitektur“ font_container=“tag:h3|font_size:28|text_align:left|color:%23676b6d“ use_theme_fonts=“yes“ css=“.vc_custom_1646053892190{padding-bottom: 10px !important;}“][vc_column_text]Im Allgemeinen gibt es einen Kompromiss zwischen der Anzahl von Graphikprozessoren (GPUs), Hautprozesskernen (CPUs) und Speichern in einem Server. Natürlich haben verschiedene Anwendungen unterschiedliche Anforderungen. Ein Maßstab hierfür ist der Anwendungsspeicherbedarf pro CPU-Kern. Im High-Performance Computing (HPC) Bereich sind 4 GB/Kern ein vernünftiger niedriger Wert. Eine weitere Kennzahl ist das Verhältnis zwischen CPU-Kernen und GPUs in einem Server. Wenn die Auswahl hier nicht optimal ist, werden entweder die GPUs oder die CPUs nicht optimal genutzt, was sowohl Geld als auch Energie verschwendet. Eine der jüngsten Installationen beim CERN ALICE-Experiment implementiert 64 CPU-Kerne und 8 GPUs in einem Server mit 512 GB Hauptspeicher. Insgesamt gibt es 250 dieser Server, so dass 2.000 GPUs, 16.000 physische CPU-Kerne und insgesamt 125 TB Hauptspeicher implementiert sin (Ein TB sind 1.000 Gigabyte). Die Speicherinstallation ist hier sehr umfangreich, da diese Anwendung ziemlich große Datenpuffer benötigt.
Die Rechenleistung wird oft durch die Kühlkapazität des Servers begrenzt. Sowohl die CPUs als auch die GPUs drosseln ihre internen Taktraten je nach Auslastung und Temperatur. Diese Anpassungen erfolgen in der Regel sehr schnell. Es ist sehr wichtig, dieses Verhalten zu verstehen, insbesondere im Hinblick auf den Kontext der Anwendungen. Beim Hochleistungsrechnen ist es oft erforderlich, dass alle Server eine Aufgabe abschließen (zum Beispiel die Verarbeitung einer Kachel einer Matrix), bevor alle mit dem nächsten Schritt fortfahren können. In diesem Zusammenhang bestimmt der langsamste Knoten die Gesamtleistung. Die Durchführung einer Matrix-Multiplikations-Benchmark (DGEMM) auf einer Serie gleicher GPUs führte zu Schwankungen von 15 Prozent bei der individuellen Rechenleistung. Bei diesen Leistungsschwankungen handelt es sich um Schwankungen im Siliziumprozess während der Produktion. Bei der Ausführung des LINPACK-Algorithmus würde dies beispielsweise bedeuten, dass alle GPUs auf die unterste Leistungsgrenze heruntergebremst würden. Daher ist es ratsam, die Effizienz der GPUs zu bewerten und ihre Taktraten und Versorgungsspannungen auf ein Optimum für das gesamte System einzustellen. Dieser Optimierungsprozess erfordert in der Regel eine erhebliche Anzahl von Benchmarks. Der DGEMM-Algorithmus ist hier äußerst nützlich, da er eine sehr hohe Rechenauslastung der GPU aufweist. Ein auf diese Weise optimiertes System wird auch für Anwendungen eine sehr effiziente Leistung erbringen.
Server werden oft mit vielen zusätzlichen Funktionen für die verschiedenen möglichen Anwendungsbereiche ausgestattet, die aber in der Regel im konkreten Einsatz nicht benötigt werden. Durch Messung der Standby-Leistung eines Servers können solche Ineffizienzen identifiziert werden. In Anbetracht der meist großen Anzahl von Servern lohnt sich dieser Aufwand.
Mehrere unserer Systeme haben in der Green500-Weltrangliste der effizientesten Computer eine hohe Punktzahl erreicht (Platz 1, 2, 8) [4], [5]. Alle diese Systeme sind mit Lüftern ausgestattet.[/vc_column_text][vc_custom_heading text=“3. Software“ font_container=“tag:h3|font_size:28|text_align:left|color:%23676b6d“ use_theme_fonts=“yes“ css=“.vc_custom_1646053972789{padding-bottom: 10px !important;}“][vc_column_text]Die Verfügbarkeit von hochparallelen Manycore-Architekturen, GPUs, Wide-Vector-Prozessoren und neuen Speichertechnologien führt zu einem Paradigmenwechsel bei der Entwicklung von Algorithmen und zu einer enormen Steigerung der Effizienz, die mehrere Größenordnungen betragen kann.
Prozessoren bieten eine zunehmende Anzahl von Vektorbefehlen, wobei sich die unter-
stützten Leistungsmerkmale von Architektur zu Architektur unterscheiden. Heutige Prozessoren implementieren 512-Bit breite Vektorregister. Das bedeutet, dass ein skalares Programm mit einer Performance von nur 1/8 bei doppelter oder 1/16 bei einfacher Rechengenauigkeit arbeitet. Gut vektorisierte Programme arbeiten auch auf GPUs sehr effizient. Vektorisierung muss bereits bei der Entwicklung des Algorithmus berücksichtigt werden. Die vorhandenen Autovektorisierungsfunktionen der Compiler können nicht reparieren, was auf der Konzeptebene fehlerhaft ist [6]. Das Vektorisierungspaket Vc wurde entwickelt, um die Entwicklung portabler vektorisierter Software zu ermöglichen [6]. Der Standard ISO/IEC 19570:2018 basiert nun auf Vc.
Die nächste Stufe hoch energieeffizienter Algorithmen nutzt GPUs. Diese Geräte sind darauf ausgelegt, massiv parallel zu arbeiten wie bei der Verarbeitung der Pixel eines Bildes. Darüber hinaus implementieren GPUs die schnellsten verfügbaren Speicher mit einer Zugriffsrate von über 1 TB/s.
Mehrere große Softwarepakete wurden für die Ausführung auf GPUs portiert. Beispiele hierfür sind die Entwicklung eines Open-CL-Gitter-QCD-Programms, das nach der Optimierung 10-fach beschleunigt wurde [7]. Im Bereich der relativistischen Molekulardynamik wurde das UrQMD-Paket umgeschrieben und um den Faktor 150 beschleunigt [8]. Die Spurrekonstruktion in der Kern- und Teilchenphysik muss selbst komplexeste Zerfallsmuster erkennen. Komplexe Algorithmen zur 4D-Ereignisrekonstruktion (3D plus Zeit) für verschiedene Experimente am CERN [9], [10], [11], sind für den Betrieb dieser Experimente unerlässlich. Der erste Optimierungsschritt auf der Basis von zellulären Automaten und Kalman-Filtern hat zu einer Geschwindigkeitssteigerung um den Faktor 10.000 geführt [11]. Im Bereich der Biowissenschaften konnte die Analyse elektronenmikroskopischer Daten mit bayesscher Inferenz um das 45- bis 450-fache beschleunigt werden [12]. All diese Verbesserungen haben es ermöglicht, dass diese Anwendungen effizient auf GPUs laufen. Darüber hinaus wurden Algorithmen für sehr große Datensätze, insbesondere Graphen, entwickelt, die die Geschwindigkeit um das 1.000-fache erhöhen.
Generell liegt die Zukunft der effizienten Datenverarbeitung in massiv parallelen Algorithmen, die nach Möglichkeit vektorielle oder vektorähnliche Anweisungen und Datenstrukturen verwenden. Das Preis-Leistungs-Verhältnis und die Energieeffizienz der GPUs übertreffen die von CPUs erheblich. Die Anpassung der Software ist oft mit einigem Aufwand verbunden, aber in Anbetracht der bereits nachgewiesenen Vorteile sind die Amortisationszeiten sehr kurz. Beispielsweise wurde die Online-Rekonstruktionssoftware für das ALICE-Experiment am CERN so angepasst, dass sie zu mehr als 95% auf GPUs läuft. Direkte Vergleiche haben gezeigt, dass ein gleichwertiges System, das nur auf einer CPU läuft, die Investitionskosten um den Faktor 7 erhöht hätte, was einer potenziellen Kostensteigerung von 36 Millionen Dollar entspricht.[/vc_column_text][ult_createlink title=“zu den Literaturangaben“ btn_link=“url:https%3A%2F%2Fbit.ly%2F3rNXaRA|target:_blank“][/vc_column][/vc_row][vc_row][vc_column][ult_dualbutton btn_hover_style=“Style 2″ btn_border_style=“solid“ btn_color_border=“#ffffff“ btn_border_size=“2″ btn_alignment=“left“ dual_resp=“off“ button1_text=“Einzelheft kaufen“ icon_link=“url:https%3A%2F%2Fwww.im-io.de%2Fproduct%2Flerngroesse-eins%2F|title:Lerngr%C3%B6sse%20Eins“ btn1_background_color=“#f3f3f3″ btn1_bghovercolor=“#f07d00″ icon=“Defaults-book“ icon_size=“22″ icon_color=“#f07d00″ icon_hover_color=“#ffffff“ button2_text=“Jetzt abonnieren“ btn_icon_link=“url:https%3A%2F%2Fwww.aws-institut.de%2Fim-io%2Fabo%2F|title:Abo||“ btn2_background_color=“#f3f3f3″ btn2_bghovercolor=“#f07d00″ btn_icon=“Defaults-chevron-right“ btn_icon_size=“22″ btn_icon_color=“#f07d00″ btn_iconhover_color=“#ffffff“ divider_text=“oder“ divider_text_color=“#f07d00″ divider_bg_color=“#ffffff“ btn1_text_color=“#f07d00″ btn1_text_hovercolor=“#ffffff“ btn2_text_color=“#f07d00″ btn2_text_hovercolor=“#ffffff“ title_font_size=“desktop:20px;“ btn_border_radius=“30″ title_line_ht=“desktop:22px;“ btn_width=“280″][/vc_column][/vc_row]

LinkedIn
WhatsApp
Telegram
Facebook

August-Wilhelm Scheer Institut

Ähnliche Artikel entdecken

Entdecken Sie unsere neusten Ausgaben

Innovationskultur – Räume, Regeln, Rebellen