Instalacja klastra HPC chłodzonego wodą (Liquid Cooling)

We wpisie poświęconym architekturze systemów HPC zidentyfikowaliśmy krytyczne ograniczenie wydajności nowoczesnych systemów: barierę termiczną. Dzisiejsze procesory i akceleratory osiągają ogromną moc, generując przy tym ciepło przekraczające 700W na układ. W takich warunkach tradycyjne chłodzenie powietrzem przestaje być wystarczające – zarówno pod kątem fizyki, jak i kosztów utrzymania

Woda, a dokładniej ciecz chłodząca coraz częściej wygrywa w klastrach HPC z klasycznym chłodzeniem powietrzem. Powód jest prosty: rosnąca gęstość mocy w szafie, coraz „cieplejsze” CPU i GPU oraz presja na efektywność energetyczną sprawiają, że chłodzenie powietrzem zaczyna być niewystarczające. Ten przewodnik prowadzi krok po kroku przez proces: od analizy wymagań, przez projekt infrastruktury i hydrauliki, aż po testy odbiorowe i przekazanie do eksploatacji.

Artykuł ma na celu dostarczenie konkretnych wytycznych i checklisty, która pozwoli zidentyfikować punkty krytyczne projektu, zminimalizować ryzyko awarii hydraulicznych oraz zapewnić płynny start produkcyjny nowej infrastruktury.

Dla kogo jest ten przewodnik?

dla działów IT i administratorów Data Center, którzy przygotowują środowisko pod HPC,
dla inżynierów infrastruktury (zasilanie, chłodzenie, bezpieczeństwo),
dla zespołów kupujących/zarządzających projektem (TCO, harmonogram, SLA),
dla organizacji, które planują uruchomienie klastra GPU/CPU (AI/ML, symulacje, CAE, analityka).

Dlaczego chłodzenie wodą w HPC?

Przejście na chłodzenie cieczą nie jest podyktowane trendami rynkowymi, lecz nieubłaganymi prawami termodynamiki. Woda posiada pojemność cieplną objętościowo około 3500 razy większą niż powietrze, co czyni ją jedynym efektywnym medium dla systemów nowej generacji.

Kiedy powietrze przestaje wystarczać?

Jeśli w Twojej serwerowni pojawiają się poniższe symptomy, oznacza to, że tradycyjna klimatyzacja osiągnęła kres wydajności:

brak możliwości zwiększenia mocy na szafę bez przegrzewania,
spadki taktowań (throttling) GPU/CPU pod obciążeniem,
problemy z równomiernym rozkładem temperatur w szafie,
hałas, wysokie prędkości wentylatorów, wyższe zużycie energii.

Korzyści chłodzenie wodnego (Liquid Cooling)

Przejście na chłodzenie cieczą to nie to nie tylko doraźne rozwiązanie problemu przegrzewania, ale całkowita zmiana parametrów pracy serwerowni, która zapewnia:

lepsze odprowadzanie ciepła (stabilniejsze temperatury i wydajność),
większą gęstość mocy w szafie,
potencjalnie niższy koszt operacyjny chłodzenia,
większą przewidywalność pracy przy długich zadaniach (HPC/AI).

Technologie chłodzenia cieczą w praktyce: Direct-to-Chip (D2C) vs RDHx

Rynek rozwiązań Liquid Cooling opiera się obecnie na dwóch głównych modelach wdrożeniowych:

Direct-to-chip (D2C)

Ciecz chłodzi bezpośrednio GPU/CPU przez cold-plate’y.

Plusy: najlepsza efektywność termiczna, najwyższa gęstość mocy.
Minusy: bardziej złożona hydraulika, większe wymagania serwisowe/proceduralne, teoretyczna możliwość zalania serwera.

Rear-door heat exchanger (RDHx)

Wymiennik w drzwiach tylnych szafy odbiera ciepło z powietrza wylotowego.

Plusy: prostsza integracja z serwerami, mniejsza ingerencja w sprzęt.
Minusy: zwykle mniejszy „margines cieplny” niż D2C (serwery oddają ciepło najpierw do powietrza, a potem do wymiennika).

W wielu projektach spotyka się też rozwiązania hybrydowe (część ciepła w cieczy za pomocą D2C, reszta w powietrzu) – istotne przy rozbudowie istniejącej serwerowni.

10 kroków od koncepcji do eksploatacji (End-to-End)

Etap 1: Analiza wymagań i profil obciążenia

Zanim zamówisz jakikolwiek sprzęt, zbierz istotne dane:

Cel klastra: AI/ML, symulacje, render, analityka? (Wpływa na dobór GPU/CPU i sieci).
Docelowa moc obliczeniowa: Teraz i perspektywa na 12–24 miesiące.
Profil obciążenia: Ciągły, „bursty” (nagłe skoki), wsady nocne? (Wpływa na plan chłodzenia i zasilania).
Wymagany czas dostępności: Np. 24/7, okna serwisowe, SLA.
Ograniczenia lokalowe: Liczba szaf, nośność podłogi, przestrzeń serwisowa.
Wymogi bezpieczeństwa: Detekcja wycieku, procedury awaryjne, monitoring.

Wskazówka W HPC najczęściej nie „szukasz średniej”, tylko projektujesz pod piki i warunki graniczne (najgorszy scenariusz temperatury, maksymalny load, najgorszy airflow/rozmieszczenie).

Etap 2: Projekt architektury klastra obliczeniowego

1. Niezbędne elementy infrastruktury:

Węzły obliczeniowe GPU/CPU (określ konfigurację i ilość).
Węzły zarządzające (min. dwa dla redundancji: login, mgmt, provisioning).
Sieć (wydzielona: obliczeniowa, management, OOB, storage).
Storage (dobrany do profilu I/O).
Scheduler (system kolejkowy, np. Slurm).
Monitoring i logowanie.

2. Warstwa logiczna i założenia operacyjne:

topologię sieci,
politykę provisioningu (automatyzacji wdrażania),
strategię aktualizacji i rollbacku (wycofywania zmian),
standardy obserwowalności (jakie metryki i logi zbieramy).

Etap 3: Projekt infrastruktury DC (zasilanie + przestrzeń)

Zasilanie:

ustal:

docelową moc na szafę i łączną,
poziom redundancji (N, N+1, 2N),
rozdział na PDU, zabezpieczenia, ewentualnie UPS i agregat prądotwórczy.

Checklista pytań:

Czy rozdzielnia ma wystarczający zapas mocy?
Jak rozwiązujesz redundancję zabezpieczeń?

Przestrzeń i logistyka:

Ścieżka transportu (wymiary, windy, rampy).
Strefy serwisowe (front/back, dostęp do CDU, zaworów).
Nośność podłogi (szafy + ciecz + okablowanie).
Plan okablowania (żeby uniknąć „pajęczyny” utrudniającej serwis).

Etap 4: Projekt hydrauliki i obiegu cieczy (serce wdrożenia)

Kluczowe elementy:

CDU (Coolant Distribution Unit) – rozdziela obiegi, zawiera pompy/wymiennik.
Magistrale / rozdzielacze – doprowadzenie cieczy do szaf.
Szybkozłącza – bezpieczne rozłączanie serwerów przy serwisie.
Czujniki i detekcja wycieków – obowiązkowe.

Parametry cieczy o których należy pamiętać:

Jakość wody/medium (filtracja, przewodność, korozja).
Temperatury zasilania/powrotu.
Przepływy i różnice ciśnień.
Procedury napełniania/odpowietrzania.

Wskazówka: projekt musi uwzględniać krytyczne scenariusze serwisowe: bezpieczny hot-swap komponentów hydraulicznych, zarządzanie powietrzem w układzie oraz zautomatyzowaną reakcję na wykrycie wilgoci

Etap 5: Dobór sprzętu pod chłodzenie cieczą

Przy wyborze serwerów GPU/CPU zwróć uwagę na:

kompatybilność z D2C/RDHx,
dostępność części i czas naprawy (SLA),
ergonomię serwisu (czy da się wykonać czynności bez demontażu połowy szafy),
wymagania producenta co do medium i parametrów,
telemetrię (temperatury, alarmy).

Etap 6: Plan instalacji (harmonogram + ryzyka)

Dobrze działają projekty, które mają spisane:

Rozmieszczenie sprzętu w szafach (z uwzględnieniem mocy zasilania, chłodzenia i wagi sprzętu).
Kolejność prac (DC → hydraulika → szafy → okablowanie → uruchomienie).
Punkty kontrolne (odbiór zasilania, test szczelności, testy sieci).
Plan awaryjny (co robimy przy wycieku? kto decyduje? gdzie są zawory?).

Etap 7: Instalacja fizyczna – krok po kroku

Dostawa i rozładunek: sprawdzenie kompletności, oznaczeń i dokumentacji oraz kontrola uszkodzeń transportowych.
Ustawienie szaf i organizacja przestrzeni: poziomowanie, zachowanie stref serwisowych, przygotowanie ścieżek kablowych, instalacja PDU.
Instalacja hydrauliki i podłączenia: montaż CDU i rozdzielaczy, podłączenie złączy, zaworów, filtrów, instalacja czujników wycieku.
Test szczelności i próby ciśnieniowe: wykonaj testy przed podłączeniem elektroniki i dokumentuj wyniki.
Instalacja serwerów: wykonaj oznaczenia sprzętu (labels).
Napełnianie i odpowietrzanie: zgodnie z procedurą dostawcy, monitoruj przepływy i ciśnienia.
Okablowanie zasilania i sieci: patch plan, etykiety, podstawowe pomiary i testy.

Etap 8: Uruchomienie systemowe (software + provisioning)

Typowy przebieg:

konfiguracja sieci zarządzającej i dostępów,
provisioning systemów (obrazy, automatyzacja),
instalacja i konfiguracja schedulera,
monitoring (metryki, alerty),
polityki bezpieczeństwa (kontrola dostępu, aktualizacje, logowanie).

Wskazówka: W HPC wszystko, co da się zautomatyzować (provisioning, konfiguracje, walidacje) – automatyzuj. Ręczne „klikanie” przy rozbudowie zamieni się w dług technologiczny.

Etap 9: Testy odbiorowe i walidacja wydajności

Odbiór powinien obejmować trzy warstwy:

Infrastruktura chłodzenia: stabilność temperatur, przepływów, ciśnień; reakcja na awarie (alarmy, odcięcia, procedury); testy detekcji wycieków.
Sieć i storage: przepustowość i opóźnienia, testy I/O (profil zgodny z obciążeniami), testy awaryjne (np. utrata jednego elementu – jeśli projekt zakłada redundancję).
Obliczenia (GPU/CPU): testy obciążeniowe i długie przebiegi, weryfikacja stabilności (brak throttlingu pod założonym chłodzeniem), benchmarki zgodne z celem klastra.

Końcowym artefaktem powinien być raport odbiorczy: parametry, wyniki, odchylenia, rekomendacje.

Etap 10: Przekazanie do eksploatacji (RUN)

Pominięcie tego etapu to najczęstsza przyczyna paraliżu decyzyjnego i wydłużonego czasu naprawy (MTTR) podczas pierwszej awarii.

Co musi zostać po projekcie:

dokumentacja powykonawcza (schematy, numery portów, opis obiegów),
procedury serwisowe (rozłączenia, odpowietrzanie, wycieki),
lista części krytycznych i minimalny stock (stan magazynowy),
harmonogram przeglądów (filtry, jakość medium, testy czujników),
dashboardy i alerty (co jest alarmem, co tylko ostrzeżeniem)

Pułapki wdrożeniowe – 5 krytycznych błędów

1
Projekt „na styk” bez marginesu pod rozbudowę → planuj 12–24 miesiące do przodu.
2
Brak procedur reakcji na wyciek → procedura + szkolenie + testy.
3
Niedoszacowanie mocy i dystrybucji zasilania → analiza zasilania na etapie koncepcji.
4
Zaniedbanie patch-plan’u → etykiety, standard, dokumentacja, testy.
5
Brak telemetrii → monitoring temperatur, przepływów, ciśnień i alarmów od startu.

Podsumowanie

Instalacja klastra HPC chłodzonego cieczą to projekt, w którym IT i infrastruktura muszą iść równo: dobór serwerów i sieci jest równie ważny jak CDU, parametry medium, procedury serwisowe i testy odbiorowe.

Jeśli zadbasz o porządną analizę wymagań, dobrze zaprojektujesz obieg cieczy i zautomatyzujesz uruchomienie, zyskasz nie tylko wydajność, ale też przewidywalność działania i łatwiejszą rozbudowę.

Skontaktuj się

Spis treści

Zobacz inne wpisy

Czym jest obserwowalność (Observability)?
Wpis
WASKO uzyskało status Lenovo 360 Platinum
Wpis
WASKO na V Kongresie „Geoinżynieria i Budownictwo Podziemne” – technologie dla infrastruktury tunelowej
Wpis

Skontaktuj się i otrzymaj więcej informacji

Skorzystaj z formularza, a my do Ciebie oddzwonimy

Wypełnij formularz

Cookie	Czas przechowywania	Opis
__hssrc	sesja	Za każdym razem, gdy HubSpot zmienia plik cookie sesji, ten plik cookie jest również ustawiany w celu określenia, czy odwiedzający ponownie uruchomił przeglądarkę. Jeśli ten plik cookie nie istnieje, gdy HubSpot zarządza plikami cookie, jest uważany za nową sesję. Zawiera wartość „1”, jeśli jest obecna. Wygasa na koniec sesji.
cookielawinfo-checkbox-advertisement	1 rok	Ustawiony przez wtyczkę RODO Cookie Consent, ten plik cookie służy do rejestrowania zgody użytkownika na pliki cookie w kategorii „Marketingowe”.
cookielawinfo-checkbox-analytics	1 rok	Ten plik cookie, ustawiony przez wtyczkę GDPR Cookie Consent, służy do rejestrowania zgody użytkownika na pliki cookie w kategorii „Analityczne”.
cookielawinfo-checkbox-functional	1 rok	Plik cookie jest ustawiany przez wtyczkę RODO Cookie Consent w celu rejestrowania zgody użytkownika na pliki cookie w kategorii „Funkcjonalne”.
cookielawinfo-checkbox-necessary	1 rok	Ustawiony przez wtyczkę RODO Cookie Consent, ten plik cookie służy do rejestrowania zgody użytkownika na pliki cookie w kategorii „Niezbędne”.
cookielawinfo-checkbox-others	1 rok	Ustawiony przez wtyczkę RODO Cookie Consent, ten plik cookie służy do przechowywania zgody użytkownika na pliki cookie w kategorii „Pozostałe”.
CookieLawInfoConsent	1 rok	Ustawiony przez wtyczkę RODO Cookie Consent, ten plik cookie służy do przechowywania zgody użytkownika na pliki cookie w kategorii „Pozostałe”.
viewed_cookie_policy	1 rok	Plik cookie jest ustawiany przez wtyczkę GDPR Cookie Consent plugin i służy do przechowywania informacji, czy użytkownik wyraził zgodę na korzystanie z plików cookie. Nie przechowuje żadnych danych osobowych.

Cookie	Czas przechowywania	Opis
__cf_bm	30 minut	Ten plik cookie, ustawiony przez Cloudflare, służy do obsługi zarządzania botami Cloudflare.
__hssc	1 hour	Ten plik cookie śledzi sesje. Służy do określenia, czy HubSpot powinien zwiększać numer sesji i znaczniki czasu w pliku cookie __hstc. Zawiera domenę, liczbę wyświetleń (zwiększa każdy widok strony w sesji) i znacznik czasu rozpoczęcia sesji. Wygasa za 30 minut.
_hjAbsoluteSessionInProgress	sesja	Hotjar ustawia ten plik cookie, aby wykryć pierwszą sesję odsłony użytkownika, która jest flagą Prawda/Fałsz ustawianą przez plik cookie.
_lscache_vary	2 dni	Litespeed ustawia ten plik cookie, aby zapobiec tworzeniu się stron w pamięci podręcznej.
wp-wpml_current_language	Sesja	Zapisuje bieżący język. Ten plik cookie jest domyślnie włączony w witrynach korzystających z funkcji filtrowania języka dla operacji AJAX.

Cookie	Czas przechowywania	Opis
__hstc	6 miesięcy	Jest to główny plik cookie ustawiany przez Hubspot do śledzenia odwiedzających. Zawiera domenę, początkowy znacznik czasu (pierwsza wizyta), ostatni znacznik czasu (ostatnia wizyta), aktualny znacznik czasu (ta wizyta) oraz numer sesji (przyrosty dla każdej kolejnej sesji
_ga	2 lata	Służy do rozróżniania użytkowników. Plik cookie _ga, instalowany przez Google Analytics, oblicza dane dotyczące odwiedzających, sesji i kampanii, a także śledzi wykorzystanie witryny na potrzeby raportu analitycznego witryny. Plik cookie przechowuje informacje anonimowo i przypisuje losowo wygenerowany numer w celu rozpoznania unikalnych użytkowników.
_ga_*	2 lata	Ten plik cookie jest instalowany przez Google Analytics.
_hjFirstSeen	sesja	Używane do wykrywania pierwszej sesji odsłony strony użytkownika.
_hjRecordingEnabled	sesja	Hotjar ustawia ten plik cookie, gdy rozpoczyna się nagrywanie i jest odczytywany podczas inicjalizacji modułu nagrywającego, aby sprawdzić, czy użytkownik uczestniczy już w nagraniu w określonej sesji.
_hjSession_*	30 minut	Hotjar ustawia ten plik cookie, aby zapewnić, że dane z kolejnych wizyt w tej samej witrynie są przypisywane do tego samego identyfikatora użytkownika, który pozostaje w identyfikatorze użytkownika Hotjar, który jest unikalny dla tej witryny.
_hjSessionUser_*	1rok	Hotjar ustawia ten plik cookie, aby zapewnić, że dane z kolejnych wizyt w tej samej witrynie są przypisywane do tego samego identyfikatora użytkownika, który pozostaje w identyfikatorze użytkownika Hotjar, który jest unikalny dla tej witryny.
CONSENT	2 lata	YouTube ustawia ten plik cookie za pośrednictwem osadzonych filmów z YouTube i rejestruje anonimowe dane statystyczne.
hubspotutk	6 miesięcy	Ten plik cookie śledzi tożsamość odwiedzającego. Jest ona przekazywana do HubSpot po przesłaniu formularza i używana podczas deduplikacji kontaktów. Zawiera nieprzezroczysty identyfikator GUID reprezentujący bieżącego gościa.

Cookie	Czas przechowywania	Opis
VISITOR_INFO1_LIVE	8 miesięcy	Plik cookie ustawiony przez YouTube w celu pomiaru przepustowości, który określa, czy użytkownik otrzyma nowy czy stary interfejs odtwarzacza.
YSC	Sesja	Plik cookie YSC jest ustawiany przez YouTube i służy do śledzenia wyświetleń osadzonych filmów wideo na stronach serwisu YouTube. Dba o bezpieczeństwo i zapobiega spamowi, oszustwom i nadużyciom. Ten pliki cookie uniemożliwiają złośliwym witrynom działanie w imieniu użytkownika bez jego wiedzy.
yt-remote-connected-devices	nigdy	YouTube ustawia ten plik cookie do przechowywania preferencji wideo użytkownika za pomocą osadzonego wideo YouTube. Te pliki cookie nie zbierają informacji identyfikujących użytkownika.
yt-remote-device-id	nigdy	YouTube ustawia ten plik cookie do przechowywania preferencji wideo użytkownika za pomocą osadzonego wideo YouTube. Te pliki cookie nie zbierają informacji identyfikujących użytkownika.

Cookie	Czas przechowywania	Opis
_cfuvid	sesja	Plik cookie _cfuvid jest ustawiany tylko wtedy, gdy witryna korzysta z tej opcji w regule ograniczania szybkości i jest używany tylko w celu umożliwienia Cloudflare WAF rozróżnienia poszczególnych użytkowników, którzy mają ten sam adres IP.
VISITOR_PRIVACY_METADATA	6 miesięcy	Plik cookie metadanych prywatności odwiedzających YouTube.

Instalacja klastra HPC chłodzonego wodą – przewodnik od projektu do uruchomienia