We wpisie poświęconym architekturze systemów HPC zidentyfikowaliśmy krytyczne ograniczenie wydajności nowoczesnych systemów: barierę termiczną. Dzisiejsze procesory i akceleratory osiągają ogromną moc, generując przy tym ciepło przekraczające 700W na układ. W takich warunkach tradycyjne chłodzenie powietrzem przestaje być wystarczające – zarówno pod kątem fizyki, jak i kosztów utrzymania

Woda, a dokładniej ciecz chłodząca coraz częściej wygrywa w klastrach HPC z klasycznym chłodzeniem powietrzem. Powód jest prosty: rosnąca gęstość mocy w szafie, coraz „cieplejsze” CPU i GPU oraz presja na efektywność energetyczną sprawiają, że chłodzenie powietrzem zaczyna być niewystarczające. Ten przewodnik prowadzi krok po kroku przez proces: od analizy wymagań, przez projekt infrastruktury i hydrauliki, aż po testy odbiorowe i przekazanie do eksploatacji.

Artykuł ma na celu dostarczenie konkretnych wytycznych i checklisty, która pozwoli zidentyfikować punkty krytyczne projektu, zminimalizować ryzyko awarii hydraulicznych oraz zapewnić płynny start produkcyjny nowej infrastruktury.

Dla kogo jest ten przewodnik?

  • dla działów IT i administratorów Data Center, którzy przygotowują środowisko pod HPC,
  • dla inżynierów infrastruktury (zasilanie, chłodzenie, bezpieczeństwo),
  • dla zespołów kupujących/zarządzających projektem (TCO, harmonogram, SLA),
  • dla organizacji, które planują uruchomienie klastra GPU/CPU (AI/ML, symulacje, CAE, analityka).

Dlaczego chłodzenie wodą w HPC?

Przejście na chłodzenie cieczą nie jest podyktowane trendami rynkowymi, lecz nieubłaganymi prawami termodynamiki. Woda posiada pojemność cieplną objętościowo około 3500 razy większą niż powietrze, co czyni ją jedynym efektywnym medium dla systemów nowej generacji.

Kiedy powietrze przestaje wystarczać?

Jeśli w Twojej serwerowni pojawiają się poniższe symptomy, oznacza to, że tradycyjna klimatyzacja osiągnęła kres wydajności:

  • brak możliwości zwiększenia mocy na szafę bez przegrzewania,
  • spadki taktowań (throttling) GPU/CPU pod obciążeniem,
  • problemy z równomiernym rozkładem temperatur w szafie,
  • hałas, wysokie prędkości wentylatorów, wyższe zużycie energii.

Korzyści chłodzenie wodnego (Liquid Cooling)

Przejście na chłodzenie cieczą to nie to nie tylko doraźne rozwiązanie problemu przegrzewania, ale całkowita zmiana parametrów pracy serwerowni, która zapewnia:

  • lepsze odprowadzanie ciepła (stabilniejsze temperatury i wydajność),
  • większą gęstość mocy w szafie,
  • potencjalnie niższy koszt operacyjny chłodzenia,
  • większą przewidywalność pracy przy długich zadaniach (HPC/AI).

Technologie chłodzenia cieczą w praktyce: Direct-to-Chip (D2C) vs RDHx

Rynek rozwiązań Liquid Cooling opiera się obecnie na dwóch głównych modelach wdrożeniowych:

Direct-to-chip (D2C)

Ciecz chłodzi bezpośrednio GPU/CPU przez cold-plate’y.

Plusy: najlepsza efektywność termiczna, najwyższa gęstość mocy.
Minusy: bardziej złożona hydraulika, większe wymagania serwisowe/proceduralne, teoretyczna możliwość zalania serwera.

Rear-door heat exchanger (RDHx)

Wymiennik w drzwiach tylnych szafy odbiera ciepło z powietrza wylotowego.

Plusy: prostsza integracja z serwerami, mniejsza ingerencja w sprzęt.
Minusy:
zwykle mniejszy „margines cieplny” niż D2C (serwery oddają ciepło najpierw do powietrza, a potem do wymiennika).

W wielu projektach spotyka się też rozwiązania hybrydowe (część ciepła w cieczy za pomocą D2C, reszta w powietrzu) – istotne przy rozbudowie istniejącej serwerowni.

10 kroków od koncepcji do eksploatacji (End-to-End)

Zanim zamówisz jakikolwiek sprzęt, zbierz istotne dane:

  • Cel klastra: AI/ML, symulacje, render, analityka? (Wpływa na dobór GPU/CPU i sieci).
  • Docelowa moc obliczeniowa: Teraz i perspektywa na 12–24 miesiące.
  • Profil obciążenia: Ciągły, „bursty” (nagłe skoki), wsady nocne? (Wpływa na plan chłodzenia i zasilania).
  • Wymagany czas dostępności: Np. 24/7, okna serwisowe, SLA.
  • Ograniczenia lokalowe: Liczba szaf, nośność podłogi, przestrzeń serwisowa.
  • Wymogi bezpieczeństwa: Detekcja wycieku, procedury awaryjne, monitoring.

Wskazówka W HPC najczęściej nie „szukasz średniej”, tylko projektujesz pod piki i warunki graniczne (najgorszy scenariusz temperatury, maksymalny load, najgorszy airflow/rozmieszczenie).

1. Niezbędne elementy infrastruktury:

  • Węzły obliczeniowe GPU/CPU (określ konfigurację i ilość).
  • Węzły zarządzające (min. dwa dla redundancji: login, mgmt, provisioning).
  • Sieć (wydzielona: obliczeniowa, management, OOB, storage).
  • Storage (dobrany do profilu I/O).
  • Scheduler (system kolejkowy, np. Slurm).
  • Monitoring i logowanie.

2. Warstwa logiczna i założenia operacyjne: 

  • topologię sieci,
  • politykę provisioningu (automatyzacji wdrażania),
  • strategię aktualizacji i rollbacku (wycofywania zmian),
  • standardy obserwowalności (jakie metryki i logi zbieramy).

Zasilanie:

ustal:

  • docelową moc na szafę i łączną,
  • poziom redundancji (N, N+1, 2N),
  • rozdział na PDU, zabezpieczenia, ewentualnie UPS i agregat prądotwórczy.

Checklista pytań:

  • Czy rozdzielnia ma wystarczający zapas mocy?
  • Jak rozwiązujesz redundancję zabezpieczeń?

Przestrzeń i logistyka:

  • Ścieżka transportu (wymiary, windy, rampy).
  • Strefy serwisowe (front/back, dostęp do CDU, zaworów).
  • Nośność podłogi (szafy + ciecz + okablowanie).
  • Plan okablowania (żeby uniknąć „pajęczyny” utrudniającej serwis).

Kluczowe elementy:

  • CDU (Coolant Distribution Unit) – rozdziela obiegi, zawiera pompy/wymiennik.
  • Magistrale / rozdzielacze – doprowadzenie cieczy do szaf.
  • Szybkozłącza – bezpieczne rozłączanie serwerów przy serwisie.
  • Czujniki i detekcja wycieków – obowiązkowe.

Parametry cieczy o których należy pamiętać: 

  • Jakość wody/medium (filtracja, przewodność, korozja).
  • Temperatury zasilania/powrotu.
  • Przepływy i różnice ciśnień.
  • Procedury napełniania/odpowietrzania.

Wskazówka: projekt musi uwzględniać krytyczne scenariusze serwisowe: bezpieczny hot-swap komponentów hydraulicznych, zarządzanie powietrzem w układzie oraz zautomatyzowaną reakcję na wykrycie wilgoci

Przy wyborze serwerów GPU/CPU zwróć uwagę na:

  • kompatybilność z D2C/RDHx,
  • dostępność części i czas naprawy (SLA),
  • ergonomię serwisu (czy da się wykonać czynności bez demontażu połowy szafy),
  • wymagania producenta co do medium i parametrów,
  • telemetrię (temperatury, alarmy).

Dobrze działają projekty, które mają spisane:

  • Rozmieszczenie sprzętu w szafach (z uwzględnieniem mocy zasilania, chłodzenia i wagi sprzętu).
  • Kolejność prac (DC → hydraulika → szafy → okablowanie → uruchomienie).
  • Punkty kontrolne (odbiór zasilania, test szczelności, testy sieci).
  • Plan awaryjny (co robimy przy wycieku? kto decyduje? gdzie są zawory?).
  • Dostawa i rozładunek: sprawdzenie kompletności, oznaczeń i dokumentacji oraz kontrola uszkodzeń transportowych.
  • Ustawienie szaf i organizacja przestrzeni: poziomowanie, zachowanie stref serwisowych, przygotowanie ścieżek kablowych, instalacja PDU.
  • Instalacja hydrauliki i podłączenia: montaż CDU i rozdzielaczy, podłączenie złączy, zaworów, filtrów, instalacja czujników wycieku.
  • Test szczelności i próby ciśnieniowe: wykonaj testy przed podłączeniem elektroniki i dokumentuj wyniki.
  • Instalacja serwerów: wykonaj oznaczenia sprzętu (labels).
  • Napełnianie i odpowietrzanie: zgodnie z procedurą dostawcy, monitoruj przepływy i ciśnienia.
  • Okablowanie zasilania i sieci: patch plan, etykiety, podstawowe pomiary i testy.

Typowy przebieg:

  • konfiguracja sieci zarządzającej i dostępów,
  • provisioning systemów (obrazy, automatyzacja),
  • instalacja i konfiguracja schedulera,
  • monitoring (metryki, alerty),
  • polityki bezpieczeństwa (kontrola dostępu, aktualizacje, logowanie).

Wskazówka: W HPC wszystko, co da się zautomatyzować (provisioning, konfiguracje, walidacje) – automatyzuj. Ręczne „klikanie” przy rozbudowie zamieni się w dług technologiczny.

Odbiór powinien obejmować trzy warstwy:

  • Infrastruktura chłodzenia: stabilność temperatur, przepływów, ciśnień; reakcja na awarie (alarmy, odcięcia, procedury); testy detekcji wycieków.
  • Sieć i storage: przepustowość i opóźnienia, testy I/O (profil zgodny z obciążeniami), testy awaryjne (np. utrata jednego elementu – jeśli projekt zakłada redundancję).
  • Obliczenia (GPU/CPU): testy obciążeniowe i długie przebiegi, weryfikacja stabilności (brak throttlingu pod założonym chłodzeniem), benchmarki zgodne z celem klastra.

Końcowym artefaktem powinien być raport odbiorczy: parametry, wyniki, odchylenia, rekomendacje.

Pominięcie tego etapu to najczęstsza przyczyna paraliżu decyzyjnego i wydłużonego czasu naprawy (MTTR) podczas pierwszej awarii.

Co musi zostać po projekcie:

  • dokumentacja powykonawcza (schematy, numery portów, opis obiegów),
  • procedury serwisowe (rozłączenia, odpowietrzanie, wycieki),
  • lista części krytycznych i minimalny stock (stan magazynowy),
  • harmonogram przeglądów (filtry, jakość medium, testy czujników),
  • dashboardy i alerty (co jest alarmem, co tylko ostrzeżeniem)

Pułapki wdrożeniowe – 5 krytycznych błędów

  • 1

    Projekt „na styk” bez marginesu pod rozbudowę → planuj 12–24 miesiące do przodu.

  • 2

    Brak procedur reakcji na wyciek → procedura + szkolenie + testy.

  • 3

    Niedoszacowanie mocy i dystrybucji zasilania → analiza zasilania na etapie koncepcji.

  • 4

    Zaniedbanie patch-plan’u → etykiety, standard, dokumentacja, testy.

  • 5

    Brak telemetrii → monitoring temperatur, przepływów, ciśnień i alarmów od startu.

Podsumowanie

Instalacja klastra HPC chłodzonego cieczą to projekt, w którym IT i infrastruktura muszą iść równo: dobór serwerów i sieci jest równie ważny jak CDU, parametry medium, procedury serwisowe i testy odbiorowe.

Jeśli zadbasz o porządną analizę wymagań, dobrze zaprojektujesz obieg cieczy i zautomatyzujesz uruchomienie, zyskasz nie tylko wydajność, ale też przewidywalność działania i łatwiejszą rozbudowę.

Spis treści

Zobacz inne wpisy

  • grafika ozdobna
    Mobilna inspekcja przemysłowa. Roboty mobilne, Machine Vision oraz Systemy klasy SCADA

    Wpis

  • wasko partnerstwo supermicro
    WASKO partnerem serwisowym Supermicro

    Wpis

  • obrazek ozdobny chłodzenie hpc
    Instalacja klastra HPC chłodzonego wodą – przewodnik od projektu do uruchomienia

    Wpis

Formularz kontaktowy koperta ozdobnik

Skontaktuj się i otrzymaj więcej informacji

Skontaktuj się i otrzymaj więcej informacji

Skorzystaj z formularza, a my do Ciebie oddzwonimy

Skorzystaj z formularza, a my do Ciebie oddzwonimy

Formularz kontaktowy koperta ozdobnik