Yeni Nesil HPC Küme Yönetimi: BlueBanquise Mimarisi ve Rocky Linux Stabilizasyonu
Yeni Nesil HPC Küme Yönetimi: BlueBanquise Mimarisi ve Rocky Linux Stabilizasyonu

BlueBanquise
Yüksek Başarımlı Hesaplama (HPC) dünyası, geleneksel olarak monolitik, öğrenme eğrisi dik ve yönetimi uzmanlık gerektiren küme yönetim (cluster provisioning/management) araçlarının hakimiyetindedir. Yıllarca sektörü domine eden xCAT gibi güçlü ancak karmaşık araçların veya tamamen “stateless” (disksiz) odaklı Warewulf gibi çözümlerin yanında, son yıllarda modern BT dünyasının esnekliğini HPC’ye taşıyan yeni bir aktör öne çıkmaktadır: BlueBanquise.
Fransız HPC topluluğu ve endüstriyel ortaklar tarafından geliştirilen BlueBanquise; modern konfigürasyon yönetimi felsefesini, Altyapı Standartlarını (Infrastructure as Code – IaC) ve esnek dağıtım modellerini bir araya getiren açık kaynaklı bir HPC küme yönetim yığınıdır.
Bu makalede, BlueBanquise’in mimari detaylarını, Rocky Linux ile yakaladığı kararlılık (stability) mantığını, düğüm (node) yapısını ve dokümantasyonlarda kolayca bulunmayan derin teknik detayları inceleyeceğiz.
1. BlueBanquise Nedir? Temel Felsefesi ve Mimarisi
Geleneksel HPC yönetim araçları genellikle kendi özel betik dillerini, veri tabanlarını (örn. xCAT’in dahili veri tabanı) ve daemon’larını (arka plan süreçleri) kullanırlar. Bu durum, kümede bir sorun çıktığında hata ayıklamayı (debugging) zorlaştırır.
BlueBanquise ise tekerleği yeniden icat etmek yerine, modern sistem yönetiminin endüstri standardı olan araçları üzerine inşa edilmiştir:
-
Orkestrasyon Motoru: Ansible. BlueBanquise, özünde devasa ve son derece optimize edilmiş bir Ansible rolleri ve koleksiyonları bütünüdür.
-
Envanter Yönetimi: YAML dosyaları. Tüm küme konfigürasyonu, hiyerarşik YAML dosyalarında tutulur. Git gibi versiyon kontrol sistemleriyle (GitOps) %100 uyumludur.
-
Ağ Servisleri: ISC Kea (veya ISC DHCP), DNSMASQ, BIND9, PXE/iPXE ve HTTP (Nginx/Apache) gibi standart Linux servisleri.
Modüler Katman Yapısı (The Stack)
BlueBanquise üç ana katmandan oluşur:
-
Core (Çekirdek): Kümenin ağ topolojisini, DHCP, DNS, depoları (repositories) ve PXE önyükleme servislerini yöneten temel Ansible rolleri.
-
Flavor (Çeşni/Profil): Düğümlerin rollerini belirleyen katman. Bir düğümün “Hesaplama (Compute)”, “Depolama (Storage)” veya “Giriş (Login)” düğümü olacağını ve üzerine hangi yazılımların (Slurm, OpenMPI vb.) kurulacağını tanımlar.
-
Ecosystem (Ekosistem): İzleme araçları (Grafana, Prometheus), dosya sistemleri (Lustre, Ceph) gibi HPC çevre birimlerinin entegrasyonunu sağlayan genişleme paketleri.
2. Rocky Linux ile Stabil Çalışma Mantığı
CentOS’un geleneksel yayın akışını değiştirmesinin ardından HPC topluluğu, Red Hat Enterprise Linux (RHEL) kaynak kodlarından derlenen ve downstream olan Rocky Linux üzerinde fikir birliğine varmıştır. BlueBanquise ve Rocky Linux kombinasyonu, kurumsal düzeyde bir HPC kümesi için şu anda en kararlı (stable) kombinasyonlardan biridir.
Peki bu kararlılık teknik olarak nasıl sağlanıyor?
Paket ve Depo (Repository) Kilitleme Mantığı
HPC kümelerinde “çalışan sisteme dokunulmaz” kuralı katıdır. Hesaplama düğümlerindeki en ufak bir glibc veya kernel güncellemesi, haftalarca süren bilimsel simülasyonların çökmesine veya farklı sonuçlar üretmesine neden olabilir.
-
BlueBanquise, Rocky Linux’un resmi depolarını (BaseOS, AppStream, HighAvailability) yönetim düğümüne (Management Node) yerel olarak aynalar (mirroring).
-
Ansible envanteri üzerinden, düğümlerin işletim sistemi güncellemeleri tamamen dondurulur. Paket yönetiminde Rocky Linux’un dnf-automatic servisleri kapatılarak, sadece sistem yöneticisinin onayladığı “bakım pencerelerinde” kontrollü güncellemeler tetiklenir.
Kernel ve Sürücü Senkronizasyonu (İnfiniband & GPU)
Rocky Linux’un RHEL tabanlı kararlı çekirdeği (kernel), NVIDIA CUDA ve Mellanox/NVIDIA OFED (InfiniBand) sürücüleri için birincil test platformudur. BlueBanquise, Rocky Linux üzerinde bu sürücülerin kurulumunu otomatize ederken dnf modüllerini (dnf modules) kilitler. Böylece, sistem istem dışı bir kernel güncellemesi alsa bile InfiniBand sürücülerinin kırılması (kernel-mismatch) engellenmiş olur.
3. Derinlemesine Düğüm (Node) Yapısı ve Dağıtım Modelleri
BlueBanquise, düğüm yönetiminde tek bir kalıba zorlamaz. Sistem yöneticisine ağın ve donanımın ihtiyacına göre üç farklı düğüm yapısı sunar:
A. Stateful Nodes (Diskli Kurulum)
Düğümün yerel diskine (SATA/NVMe) işletim sisteminin kalıcı olarak kurulduğu modeldir.
-
Mantık: iPXE ile tetiklenen düğüm, Rocky Linux Anaconda yükleyicisini (Kickstart dosyası aracılığıyla) yönetim düğümünden çeker.
-
Çalışma Şekli: İşletim sistemi diske yazılır, düğüm yeniden başlar ve ardından Ansible rolleri çalışarak düğümü nihai konfigürasyonuna ulaştırır. Yerel disk hızı (scratch alanı) gerektiren iş yükleri için idealdir.
B. Stateless Nodes (Disksiz Kurulum – RAM Tabanlı)
Düğümlerde disk bulunmadığı veya yerel disklerin sadece geçici veriler (scratch) için ayrıldığı modeldir.
-
Mantık: Yönetim düğümünde Rocky Linux tabanlı bir “çökertilmiş işletim sistemi imajı” (OS Image/Chroot) hazırlanır. Bu imaj sıkıştırılarak bir initramfs (genellikle .img veya .squashfs) haline getirilir.
-
Çalışma Şekli: Diskless düğüm açıldığında, iPXE protokolü üzerinden bu imajı ağdan (HTTP) indirir ve doğrudan RAM üzerine açar. Düğüm tamamen RAM üzerinde çalışır. Disk arızası riskini sıfıra indirir ve düğümlerin milisaniyeler içinde ilk günkü temiz haline dönmesini sağlar.
C. Statelite Nodes (Yarı-Disksiz Kurulum)
Warewulf’ta tam karşılığı olmayan, xCAT’ten ilham alınan ancak BlueBanquise’de Ansible ile çok daha temiz çözülen bir modeldir.
-
Mantık: İşletim sistemi imajı yine salt-okunur (read-only) olarak ağ üzerinden (NFS veya HTTP ile RAM’e) yüklenir.
-
Farkı: Düğümün yazma ihtiyacı duyduğu log dizinleri (/var/log), yapılandırma dizinleri (/etc) veya kullanıcı geçici alanları, ağdaki bir merkezi depolama alanına (NFS) veya yerel diskteki küçük bir partisyona yönlendirilir (overlayfs veya symlink ile).
4. Dokümantasyonlarda Yer Almayan “Bilinmeyen Detaylar” ve Gelişmiş Özellikler
BlueBanquise’i standart bir Ansible oyun kitabından (playbook) ayıran ve onu gerçek bir endüstriyel HPC aracı yapan, arka plandaki mühendislik detaylarıdır:
İki Aşamalı Envanter Doğrulama (Strict Inventory Validation)
Mavi ekibin en büyük inovasyonlarından biri, Ansible çalıştırılmadan önce devreye giren özel Python betikleridir. Büyük kümelerde YAML dosyalarındaki tek bir IP çakışması veya yazım hatası tüm sistemi kilitleyebilir. BlueBanquise, kendi envanter yapısını tarayan ve daha Ansible aşamasına geçmeden ağ topolojisindeki mantıksal hataları, eksik tanımlanmış MAC adreslerini veya çakışan hostname’leri raporlayan dahili bir doğrulama mekanizmasına sahiptir.
Hiyerarşik Değişken Kalıtımı (Advanced J2 Rendering)
BlueBanquise, Ansible’ın group_vars ve host_vars mekanizmasını uç sınırlarına kadar zorlar. Örneğin, tüm küme için geçerli olan bir InfiniBand MTU değeri (global_vars) tanımlayabilirsiniz. Ancak sadece belirli bir şasideki (chassis) düğümler farklı bir switch’e bağlıysa, o şasiye ait YAML dosyasında bu değeri ezebilirsiniz (override). BlueBanquise bunu dinamik Jinja2 şablonları (.j2) ile çözerek, binlerce satırlık konfigürasyon kirliliğinin önüne geçer.
Ağ İzolasyonu ve “Multi-Homed” Yönetim Düğümleri
HPC kümelerinde yönetim ağı (Management/IPMI), hesaplama ağı (InfiniBand/RoCE) ve dış dünya erişim ağı (Public LAN) birbirinden tamamen yalıtılmıştır. BlueBanquise, yönetim sunucusunun (Management Node) bu 3 veya 4 farklı ağa aynı anda güvenli bir şekilde hizmet vermesini sağlayan gelişmiş firewalld ve routing rollerini otomatik olarak yapılandırır. İçerideki düğümlerin dış dünyaya erişimi (paket indirmek vb.) gerektiğinde, yönetim düğümünü güvenli bir NAT ağ geçidi (gateway) haline getirir.
“Live-Image” Güncelleme Esnekliği (Chroot Management)
Stateless (disksiz) mimarilerde, imaj üzerinde bir değişiklik yapmak (örneğin yeni bir fizik kütüphanesi eklemek) sancılı bir süreçtir. BlueBanquise ile bu işlem yönetim düğümündeki bir chroot dizininde yapılır:
Bash
# Yönetim düğümünde imajın içine girilir
bluebanquise-control chroot -n rocky9_compute
# Chroot içinde paket kurulur
dnf install -y openblas-devel
exit
# İmaj saniyeler içinde yeniden paketlenir
bluebanquise-control generate image -n rocky9_compute
Bu adımdan sonra hesaplama düğümlerini Slurm üzerinden boşa çıkarıp (drain) yeniden başlatmak (reboot), yeni yazılımın tüm kümede aktif olması için yeterlidir.
BlueBanquise, HPC dünyasının ihtiyacı olan kararlılığı Rocky Linux tabanıyla sağlarken; esneklik ve yönetim kolaylığını ise Ansible altyapısıyla sunmaktadır. Monolitik HPC yönetim araçlarının aksine, sistem yöneticisini görünmez bir kutunun içine hapsetmez; aksine standart Linux araçlarını şeffaf bir şekilde orkestre eder.
Büyük ölçekli yapay zeka (AI) kümelerinden, geleneksel CFD (Akışkanlar Mekaniği) simülasyon merkezlerine kadar, kodla yönetilebilir (IaC) modern bir HPC altyapısı kurmak isteyen kurumlar için BlueBanquise ve Rocky Linux ortaklığı, geleceğin standardı olmaya aday en güçlü açık kaynaklı çözümdür.
BlueBanquise
Yüksek Başarımlı Hesaplama (HPC) dünyası, geleneksel olarak monolitik, öğrenme eğrisi dik ve yönetimi uzmanlık gerektiren küme yönetim (cluster provisioning/management) araçlarının hakimiyetindedir. Yıllarca sektörü domine eden xCAT gibi güçlü ancak karmaşık araçların veya tamamen “stateless” (disksiz) odaklı Warewulf gibi çözümlerin yanında, son yıllarda modern BT dünyasının esnekliğini HPC’ye taşıyan yeni bir aktör öne çıkmaktadır: BlueBanquise.
Fransız HPC topluluğu ve endüstriyel ortaklar tarafından geliştirilen BlueBanquise; modern konfigürasyon yönetimi felsefesini, Altyapı Standartlarını (Infrastructure as Code – IaC) ve esnek dağıtım modellerini bir araya getiren açık kaynaklı bir HPC küme yönetim yığınıdır.
Bu makalede, BlueBanquise’in mimari detaylarını, Rocky Linux ile yakaladığı kararlılık (stability) mantığını, düğüm (node) yapısını ve dokümantasyonlarda kolayca bulunmayan derin teknik detayları inceleyeceğiz.
1. BlueBanquise Nedir? Temel Felsefesi ve Mimarisi
Geleneksel HPC yönetim araçları genellikle kendi özel betik dillerini, veri tabanlarını (örn. xCAT’in dahili veri tabanı) ve daemon’larını (arka plan süreçleri) kullanırlar. Bu durum, kümede bir sorun çıktığında hata ayıklamayı (debugging) zorlaştırır.
BlueBanquise ise tekerleği yeniden icat etmek yerine, modern sistem yönetiminin endüstri standardı olan araçları üzerine inşa edilmiştir:
-
Orkestrasyon Motoru: Ansible. BlueBanquise, özünde devasa ve son derece optimize edilmiş bir Ansible rolleri ve koleksiyonları bütünüdür.
-
Envanter Yönetimi: YAML dosyaları. Tüm küme konfigürasyonu, hiyerarşik YAML dosyalarında tutulur. Git gibi versiyon kontrol sistemleriyle (GitOps) %100 uyumludur.
-
Ağ Servisleri: ISC Kea (veya ISC DHCP), DNSMASQ, BIND9, PXE/iPXE ve HTTP (Nginx/Apache) gibi standart Linux servisleri.
Modüler Katman Yapısı (The Stack)
BlueBanquise üç ana katmandan oluşur:
-
Core (Çekirdek): Kümenin ağ topolojisini, DHCP, DNS, depoları (repositories) ve PXE önyükleme servislerini yöneten temel Ansible rolleri.
-
Flavor (Çeşni/Profil): Düğümlerin rollerini belirleyen katman. Bir düğümün “Hesaplama (Compute)”, “Depolama (Storage)” veya “Giriş (Login)” düğümü olacağını ve üzerine hangi yazılımların (Slurm, OpenMPI vb.) kurulacağını tanımlar.
-
Ecosystem (Ekosistem): İzleme araçları (Grafana, Prometheus), dosya sistemleri (Lustre, Ceph) gibi HPC çevre birimlerinin entegrasyonunu sağlayan genişleme paketleri.
2. Rocky Linux ile Stabil Çalışma Mantığı
CentOS’un geleneksel yayın akışını değiştirmesinin ardından HPC topluluğu, Red Hat Enterprise Linux (RHEL) kaynak kodlarından derlenen ve downstream olan Rocky Linux üzerinde fikir birliğine varmıştır. BlueBanquise ve Rocky Linux kombinasyonu, kurumsal düzeyde bir HPC kümesi için şu anda en kararlı (stable) kombinasyonlardan biridir.
Peki bu kararlılık teknik olarak nasıl sağlanıyor?
Paket ve Depo (Repository) Kilitleme Mantığı
HPC kümelerinde “çalışan sisteme dokunulmaz” kuralı katıdır. Hesaplama düğümlerindeki en ufak bir glibc veya kernel güncellemesi, haftalarca süren bilimsel simülasyonların çökmesine veya farklı sonuçlar üretmesine neden olabilir.
-
BlueBanquise, Rocky Linux’un resmi depolarını (BaseOS, AppStream, HighAvailability) yönetim düğümüne (Management Node) yerel olarak aynalar (mirroring).
-
Ansible envanteri üzerinden, düğümlerin işletim sistemi güncellemeleri tamamen dondurulur. Paket yönetiminde Rocky Linux’un
dnf-automaticservisleri kapatılarak, sadece sistem yöneticisinin onayladığı “bakım pencerelerinde” kontrollü güncellemeler tetiklenir.
Kernel ve Sürücü Senkronizasyonu (İnfiniband & GPU)
Rocky Linux’un RHEL tabanlı kararlı çekirdeği (kernel), NVIDIA CUDA ve Mellanox/NVIDIA OFED (InfiniBand) sürücüleri için birincil test platformudur. BlueBanquise, Rocky Linux üzerinde bu sürücülerin kurulumunu otomatize ederken dnf modüllerini (dnf modules) kilitler. Böylece, sistem istem dışı bir kernel güncellemesi alsa bile InfiniBand sürücülerinin kırılması (kernel-mismatch) engellenmiş olur.
3. Derinlemesine Düğüm (Node) Yapısı ve Dağıtım Modelleri
BlueBanquise, düğüm yönetiminde tek bir kalıba zorlamaz. Sistem yöneticisine ağın ve donanımın ihtiyacına göre üç farklı düğüm yapısı sunar:
A. Stateful Nodes (Diskli Kurulum)
Düğümün yerel diskine (SATA/NVMe) işletim sisteminin kalıcı olarak kurulduğu modeldir.
-
Mantık: iPXE ile tetiklenen düğüm, Rocky Linux Anaconda yükleyicisini (
Kickstartdosyası aracılığıyla) yönetim düğümünden çeker. -
Çalışma Şekli: İşletim sistemi diske yazılır, düğüm yeniden başlar ve ardından Ansible rolleri çalışarak düğümü nihai konfigürasyonuna ulaştırır. Yerel disk hızı (scratch alanı) gerektiren iş yükleri için idealdir.
B. Stateless Nodes (Disksiz Kurulum – RAM Tabanlı)
Düğümlerde disk bulunmadığı veya yerel disklerin sadece geçici veriler (scratch) için ayrıldığı modeldir.
-
Mantık: Yönetim düğümünde Rocky Linux tabanlı bir “çökertilmiş işletim sistemi imajı” (OS Image/Chroot) hazırlanır. Bu imaj sıkıştırılarak bir
initramfs(genellikle.imgveya.squashfs) haline getirilir. -
Çalışma Şekli: Diskless düğüm açıldığında, iPXE protokolü üzerinden bu imajı ağdan (HTTP) indirir ve doğrudan RAM üzerine açar. Düğüm tamamen RAM üzerinde çalışır. Disk arızası riskini sıfıra indirir ve düğümlerin milisaniyeler içinde ilk günkü temiz haline dönmesini sağlar.
C. Statelite Nodes (Yarı-Disksiz Kurulum)
Warewulf’ta tam karşılığı olmayan, xCAT’ten ilham alınan ancak BlueBanquise’de Ansible ile çok daha temiz çözülen bir modeldir.
-
Mantık: İşletim sistemi imajı yine salt-okunur (read-only) olarak ağ üzerinden (NFS veya HTTP ile RAM’e) yüklenir.
-
Farkı: Düğümün yazma ihtiyacı duyduğu log dizinleri (
/var/log), yapılandırma dizinleri (/etc) veya kullanıcı geçici alanları, ağdaki bir merkezi depolama alanına (NFS) veya yerel diskteki küçük bir partisyona yönlendirilir (overlayfs veya symlink ile).
4. Dokümantasyonlarda Yer Almayan “Bilinmeyen Detaylar” ve Gelişmiş Özellikler
BlueBanquise’i standart bir Ansible oyun kitabından (playbook) ayıran ve onu gerçek bir endüstriyel HPC aracı yapan, arka plandaki mühendislik detaylarıdır:
İki Aşamalı Envanter Doğrulama (Strict Inventory Validation)
Mavi ekibin en büyük inovasyonlarından biri, Ansible çalıştırılmadan önce devreye giren özel Python betikleridir. Büyük kümelerde YAML dosyalarındaki tek bir IP çakışması veya yazım hatası tüm sistemi kilitleyebilir. BlueBanquise, kendi envanter yapısını tarayan ve daha Ansible aşamasına geçmeden ağ topolojisindeki mantıksal hataları, eksik tanımlanmış MAC adreslerini veya çakışan hostname’leri raporlayan dahili bir doğrulama mekanizmasına sahiptir.
Hiyerarşik Değişken Kalıtımı (Advanced J2 Rendering)
BlueBanquise, Ansible’ın group_vars ve host_vars mekanizmasını uç sınırlarına kadar zorlar. Örneğin, tüm küme için geçerli olan bir InfiniBand MTU değeri (global_vars) tanımlayabilirsiniz. Ancak sadece belirli bir şasideki (chassis) düğümler farklı bir switch’e bağlıysa, o şasiye ait YAML dosyasında bu değeri ezebilirsiniz (override). BlueBanquise bunu dinamik Jinja2 şablonları (.j2) ile çözerek, binlerce satırlık konfigürasyon kirliliğinin önüne geçer.
Ağ İzolasyonu ve “Multi-Homed” Yönetim Düğümleri
HPC kümelerinde yönetim ağı (Management/IPMI), hesaplama ağı (InfiniBand/RoCE) ve dış dünya erişim ağı (Public LAN) birbirinden tamamen yalıtılmıştır. BlueBanquise, yönetim sunucusunun (Management Node) bu 3 veya 4 farklı ağa aynı anda güvenli bir şekilde hizmet vermesini sağlayan gelişmiş firewalld ve routing rollerini otomatik olarak yapılandırır. İçerideki düğümlerin dış dünyaya erişimi (paket indirmek vb.) gerektiğinde, yönetim düğümünü güvenli bir NAT ağ geçidi (gateway) haline getirir.
“Live-Image” Güncelleme Esnekliği (Chroot Management)
Stateless (disksiz) mimarilerde, imaj üzerinde bir değişiklik yapmak (örneğin yeni bir fizik kütüphanesi eklemek) sancılı bir süreçtir. BlueBanquise ile bu işlem yönetim düğümündeki bir chroot dizininde yapılır:
Bash
# Yönetim düğümünde imajın içine girilir
bluebanquise-control chroot -n rocky9_compute
# Chroot içinde paket kurulur
dnf install -y openblas-devel
exit
# İmaj saniyeler içinde yeniden paketlenir
bluebanquise-control generate image -n rocky9_compute
Bu adımdan sonra hesaplama düğümlerini Slurm üzerinden boşa çıkarıp (drain) yeniden başlatmak (reboot), yeni yazılımın tüm kümede aktif olması için yeterlidir.
BlueBanquise, HPC dünyasının ihtiyacı olan kararlılığı Rocky Linux tabanıyla sağlarken; esneklik ve yönetim kolaylığını ise Ansible altyapısıyla sunmaktadır. Monolitik HPC yönetim araçlarının aksine, sistem yöneticisini görünmez bir kutunun içine hapsetmez; aksine standart Linux araçlarını şeffaf bir şekilde orkestre eder.
Büyük ölçekli yapay zeka (AI) kümelerinden, geleneksel CFD (Akışkanlar Mekaniği) simülasyon merkezlerine kadar, kodla yönetilebilir (IaC) modern bir HPC altyapısı kurmak isteyen kurumlar için BlueBanquise ve Rocky Linux ortaklığı, geleceğin standardı olmaya aday en güçlü açık kaynaklı çözümdür.


