Yüksek Performanslı Hesaplama Merkezinde Konteynerleştirilmiş GenAI Hizmetlerinin Dağıtımı Deneyimi

Yüksek Performanslı Hesaplama Merkezinde Konteynerleştirilmiş GenAI Hizmetlerinin Dağıtımı Deneyimi

Mayıs 31, 2026

Experience Deploying Containerized GenAI Services at an HPC Center

Üretken Yapay Zeka (GenAI) uygulamaları, web tabanlı API’ler aracılığıyla birbirine bağlanan özel bileşenlerden (çıkarım sunucuları, nesne depolama, vektör ve grafik veritabanları ve kullanıcı arayüzleri) oluşturulur. Bu bileşenler genellikle konteynerleştirilip bulut ortamlarında dağıtılırken, bu tür yetenekler Yüksek Performanslı Hesaplama (HPC) merkezlerinde henüz gelişmektedir. Bu makalede, yerleşik bir HPC merkezinde GenAI iş yüklerinin dağıtımına ilişkin deneyimimizi paylaşıyor ve HPC ile bulut bilişim ortamlarının entegrasyonunu tartışıyoruz. Konteynerleştirilmiş GenAI iş yüklerini çalıştıran HPC ve Kubernetes platformlarını entegre eden ve tekrarlanabilirliğe yardımcı olan birleşik hesaplama mimarimizi açıklıyoruz. Bir vaka çalışması, çoklu konteyner çalışma zamanları kullanarak hem Kubernetes hem de HPC platformlarında konteynerleştirilmiş bir çıkarım sunucusu (vLLM) kullanarak Llama Büyük Dil Modeli’nin (LLM) dağıtımını göstermektedir. Deneyimimiz, HPC konteyner topluluğu için pratik hususları ve fırsatları vurgulayarak gelecekteki araştırmalara ve araç geliştirmeye rehberlik etmektedir.

PDF Dokümantasyonu