Yüksek Performanslı Hesaplama Merkezinde Konteynerleştirilmiş GenAI Hizmetlerinin Dağıtımı Deneyimi
Yüksek Performanslı Hesaplama Merkezinde Konteynerleştirilmiş GenAI Hizmetlerinin Dağıtımı Deneyimi

Üretken Yapay Zeka (GenAI) uygulamaları, web tabanlı API’ler aracılığıyla birbirine bağlanan özel bileşenlerden (çıkarım sunucuları, nesne depolama, vektör ve grafik veritabanları ve kullanıcı arayüzleri) oluşturulur. Bu bileşenler genellikle konteynerleştirilip bulut ortamlarında dağıtılırken, bu tür yetenekler Yüksek Performanslı Hesaplama (HPC) merkezlerinde henüz gelişmektedir. Bu makalede, yerleşik bir HPC merkezinde GenAI iş yüklerinin dağıtımına ilişkin deneyimimizi paylaşıyor ve HPC ile bulut bilişim ortamlarının entegrasyonunu tartışıyoruz. Konteynerleştirilmiş GenAI iş yüklerini çalıştıran HPC ve Kubernetes platformlarını entegre eden ve tekrarlanabilirliğe yardımcı olan birleşik hesaplama mimarimizi açıklıyoruz. Bir vaka çalışması, çoklu konteyner çalışma zamanları kullanarak hem Kubernetes hem de HPC platformlarında konteynerleştirilmiş bir çıkarım sunucusu (vLLM) kullanarak Llama Büyük Dil Modeli’nin (LLM) dağıtımını göstermektedir. Deneyimimiz, HPC konteyner topluluğu için pratik hususları ve fırsatları vurgulayarak gelecekteki araştırmalara ve araç geliştirmeye rehberlik etmektedir.
Üretken Yapay Zeka (GenAI) uygulamaları, web tabanlı API’ler aracılığıyla birbirine bağlanan özel bileşenlerden (çıkarım sunucuları, nesne depolama, vektör ve grafik veritabanları ve kullanıcı arayüzleri) oluşturulur. Bu bileşenler genellikle konteynerleştirilip bulut ortamlarında dağıtılırken, bu tür yetenekler Yüksek Performanslı Hesaplama (HPC) merkezlerinde henüz gelişmektedir. Bu makalede, yerleşik bir HPC merkezinde GenAI iş yüklerinin dağıtımına ilişkin deneyimimizi paylaşıyor ve HPC ile bulut bilişim ortamlarının entegrasyonunu tartışıyoruz. Konteynerleştirilmiş GenAI iş yüklerini çalıştıran HPC ve Kubernetes platformlarını entegre eden ve tekrarlanabilirliğe yardımcı olan birleşik hesaplama mimarimizi açıklıyoruz. Bir vaka çalışması, çoklu konteyner çalışma zamanları kullanarak hem Kubernetes hem de HPC platformlarında konteynerleştirilmiş bir çıkarım sunucusu (vLLM) kullanarak Llama Büyük Dil Modeli’nin (LLM) dağıtımını göstermektedir. Deneyimimiz, HPC konteyner topluluğu için pratik hususları ve fırsatları vurgulayarak gelecekteki araştırmalara ve araç geliştirmeye rehberlik etmektedir.


