GENAI, ML GPU Optimization — IBM Turbonomic

Engin Özkurt
4 min readSep 23, 2024

--

Yapay Zekanın (Generative AI) faydalarını giderek daha fazla şirket tarafından benimsenmeye devam ediyor. GenAI ile Otomasyon teknolojilerinin birleşmesiyle, üretken yapay zekanın işletmeler ile müşterileri arasında etkileşimlerini iyileştirmeye, operasyonel verimliliği ve üretkenliği artırmaya yardımcı oluyor.

2028 yılına kadar Dünya çapında 1 milyardan fazla yeni uygulamaların geliştirileceği ön görülmektedir. Bir başka araştırma sonucu olarak yöneticilerin %33'i genellikle topladıkları verileri kullanmaya fırsat bulamadıklarını söylüyorlar. Son olarak üretken yapay zeka ve otomasyon teknolojilerine yatırım yapan şirketlerin 2026 yılına kadar verimlilik artışlarının 1 trilyon dolar olabileceğini ön görülmektedir.

Üretken yapay zekanın çok çeşitli endüstrilerde benimsenmesi, foundation modelleri (FM), large language dil modellerinin (LLM) işletmelerde kullanılmasının kritik bir rol oynadığını gösteriyor. Bu da bir çok işletme için yeni bir çalışma ve üretkenlik çağını başlatıyor.

Yapay zeka optimizasyonu, yapay zeka araçlarının değişken iş yükleri altında verimliliği kaybetmeden daha verimli çalışmasını sağlamayı hedefler.. bunu yaparkenden iki farklı yaklaşım üzerine odaklanır.

1- Performans :

  • AI kullanıcıları, yapay zeka uygulamalarının performansı ile ilgili bir şikayet olduğunda, sistemi bu geri bildirime göre optimize edebilir.
  • Değişen kaynak taleplerini yönetmek çoğu zaman hayati bir öneme sahiptir. Yapay zeka uygulamalarındaki talep artışlarında performans düşüşü yaşamadan nasıl uyum sağladığını göz önünde bulundurulmalıdır.

2- Verimlilik:

  • Özellikle aşırı kaynak tahsisi nedeniyle kaynak israfını önleyerek operasyonel maliyetleri kontrol altında tutmak önemlidir.
  • Talebin düşük olduğu dönemlerde, sistemin gereksiz kaynak kullanımını önleyerek verimli kalmasını sağlamalısınız.

üretken yapay zeka iş yükleri, yüksek performansı sürdürebilmek için yüksek düzeyde GPU işlemci gücüne sahip olmalıdır. Talep arttıkça bu artan karmaşıklığı yönetmek, kaynak tahsisi, performansın korunması ve maliyetlerin kontrol altında tutulması gibi faktörler zorlayıcı olabilir.

GenAI iş yükleri için GPU Optimizasyonu: Yapay zeka iş yüklerinin beklenildiği gibi çalışması için gereken GPU işlemci gücünü sağlamaya ihtiyaç duyulur. GPU işlemcileri günümüzde hem çok pahalı hem de nadir üretim kapasitesine sahip olduğu için tedarik süreçleri çok uzun olabilmektedir.

IBM Turbonomic, dinamik bir uygulama kaynak yönetim çözümü olarak, yukarıda bahsetmiştim olduğum performans gereksiniminden ödün vermeden israfı güvenli bir şekilde azaltarak GPU iş yüklerini optimize etmeye ve maksimum verimliliği sağlamayı hedefler.

Large Language Model (LLM) metrikleri şunlardır;

  • Time to First Token (TTFT) : Kullanıcının sorguyu girdikten sonra modelin çıktısını görme süresi
  • Time Per Output (TPOT) : Sistemi sorgulayan her kullanıcı için token oluşturma süresi
  • Latency : Modelin kullanıcıya yanıt dönme süresi.
  • Throughput : Bir sunucunun tüm kullanıcılar ve istekler arasında saniyede üretebileceği tokenlarının sayısı

Private Cloud için GPU Optimizasyon stratejileri

GPU-Aware VM Move Actions:

  • vGPU’ya sahip sanal sunucular sadece uyumlu GPU çip setlerine sahip hostlar arasında taşınır.
  • vGPU’ya sahip sanal sunucular sadece mevcut GPU kapasitesine sahip hostlar arasında taşınır.

vGPU Scalling:

  • Uygulama ihtiyaçlarına göre vGPU sayısını artırma veya azaltma aksiyonları

Public Cloud için GPU Optimizasyon stratejileri

Turbonomic, sanal makinelerden NVIDIA metriklerini toplar ve bu metrikleri performans ve maliyet optimize etmek için VM Scale aksiyonları oluşturur.

  • GPU Count: Turbonomic, aynı GPU ailesi içerisinde GPU kartlarının sayısını azaltabilir.
  • GPU Memory: GPU belleğini aynı GPU kartları içerisinde azaltabilir ve artırabilir.
  • GPU Memory Bandwith: Sanal makineyi mevcut GPU kart türünden, aynı veya daha yüksek GPU sayısı ve GPU Bellek kapasitesine sahip başka bir GPU ailesine taşıyabilir.
  • GPU FP16, F32 & F64: Bu tipteki GPU kartı kullanan sanal makineleri mevcut örnekten, destekleyen daha uygun bir sanal makine türüne taşıyabilir.
  • GPU Tensor: Talebe bağlı olarak GPU Tensor’ı artırabilir ve azaltabilir.

Turbonomic standart VM kaynaklarını (vCPU — vMem) desteklenen GPU türleri ve G4ad ailesi (based on AMD Radeon Pro V520 GPUs) dayalı ölçeklendirme aksiyonlarını önerir.

Amazon EC2 Accelerator kaynakları (Inf1/Inferentia and Inf2/Inferentia2 chips) için ölçeklendirme aksiyonları oluşturur.

Azure iş yükleri için aşağıdaki GPU türleriyle Linux sanal makine imajlarını destekler.

  • NC A100 v4-series (based on NVIDIA A100 PCIe GPUs)
  • NCads H100 v5-series (based on NVIDIA H100 NVL GPUs)
  • NCasT4_v3-series (based on Nvidia Tesla T4 GPUs)
  • NCv3-series (based on NVIDIA Tesla V100 GPUs)
  • NDv2-series (based on NVIDIA Tesla V100 GPUs)
  • NVadsA10 v5-series (based on NVIDIA A10 GPUs)
  • NVv3-series (based on NVIDIA Tesla M60 GPUs)

Container ortamları için GPU Optimizasyon stratejileri

  • Mevcut SLO Horizontal scaling fonksiyonunun üzerine inşa edilmiştir.
  • SLO politikasından sapıldığında, Turbonomic yanıt süresini iyileştirmek için önerilen replika sayısını belirler.
  • Yönetici onayına istinaden aksiyonları eyleme geçip geçmeme veya ne zaman geçeceğine karar verilir.
  • Turbonomic verimliliği artırmak için gerekmediği zamanlarda replika sayısını azaltmayı önerir.
  • Uygulama taleplerini karşılamak için inference iş yüklerini ölçeklendirir.

Başka bir yazıda görüşmek dileğiyle.

https://www.ibm.com/products/turbonomic/gpu-optimization

https://www.ibm.com/blog/announcement/optimize-gpu-resources-turbonomic/

--

--

Engin Özkurt
Engin Özkurt

Written by Engin Özkurt

𝘚𝘦𝘯𝘪𝘰𝘳 𝘚𝘪𝘵𝘦 𝘙𝘦𝘭𝘪𝘢𝘣𝘪𝘭𝘪𝘵𝘺 𝘌𝘯𝘨𝘪𝘯𝘦𝘦𝘳 / 𝘌𝘹-𝘔𝘪𝘤𝘳𝘰𝘴𝘰𝘧𝘵 /𝘖𝘱𝘪𝘯𝘪𝘰𝘯𝘴 𝘩𝘦𝘳𝘦 𝘢𝘳𝘦 𝘮𝘺 𝘰𝘸𝘯.

No responses yet