GenAI Observability — LLMFinOps

Engin Özkurt
6 min readDec 11, 2024

--

Büyük dil modelleri (LLM’ler) tarafından desteklenen üretken yapay zekanın (GenerativeAI) ortaya çıkışı ile birlikte yapay zeka tabanlı uygulamaların benimsenmesi hızlandı. Sürekli gelişen teknoloji ortamında, işletmeler operasyonlarını kolaylaştırmak, maliyetleri düşürmek ve verimliliği artırmak için sürekli olarak yenilikçi çözümler aramaktadır. Ancak, çığır açan her teknolojide olduğu gibi, LLM’lerin üretim ortamlarında dağıtım ve bakım süreçleri, kendine özgü zorluklarıda beraberinde getirdi. Bu noktada “LLMFinOps” kavramı ortaya çıkmaktadır.

LLMFinOps, büyük dil modelleri için uygulanan bir finansal yönetim pratiğidir. Daha önce “FinOps” ile ilgili yazılar yazmıştım. Kısaca hatırlayacak olursa, Bulut tabanlı uygulamalarda ve AI sistemlerinde maliyet optimizasyonuna odaklanmaktadır. LLMFinOps, özellikle büyük dil modellerinin çalıştırıldığı bulut ortamlarında maliyetleri izlemek, yönetmek ve optimize etmek amacıyla kullanılan bir yaklaşımı ifade eder.

Mevcut uygulama performans izleme araçları, bu tür uygulamaları izlemek için kritik olan gerçek zamanlı iç görüler sağlamada genellikle yetersiz kalmaktadır. GenAI uygulamalarının optimum performansını sağlamak, model çıkarım (inference) maliyet ve talepteki dalgalanmaları ele almak için proaktif izleme yetenekleriyle bilikte altyapı maliyetlerinin dikkatli bir şekilde yönetilmesini gerektirir. IBM Instana Observability, GenAI ile geliştirilen uygulamaların performansını gözlemleme fırsatını sunuyor.

LLM Performansını Anlamak

LLM performansı, genellikle üç ana parametre ile değerlendirilir: Latency, Throughput ve Model Accuracy. Latency, kullanıcının girdiği promt’a yanıt alması arasındaki süreyi ifade eder ve bu parametrenin yönetilmesi çok önemlidir. Performans izleme, ağ gecikmesi, modelin çıkarım süresi ve veri hazırlama ile yanıt oluşturma gibi süreçlerin her birini izlemeyi gerektirir. Bu aşamada, ağ sorunları veya veri işeme verimsizlikleri gibi engeller tespit edilip giderilebilir.

GenAI Maliyetlerini Anlamak

GenAI uygulamalarının maliyetleri genellikle kullanım başına fiyatlandırma modelleriyle ilişkilidir. Bu maliyetler, işlenen token sayısına (girdi -çıktı) yada özel altyapılarda barındırılan modellerin donanım maliyetlerine dayanabilir. Ayrıca, ek API çağrıları veya veri işleme adımları gibi gizli maliyetler de bulunmaktadır. Modeller üretime geçmeden önce, bu maliyetlerin doğru bir şekilde anlaşılması, beklenmeyen maliyet artışlarının önüne geçilmesi için kritik öneme sahiptir.

Kaynak Kısıtlamaları

LLM’lerin büyük ölçeklerde çalıştırılması ciddi compute kaynağı gerektirir, özellikle GPU’lar ve Memory’ler açısında zaman zaman sıkıntılar ortaya çıkabilmektedir. Kaynak kısıtlamaları, talebin mevcut altyapı aşması durumunda performansın düşmesine veya sistemin down olmasına yol açabilir. Bulut tabanlı hizmetler, kaynakların dinamik bir şekilde ölçeklenmesini sağlamaktadır ancak doğru kaynak yönetimi ve performans izleme çok önemlidir. Doğru yerde doğru kaynağı kullanmadığımız zamanlarda performans sorununu çözmeden gereksiz kaynak israfı yapılmaktadır. CPU, GPU, Memory, Disk gibi bileşenlerde oluşan darboğazları tespit etmek ve yapılması gereken aksiyonları otomatik bir şekilde oluşturmak çok kritik bir öneme sahiptir. IBM Turbonomic çözümü tam olarak bu noktada, Uygulamaların Kaynak Yönetimini otomatik bir şekilde yapabilmektedir.

Kaynakları İzlemek

Etkili kaynak izleme araçları, LLM-GenAI uygulamalarının performansını, maliyet yönetimini ve ölçeklenebilirliğini takip etmede yardımcı olur. Auto-scaling gibi özellikler, talep arttığında kaynakları otomatik olarak ayarlamak için kullanılabilir, ancak bu süreçlerin dikkatlice yapılandırılması gerekir. Ayrıca, sistemin yüksek trafik dönemlerinde dahi düzgün çalışabilmesi için ölçeklenebilirlik izlemeleri yapılmalıdır.

Bu faktörlerin tümü, LLM-GenAI uygulamalarının hem optimal performansla hem de maliyet verimliliği sağlanarak çalışması için dikkatlice yönetilmelidir.

Başarılı bir Pilot’un önemi!

Başarılı bir pilot uygulamadan etkili bir uygulamaya geçiş, hem teknik hem de stratejik yaklaşımların bir bütünlük içinde ele alınmasını gerektirir. Pilot aşamasında elde edilen veriler, uygulamanın ölçeklendirilmesinde bir rehber işlevi görür. Bu süreçte, sistem performansında kullanıcı deneyimine, maliyet yönetiminden uyumluluk süreçlerine kadar her detay dikkatlice değerlendirilmelidir.

Pilot sürecinde yapılan testler, uygulamanın mevcut koşullarda nasıl bir performans sergilediğini ve karşılaşılabilecek olası zorlukları netleştirir. Uygulamanın başarısını değerlendirmek için kullanılan metrikler, uygulamaya geçişte iyileştirilmesi gereken alanları işaret eder. Ayrıca, operasyonel süreçlerin desteklenmesi için kullanıcıların ve ekiplerin gerekli bilgi ve becerilere sahip olması sağlanmalıdır.

Bu süreçte, proaktif bir izleme ve iyileştirme yaklaşımı benimsemek önemlidir. Sistem performansı ve kullanıcı geri bildirimleri, sürekli bir iyileştirme döngüsü içinde değerlendirilmeli ve uygulama bu doğrultuda optimize edilmelidir. Tüm bu adımlar, pilot uygulamanın sağladığı başarıyı geniş ölçekte sürdürülebilir bir değere dönüştürmek için kritik önemdedir.

Business Problemler ve Çözümler

Model karmaşıklığı ve ölçeklendirme

Zorluklar:

  • Hızla büyüyen model boyutları hesaplama kaynaklarını (GPU,Memory) zorlamaktadır.
  • LLM’ler, uygulamalar için kritik hale gelir ve performansı ve müşteri deneyimini etkiler.

Çözümler:

  • Model performansını ve kaynak kullanımına ilişkin iç görüler elde etmek.
  • Sorunları proaktif bir şekilde tespit etmek ve otomatik çözümler sunmak.

Kaynak Kısıtlamaları

Zorluklar:

  • Yüksek performanslı GPU’lar nadir ve çok pahalıdırlar.
  • Verimsiz GPU kullanımı operasyonel maliyetleri artırır.

Çözümler:

  • AI uygulamalarındaki sorunları tespit ederek performansını iyileştirin.
  • AI modellerinin verimli bir şekilde ölçeklenmesini kolaylaştırın.

Maliyet Yönetimi

Zorluklar:

  • AI kullanım maliyetlerini doğru bir şekilde tahsis etmek zordur.
  • AI yatırımlarını optimize etmek ve yatırım getirisini (ROI) sağlamak zordur.

Çözümler:

  • GPU kullanımını iş yükü yönetimiyle optimize edin.
  • AI sistemlerinin maliyetlerini etkin bir şekilde yönetin.

Yetenek Eksikliği

Zorluklar:

  • AI sistemlerini etkili bir şekilde yönetebilecek yetenekli profesyonellerin eksikliği
  • AI uzmanlarını işe alma ve elde tutma maliyetleri yüksektir.

Çözümler:

  • Kullanıcı dostu araçlar ve içgörüler sağlayarak AI kullanımını demokratikleştirin.
  • İş yükü yönetimi ve kaynak optimizasyonu otomatikleştirin.

IBM Instana Observability ile GenAI uygulamalarını ve platformlarını gözlemleyin!

IBM Instana, GenAI teknolojileriyle entegre IT uygulamalarını ve platformlarını ve platformlarını kapsamlı bir şekilde gözlemleyerek aşağıdaki araç ve çözümleri destekler:

  • IBM watsonx.ai
  • OpenAI
  • HuggingFace ve daha fazlası

IBM Instana, GenAI runtime’ları için geliştirilen yeni bir sensor sayesinde izleme sürecini optimize eder.

  • OpenTelemetry özellikleri
  • Traceloop’un OpenLLMetry aracı

IBM Instana, GPU’lar için gelişmiş izleme özellikleri sunarak aşağıdaki alanlarda önemli içgörüler sağlar.

  • Kullanım oranları
  • Performans metrikleri
  • Potansiyel sorunlar

Bu süreçte kullanılan teknolojiler;

  • Nvidia DXGM Exporter OpenShift Operator
  • OpenTelemetry

Özetlemek gerekirse, IBM Instana Observability, GenAI tabanlı uygulamalarda altyapı optimizasyonunu, performans artırmayı ve sorunları proaktif olarak çözmeyi hedefleyen kurumsal ölçekli bir gözlemleme çözümüdür.

Gözlemlenebilirlik verileri nasıl kullanılır?

Performance Monitoring: LLM modellerini kullanan uygulamaların güvenilirliği ve verimliğini sağlamak

Error and anomaly detection: LLM operasyonlarında model cevaplarının tutarlığı ve altyapıdaki teknik sorunları anlama, Instana’nın smart alert özelliği ile anomalileri yakalama.

Cost Management: LLM’lerin cloud veya işlemci kaynaklarının nasıl kullanıldığını izlemek.

Resource Utilization: LLM’lerin kaynak kullanımlarına ait tüketim metriklerini izleme. GPU,CPU,Memory ve disk gibi bileşenlerin darboğaza düşmesini engellemek.

Feedback loop for model improvement: Gözlemlenebilirlik verileri, modelin performansındaki düşüşler, hatalı sonuçlar veya kaynak kullanımındaki verimsizlikler gibi potansiyel sorunları tespit etmek için değerli bilgiler sunar.

Scaling and load balancing: Sistemdeki yükü izlemek ve gelecekteki talepleri tahmin etmek, ölçeklendirme kararlarını ve yük dağıtımını optimize etmek.

Incident response and recovery: Bir olay meydana geldiğinde, kök nedenin belirlenmesi için ayrıntılı izler kritik bir rol oynar. Bu sayede hızlı ve doğru bir şekilde problemleri çözebilirsiniz.

Aşağıdaki görsel IBM Instana Observability çözümü ile IBM Turbonomic çözümlerinden oluşan bir mimaridir. Yukarıda bahsettiğim LLM performanslarını izleme noktasında yaşanılan zorluklara karşı IBM Instana’nın geliştirmiş olduğu sensor mimarisi (Otel Data Collector for LLM) sayesinde GenAI uygulamalarından model inference, traces,metrics,calls,latency gibi metrikleri toplayabilmektedir. Ayrıca Nvidia GPU metriklerini DCGM Exporter üzerinden Instana’ya Oltp-acceptor aracılığıyla Instana’ya gönderebiliyoruz.

SRE perspektifinden baktığımızda Instana ile GenAI Observability sürecimizi yönetirken, diğer tarafta IBM Turbonomic ile birlikte LLM modellerimize ait kaynak yönetimini ve ölçeklendirmesini sağlayabiliyoruz. Kubeturbo sensorü sayesinde container platformundaki bileşenlere ait metrikleri toplarken, PromeTurbo sensorü sayesinde de GPU ve TGI metriklerini Turbonomic platformuna gönderebiliyoruz. Bu sayede LLM modelleri seviyesinde tüketilen kaynakların yönetimini de yapabiliyoruz.

LLM modellerindeki performans gecikmeleri tüm uygulamayı ve kullanıcı deneyimini etkileyebilmektedir. Bu nedenle, GenAI uygulamalarının gecikme süreleriniz izlemek ve optimize etmek, uygulamaların sürdürülebilir başarısı için çok önemlidir.

Bu yazıda genel bilgiler vermeye çalıştım, sonraki yazımda ise GenAI uygulamalarının nasıl izlenebileceği ile ilgili teknik bir yazı yazmayı planlıyorum.

Okuduğunuz için teşekkürler.

--

--

Engin Özkurt
Engin Özkurt

Written by Engin Özkurt

𝘚𝘦𝘯𝘪𝘰𝘳 𝘚𝘪𝘵𝘦 𝘙𝘦𝘭𝘪𝘢𝘣𝘪𝘭𝘪𝘵𝘺 𝘌𝘯𝘨𝘪𝘯𝘦𝘦𝘳 / 𝘌𝘹-𝘔𝘪𝘤𝘳𝘰𝘴𝘰𝘧𝘵 /𝘖𝘱𝘪𝘯𝘪𝘰𝘯𝘴 𝘩𝘦𝘳𝘦 𝘢𝘳𝘦 𝘮𝘺 𝘰𝘸𝘯.

No responses yet