SRE ekiplerinizi, AIOps ile güçlendirin!

Engin Özkurt
3 min readJun 16, 2021

--

AIOps, BT operasyonlarınızı geliştirmek için birçok özellik sağlar. Daha az risk ile daha fazla güvenilirlik sunabilirsiniz. Bu yazıda SRE ekiplerinizi nasıl daha güçlü ve donanımlı yapabilirsiniz, buna değineceğiz.

SRE, “Site Reliability Engineering” ve “Bir SRE’nin AIOps Yolculuğu” başlıklı yazılarıma aşağıda bağlantılara göz atabilirsiniz.

SRE, nedir diye kısaca hatırlayacak olursak;

Yazılım mühendisliği ve otomasyon çözümlerini kullanarak DevOps süreçlerini verimli ve güvenilir bir şekilde sağlayan operasyonlara yönelik bir yaklaşımdır. Operasyon verimliliğini artırmak ve riski azaltmak için otomasyon kültürünü, incident management, performance odaklı metodolojileri içeren bir mühendislik yaklaşımıdır.

SRE ekiplerinin bir diğer temel amacı için süreçleri iyileştirmeye odaklanmaktadır. SRE ekipleri bir olayın tekrarlanmamasını sağlamaktadır.

SRE prensiplerine baktığımızda ise;

  • İş yüklerini otomatik ölçeklendirmek için otomasyon yeteneklerini kullanır.
  • Operasyonel süreçleri sınırlandırır ve zamanlarının %50'sini uygulamaların verimliliğine ayırır..
  • SLA veya SLO gibi hizmet seviyelerine karşı önlemler alır.
  • Golden signal dediğimiz sinyalleri gözlemlemek. (latency,traffic,errors and saturation)
  • Eyleme geçirilebilir, semptom tabanlı uyarılar ve runbookları kullanır..

Bunun yanında, AIOps’un SRE ekiplerine katkıları ise,

Event Analysis: Büyük sorunları önlemek yada önlem almak için ihtiyaç duyulan olayları gruplandırın, analiz edin ve önceliklendirin..

Structured data analysis ( metrics analysis): Farklı veri domainleri arasında izleme ve performans yönetim araçları üzerinden verileri alabilir. Metriklerin normal davranışını öğrenmek ve anomalileri otomatik olarak tespit etmek için veri analizi kullanılır.

Non-structured data analysis (e.g. log analysis): SRE’lerin hızlı bir şekilde anomalileri belirlemek için makine öğrenimi analizini kullanarak olayları ve logları analiz edebilir. Mean Time to Diagnosis (MTTD) süresini azaltabilirsiniz.

Topology analysis: Uygulama ve altyapı bağımlılıklarını agnostic bir şekilde gözlemlemek. Katmanlar arası uygulama ve altyapılar arasında bağımlılık haritasını çıkarın.

Historical similarity: Geçmiş olay verilerini kullanarak, olayları daha hızlı çözün..Mevcut sorunların düzeltilmesini hızlandırın. Sorunun tekrar olmasını önlemek için geçmiş verileri kullanın..

Communicate. Belki de en önemlisi, doğru zamanda doğru kişilere bilgiler vererek, sorunun çözümünün hızlandırın.

Okuduğunuz için teşekkürler!

Kaynak: IBMAIOps Field Guide

--

--

Engin Özkurt

𝘚𝘦𝘯𝘪𝘰𝘳 𝘚𝘪𝘵𝘦 𝘙𝘦𝘭𝘪𝘢𝘣𝘪𝘭𝘪𝘵𝘺 𝘌𝘯𝘨𝘪𝘯𝘦𝘦𝘳 / 𝘌𝘹-𝘔𝘪𝘤𝘳𝘰𝘴𝘰𝘧𝘵 /𝘖𝘱𝘪𝘯𝘪𝘰𝘯𝘴 𝘩𝘦𝘳𝘦 𝘢𝘳𝘦 𝘮𝘺 𝘰𝘸𝘯.