Bir SRE’nin AIOps Yolculuğu!

Engin Özkurt
5 min readMar 9, 2021

--

Bu yazıda sizlere SRE (Site Reliability Engineering) ekiplerinin zorluklarını ve bu zorluklara çözüm olarak geliştirilen AIOps yaklaşımından bahsedeceğim. Keyifli okumalar..

Kurum ve işletmeler başarılı olmak, müşterilerine kesintisiz hizmet vermek ve dijital deneyimleri sürekli hale getirmek için var güçleri ile çalışırlar. Rekabette devamlılık için CIO’lar ve ekipleri, uygulamaların esnekliğini ve güvenilirliğini sağlamak için Site Reliability Engineering (SRE) işletim modeline geçerken, ekipler son kullanıcılara aynı anda ve aynı hızda yaratıcı/yenilikçi özellikler sunmaya çalışıyorlar.

Fakat tecrübeli SRE ekipleri bile, özellikle Hybrid, Distributed Cloud ve Cloud Native teknolojiler ile oluşturulan ve hızla sayıları artan bağımsız uygulamaları yönetmekle karşı karşıyadır. Ekipler, genellikle Multicloud ortamlarda dinamik ve karmaşık uygulamalardan sorumludur. SRE’ler, Service Level Metrics (SLM) karşılamak için, kesinti sorunlarını proaktif olarak anlamak, çözmek ve önlemek için çalışırken sayısız farklı araç ve farklı kaynaklardan gelen yapılandırılmış/yapılandırılmamış verileri anlamak zorunda kalıyorlar.

SRE’ler için zorluk, SRE prensiplerinin kararlılığını, güvenilirliğini ve kullanılabilirliğini gerçek zamanlı olarak farklı sistemlerde gerçekleştirirken, uygulama ekipleri ile yenilikçi özellikler sunmak için birlikte çalışmaktadırlar. Bunu yapmak için, farklı kaynaklardan gelen içgörüleri multicloud ortamlarda ayırmaları gerekir ve bunu yapmak da oldukça stresli olabilir.

SRE’ler gerçekten başarılı olmak için uygulama ve BT kesintilerinin önüne geçmek ve çıkan problemleri kullanıcıları etkilemeden çözmek ister. Yine de, bir çok SRE takımı öngörülemeyen ve tekrarlanan sorunları çözmekle uzun zamanlar harcamaktadır.

Genellikle SRE’ler çözüm aksiyonlarını hızlı bir şekilde tanımlamakta zorlanır. Ekipler, metrics,topology,events,logs,tickets,alarms gibi bir çok veri kaynağını incelemek için çok uzun bir süre harcayabilir ve bu nedenle takımların bir sonraki sorunun önüne geçmek ve kalıcı çözümleri üretmek için yeterli zamanları bulamayabiliyorlar.

Sonuç olarak, SRE ekipleri, incident yönetimini ve çözümünü iyileştirmeye yardımcı olmak için yapay zekanın benimsenmesi ve otomasyon süreçleri de dahil olmak üzere bu zorlukların üstesinden gelmeye yardımcı olmak için akıllı BT operasyonlarını kurguluyorlar..

Yapay zeka ve otomasyonun BT operasyonlarına uygulanması, SRE ekiplerinin kurumsal uygulamaların esnekliğini, güvenilirliğini ve uygulama ekipleri yeni yeteneklerin geliştirilmesi için yeterli zamanı elde edebilmektedir.

İşletme başına kritik BT olaylarının ortalama aylık maliyeti yaklaşık 1.2M$ büyüklüğündedir. Bu yıldan başlayarak, işletmelerin %50’si olayları kritik hale gelmeden önce yakalamak için Application Performance Monitoring (APM) araçlarını daha yaygın bir şekilde kullanmak ve yapay zekayı aktif olarak benimseyen araçları kullanacaklarını belirtiyorlar. Mevcut APM araçlarının çoğunun yapay zeka yeteneklerinin olmaması veya sınırlı olması SRE’ler için büyük bir eksiklik olarak görülmektedir. Yapay zeka ile birden fazla kaynaktan gelen yapılandırılmış/yapılandırılmamış verileri makine öğrenimi (Machine Learning) ile işleyip, ChatOps entegrasyonu ile olayları tespit etmek, izole etmek, teşhis etmek ve çözmek için benzersiz bir deneyim sunmaktadır.

Bu konu da Gartner’ın analiz raporuna erişmek ve BT için yapay zekanın iş sonuçlarını nasıl iyileştirdiğini, nasıl gelir artışı sağladığını ve kuruluşlar için hem maliyetleri hem de riskleri nasıl düşürdüğünü öğrenebilirsiniz.

BT Operasyonları için Yapay Zeka İyileştirilmiş İş Sonuçları Sağlıyor , Gartner , 3 Aralık 2019

Yapay Zeka (AI) ve Makine Öğrenimi (ML), SRE rolüyle ilişkili manuel yapılan işlemleri azaltmanın bir yolu olarak ortaya çıktı ve yüksek değerli iş ve yenilikçiliğe odaklandı.

ML modelleri, güvenilir bir şekilde geçmiş deneyimlerden iç görüleri elde eder ve akıllı BT operasyonları oluşturmak için yapay zekayı uygulamaya başlar. Operasyonlara uygulanan yapay zeka, otomasyon ve AIOps, ekiplerin büyük hacimli verileri yönetmesine ve proaktif olay çözümünü elde etmesine yardımcı olur.

Farklı sektördeki işletmeler, aşağıdaki çözümleri kullanmak için AIOps’u hızla benimsiyorlar.

· BT operasyonlarında tek, akıllı ve otomatik bir yapay zeka katmanı.

· Sürekli artan işlem verilerini toplamak ve sadeleştirmek.

· Gerçek zamanlı analize ve geçmiş deneyime dayalı olarak önemli olayları tanımlamak.

· Hızlı müdahale ve iyileştirme için olay nedenlerini teşhis etmek.

· Ekipleri kritik kullanıcı deneyimlerini sağlamlaştırmaya odaklamak için etkilenen uygulama bileşenlerini belirlemek.

· SRE’lerin olaylara ve kesintilere daha hızlı, hatta proaktif olarak yanıt vermesini sağlamak.

· Kullanıcı deneyimi ve hizmet düzeyi ölçümleriyle tanışmak.

AIOps, en çok nerede ve ne zaman ihtiyaç duyulduğuna dair iç görüler sunmak için insan ve makine zekası arasında güçlü bir eşleşme getirmektedir.

Yapay zeka ile bütünleşmiş, akıllı ve otomatik bir BT operasyon platformu, açık ve hibrit bulut ortamlarında DevSecOps uygulamalarını birleştirmeyi destekler ve böylece ekipler özgürce birlikte çalışabilir. Uygulama merkezli bir görünüm, ister tek bir kişi ister birden çok ekip tarafından yönetilsin, bir hizmetten sorumlu farklı roller arasında etkili işbirliğini hızlandırmaktadır. AIOps, ChatOps panoları ile kullanıcı deneyimleri arasında paylaşılan iş birlikteliğini güçlendirir ve bir ekibin problem çözme ve bir olayın neden kaynakladığını anlama için seçtiği araçları benimseyerek, SRE’lerin daha hızlı hareket etmesini, olayları teşhis edip, düzeltmek ve önlemek için iş birliği yapmasına olanak tanır.

Uygulama merkezli bir yaklaşım, müşteri hizmet seviyesi hedeflerini (SLO) veya gizlilik kurallarını karşılamak için tasarım yoluyla ve DevSecOps süreçlerine entegre güvenliği ve uyumluluğu kolaylaştırır.

Uygulama merkezli BT yaklaşımınızın merkezinde yer alan Yapay Zeka, SRE ekiplerinizin işi basitleştirmesine, otomatikleştirmesine, önceliklendirmesine ve çözümü hızlı bir şekilde uygulamasına olanak sağlar.

IBM Research inovasyonlarından güç alan IBM Cloud Pak for Watson AIOps, SRE ekiplerinize ve BT operasyon ekiplerinizin reaktif bir yapıdan proaktif bir yapıya geçmesini sağlar. Yapay zekayı BT operasyonlarınızın merkezine yerleştirmeniz için araçlar sunar. IBM Cloud Pak for Watson AIOps ile, esnekliği ve verimliliği artırmak için BT operasyonları araç zincirinizin her noktasında yapay zekayı kullanabilirsiniz. Tercih ettiğiniz bulut ortamında (Public/Private) kullanabilirsiniz.

Watson AIOps, karmaşık sorunları çözebilmeniz için verileri gruplanmış BT kaynakları ve araçları içerisinde toplayıp, sentezleyerek uygulamalarınızın ve BT ortamlarınızın bütünsel bir görünümü sağlar. Çözüm ise yapılandırılmış ve yapılandırılmamış verileri gerçek zamanlı olarak ilişkilendirmek için Makine Öğrenimi (ML) ve Doğal Dil İşleme (NLP) teknolojilerini kullanır. Nedenleri teşhis etmek ve çözüm eylemlerini daha hızlı tanımlamak için iç görüleri ortaya çıkarır.

Watson AIOps, ortamlarınıza özgü değerli yeni içgörüleri sağlamak için uygulamalarınızdan alınan verilerle, önceden ayarlanmış AI modellerini kullanılır. Öngörüleri ve önerilerini mevcut ChatOps iş akışı veya tercih edilen diğer iletişim kanalları üzerinden proaktif olarak sunulur.

Watson AIOps, loglar,metrikler,alarmlar, uygulama topolojileri ve bildirimler dahil olmak üzere farklı veri tiplerini izler ve veri silolarına bağlanarak olası sorunları tespit eder. Bu sebeple SRE’lere çalıştıkları ortamlarda bütüncül bir görünüm sağlar, verileri anlamalarına ve tek bir kaynaktan sorun çözümünü otomatikleştirmelerine olanak tanır.

AIOps, SRE’lerin çok daha az efor ile daha hızlı hatta proaktif olarak yanıt vermesini sağlar. Hızlı yanıt ve iyileştirme için sorunun nedenlerini teşhis edebilir ve hatta bazı durumlarda bu sorunları insan müdahalesi olmadan otomatik olarak çözebilir.

Yapay Zeka ile BT’nin geleceği, inovasyona dönüşen içgörülerin kilidini açacağınız, olaylardan ve kesintilerden kaçınmak için gelecekte neler olduğunu göreceğiniz anlamına gelir. IBM Cloud Pak for Watson AIOps, i farklı şeylere odaklanabilmeniz için reaktif operasyonlardan proaktif operasyonlara geçmenizi sağlar.

https://www.ibm.com/cloud/learn/site-reliability-engineering

Teşekkürler!

Engin Özkurt

--

--

Engin Özkurt

𝘚𝘦𝘯𝘪𝘰𝘳 𝘚𝘪𝘵𝘦 𝘙𝘦𝘭𝘪𝘢𝘣𝘪𝘭𝘪𝘵𝘺 𝘌𝘯𝘨𝘪𝘯𝘦𝘦𝘳 / 𝘌𝘹-𝘔𝘪𝘤𝘳𝘰𝘴𝘰𝘧𝘵 /𝘖𝘱𝘪𝘯𝘪𝘰𝘯𝘴 𝘩𝘦𝘳𝘦 𝘢𝘳𝘦 𝘮𝘺 𝘰𝘸𝘯.