Büyük Sorumluluk: Datacenter ve Hosting işi

Biraz önce twitter üzerinde bir mesaj ile bu konu aklıma geldi, yıllar önce, önce müşteri daha sonra dostumuz olan bir arkadaşımızın yorumu canlandı gözümde. Yaptığımız işin ne kadar ağır ve zor bir sorumluluk olduğunu belirtmiş ve bize iyi cesaret demişti. O zamanlar pek anlam verememiştim, sonuçta alelade bir iş, sürekli yaptığımız ve içinde yaşadığımız bir durum olduğundan dışardan bir göz ile konuya bakma becerisini kazanamıyorsunuz. Şahsen işe ilk giriştiğim günlerde dahi kullandığım ana slogan: “%100 Sorun yaşamamayı garanti edemeyiz, fakat sorun yaşandığında %100 işin başında ve çözmek için çalıştığımızı garanti edebilirim” idi.

Datacenter Down!
Datacenter Down!

İşin ağır ve ezici sorumluluğunu sizlerle paylaşmak, alınması gereken önlemlerin sonuçlarını biraz olsun sizlerin gözündede canlandırmak istiyorum. Bahsedeceğim senaryoların tamamı ülkemiz şartlarına özel şartlardır. Dünya genelinde bu konuların bazıları daha basit çözümlere sahip olsa da ülkelere göre özel ağır sorumluluklar ve sorunlar söz konusudur. Yazımın devamında paylaşacağım bilgiler bir mühendis veya sektör standartları adına dökümantasyon olmaktan çok tamamen kendi şahsi görüşüm ve deneyimlerime dayanmaktadır.

Network Erişimi Kesilirse?

Öncelikle en basit hatalardan başlamak istiyorum, ülkemizde network sorunları sürekli yaşanabilecek bir durumdur. En basit ethernet kablosu arızasından tutunda, kabin switch, kabin-access switch sorunu, backbone router sorunu, uplink provider sorunu sıralamasında mutlaka bir problem yaşarsınız. Çözümü bulmak genelde basittir. Eğer sorun datacenter’ınızın içerisinden kaynaklanıyor ise bu durumda sürekli tatbikat yapan bir ekibiniz var ise 15-30 dakika içerisinde çözüm üretirsiniz. Fiziksel cihaz arızalarında ana nokta elinizde benzer cihazlar olmasının yanı sıra tüm sistemdeki ekipmanların CONFIG yönetimini düzenli ve kayıt altında yapmanızdır. Cihazı bulsanız bile eğer yedek config düşünmemişseniz tüm ayarları el ile tekrar yapılandırmak size bir kaç saat kaybettirecek ve müşterilerinizin ensenizde boza pişirmesine neden olacaktır.

Yukarıdaki paragrafta datacenter içini çözmeye değindik fakat iş uplink provider üzerinde patlıyorsa şimdiden allah sabır versin demek gerekiyor. Ülkemizde alanında uzman providerlarımız malesef sayıca bir elin parmağını geçmiyor. Fakat bu firmalarda da sorun çıktığında çözüm için saatlerinizi harcamanız gerekebiliyor. En basit bir bgp session hatasını çözmek 2-6 saat sürebiliyor. Uplink provider hatalarını çözmek için öncelikle ana provider üzerinde yedekli yapılandırma şart. Yedekli yapılandırma erişim fiyatınızı %50 oranında arttırıyor. Büyük sorun. Buna ek olarak provider tarafındaki arızalardan da etkilenmemek için mecburen yedek providerlar üzerinde de çalışmak zorundasınız ki işte bu noktada erişim maliyetinizi 2-3 katına yükseltmek zorunda kalabilirsiniz.

Erişim maliyetindeki zoraki artışları müşterilerinize yansıtmak malesef ülkemizde tam bir ölüm. Bu profesyonel yaklaşıma sahip müşteri sayısı malesef oldukça az, dolayısı ile şirketiniz içinde bu sorunu çözmek zorundasınız.

Bu arada genelde Verimerkezleri veya Hosting şirketlerinin en sık kullandıkları bahanedir bu konu, yani size Türk Telekom’da veya Superonline üzerinde sorun var dendiğinde sorun aslında şirketin kendi iç problemlerinden yaşanıyor olabilir. Ülkemizde değil tüm dünyada bu tür bir durum söz konusudur.

Peki bu işin zararı ne kadar? Bu işin zararı müşterimiz için stresli bir kaç saattir. Erişim sorunu anında siteler ve sistemler erişilemez olduğundan erişim, gösterim ve doğal olarak ciro kaybına neden olur. Sorun yaşandığı zaman ve müşteri tipine göre değişken maliyet yaratır. Örnek olarak private shoping müşterimiz için sabah 8-11 saatleri arasında yaşanabilecek bir kesinti gündelik cironun %80’ine zarar verecektir. Tabi daha da kötüsü o saatler arasında bu müşterinin ziyaretçileri ve müşterileri almak istedikleri ürünü farklı bir rakipleri üzerinden satın almalarıdır…

Çözüm: Hizmet aldığınız Verimerkezinin güvenilirliğini denetlemenizdir. Eğer konuya hakim değilseniz bu durumda rasgele müşterilerine danışabilir veya konuya hakim bir firmadan danışmanlık alarak incelemenizi öneririm.

 

Elektrik Arızaları

Şebeke elektriği arızası yaşanırsa?

Öncelikle bu arızayı açıklamak gerek, şebeke yani yerleşik elektrik sağlayıcı size elektriği Trafo üzerinden taşır. Genelde evlerimizde kullanılan yapının benzeri olsa da taşınan elektriğin kapasitesi fazla olduğundan aynı metodu daha büyük ekipmanlar ile kullanırız. Bazı verimerkezleri trafo ekipmanını kendi yatırımı olarak planlar bazıları ise mahalledeki sıradan bir müşteri gibi kapasite satın alabilir. Trafonun bağımsız olması arıza sirkini azaltmaktadır. Bunun sebebi trafo üzerinde tek müşteri siz olduğunuz için elektrik dağıtım şirketinin yeni müşteri bağlama veya kapasite düzenlemelerinden etkilenmezsiniz. Buda hatalı düzenleme riskini ortadan kaldıracaktır.

Şebeke arızasının genel sonucu elektriğin kesilmesidir. Verimerkezinde bu durumlarda iş ups-jeneratör ekipmanlarına biner. Çok sık kesinti yaşanan bir durum söz konusu olması durumunda aşırı yük veya sürekli start-stop süreci jeneratörün verimini düşürebilmektedir. Aynı şekilde ups akülerinin tam şarj durumuna ulaşamadan elektriğin kesilmesine neden olabilmektedir.

Bu arızanın çözümü malesef belirsizdir, özellikle yaz aylarında İstanbulda aşırı nem ve aşırı sıcaklık sebebi ile eski şebekelere binen klima ve diğer yükler sebebi ile planlı bakım çalışmaları veya arızalar yüzünden ayda 2-24 saat arasında kesinti olabilmektedir.

Bu arızalarda trafo patlaması veya elektrik panolarındaki patlamalar söz konusu olabilir, sonuçları insan hayatı kaybına kadar gidebilir.

Geçtiğimiz yıllarda hatırladığım mecidiyeköy bölgesinde yaşanan bir trafo patlamasında trafo binasının çöktüğü ve can kaybı olduğunu hatırlıyorum.

Şebeke arızasının zararı ne kadar? Elektrik arızalarının genel sorunu başlığında genel bir açıklama yapıyor olacağım, fakat şebeke arızasının genel zararı verimerkezinde elektrik kesilmez ise Mazot-Yakıt maliyetlerinizin artması olarak belirlenebilir. Eğer tüm verimerkezi enerjisi kesilirse bunu elektrik arızaları toplamı için yorumlayacağım.

Çözüm: Mümkünse yedekli ve tamamen verimerkezine özel bir trafo üzerinden enerji kullanımıdır. Düzenli bakım ve düzenli izleme şarttır. Giriş çıkış voltaj ve frekans ayarları sürekli izlenmelidir.

 

Jeneratör Arızası yaşanırsa?

En sık yaşanan problemdir. Problemin 2 ana kaynağı vardır, doğru planlama ve yatırım yapmamak, düzenli bakım ve kontrol yapmamak.

Doğru planlama ve yatırım şudur, işlettiğiniz sistem sürekli enerjiye ihtiyaç duyacaktır, 1 dakikalık kesinti arkada 1000 sunucu için ortalama 2-3 bin direkt kişinin 2-24 saat arasında zamanına mal olacaktır. Kabaca Türkiyedeki internet trafiğinin %5-6 lık kısmının problem yaşamasına neden olacak, haliyle ciddi bir ticari kaybı doğuracaktır. Bu yüzden 1 jeneratör ücretinden kaytarmak için bu riski almaya hazır olup olmadığınızı kesinleştirmeniz gerekir.

Asla ve asla tek jeneratör yeterli değildir. Mutlaka en az 2 farklı N+N yapılandırmada jeneratör sistemi şarttır. Bu cihazları büyük motorlar olarak düşünürseniz sürekli çalışmaları mümkün olmadığından dinlendirmeniz veya mutlaka bakım için kapatmanız gerekebilecektir. Bu tür kısa ama Murphy kurallarının yaşanacağı anlarda gol yememek için YEDEK cihaz şarttır. Size yatırım maliyeti olarak geri dönen bu düzenleme geceleri rahat uyumanız için önemlidir.

Jeneratör seçimide en önemli noktalardan biridir, ucuz olması için kalitesi düşük cihazlar seçmeniz, nasıl olsa 2 tane alıyoruz demeniz sizi asla kurtarmayacak aksine ucuz cihazın bakım ve arıza oranı çok daha büyük olacak ve günün sonunda kar ettiğinizi düşündüğünüz 3 kuruşu müşteri kaybı ve prestij olarak zaten fazla fazla geri ödeyeceksiniz.

Jeneratörlerin satın alması kadar konumu, kullanım modeli, kısaca planlanması da büyük önem taşır. Bu yüzden yapılacak yatırım düşünülerek sistem tasarlanmalıdır. Bunun sonucu genelde aşırı büyüme yüzünden düzenlemelerin yapılamaması veya yogunluk yüzünden aşırı sıcaklık yaşayarak cihazların kapanması gibi sorunlarda sık sık yaşanmaktadır.

Bakım süreci ülkemizde genel olarak önemsenmemekle birlikte bu cihazların özel sorun üretme becerilerinden ötürü bakımları eksiksiz ve tam yönetilmelidir. Özellikle hava ve yakıt filtrelerinin sık sık değişmesi önemlidir.

Çözüm: Bu alanda deneyimli bir şirketten destek alarak arıza yaşanmaması için dua etmek…

 

UPS Arızaları yaşanırsa?

UPS Jeneratörlerden daha hassas cihazlardır. Tüm sistem bu cihazlara bağlı olacağından saniyelik sorunlar sebebi ile problem yaşanması mümkün olmaktadır.

UPS arızalarındaki ana problem kaliteli ekipman veya marka kullanılmamasıdır. Bu alanda dünyaca ünlü ve neredeyse her şirkette aktif kullanılan cihazlar tercih edilmelidir. Tabi bu da yeterli değildir. Yedeklilik yine en önemli noktadır. UPS cihazlarında arıza şansı mümkündür ve bu noktada bakım gibi özel durumları da düşünerek mutlaka yedekli planlama gerekir. Yedekli planlamada uyumlu cihazlar kullanılmalı ve bu cihazların birbiri ile iletişim halinde kalması garanti edilmelidir.

Yıllar önce eski verimerkezlerimizden birinde X bir firmanın N+N yedekli sistemi üzerinde çalışırken birden tüm sistemin durduğuna şahit olmuştum, araştırma sonucunda sorunun cihazların birbirleri ile iletişim için kullandığı modüllerin arızalanması yüzünden yaşandığı ortaya çıkmıştı. Yani upsler yedekli ve sorunsuz idi, fakat iletişim modülleri yedekli tasarlanmadığı için çalışmaktan vazgeçmişlerdi… Bu gibi durumların çözümü alanındaki en iyi markaları kullanmaktır. Bu sayede hem kaliteli bir üretim sürecinden çıktıklarına emin olur hem de tüm dünyada kullanıldıklarından size gelene kadar mutlaka bu tür uç konular için test edildiklerinden emin olursunuz…

UPS sistemlerin en büyük zaafiyeti gelen elektriğin kalitesi ve Akü gruplarının şarj sürelerinin feci uzun olmasıdır. Tahminen cevap vermek gerekirse 500 kva gücündeki bir ups için 15 dakikalık bir akü grubuna sahipseniz, yani elektriği 15 dakika destekleyen bir sisteminiz var ise bu sistemin %100 şarj olması için 8-12 saat süre gerekmektedir. Bu nokta en büyük sorunlardan biri olup jeneratörlerde yaşayacağınız bir sorunda eğer 2 şer dakikalık 8 arıza yaşarsanız ups sistemi aküleri bittiğinden sistemi destekleyemeyecektir.

UPS sistemlerinin giriş elektriğindeki kalite farkını izlemeniz şarttır. Böylece arızaları önceden tespit şansınız olacaktır.

UPS arızasının zararı ne kadardır? Genel elektrik arızaları başlığında genel yorum yapacağım, fakat ups arızalarındaki zararlarda spesifik olarak akü gruplarını kaybedebilir, ups modülünü kaybedebilirsiniz. Bu tür kayıplarda fiziksel bir kurulum ve ciddi bir tedarik süreci yaşamak zorunda kalmanız mümkün olduğundan YEDEKLİ yapı şarttır.

UPS arızalarına çözüm olarak: Ana çözüm kaliteli cihaz seçmek, doğru planlama yapmak, sürekli bakımını sağlamak ve her zaman izleyerek kayıt tutmaktır.

 

Kabin veya PDU sigorta arızaları yaşanırsa?

Bu arıza da sık rastlanmamakla birlikte genelde hızlı büyüyen müşteriler veya müşterilere ait cihazlardaki elektrik problemlerinden dolayı tetiklenmektedir. Bu noktada Kabin içerisinde kullanılan enerji ekipmanlarının kapasitesine dikkat etmek gerekmektedir. Genelde 15 sunucu için tasarlanmış bir kabinden hizmet alıyorsanız ve daha fazla sunucu veya daha fazla enerji ihtiyacına neden olacak bir donanım kullanacaksanız muhtemelen sigorta arızası yaşarsınız. Buda tüm kabinin elektriğinin gitmesine neden olabilir. Buna ek olarak eğer kabin enerji sistemi doğru yapılandırmamış ise yangın riski oluşacaktır.

 

Verimerkezlerindeki Elektrik arızalarındaki genel sorunlar nedir?

Ana problem sunuculara gelen elektriğin kesilmesidir. Yani sunucu üzerinde çalışan tüm servisler ilk olarak elektrik gelene kadar çalışmayacaktır. Elektrik tahminen 5-15 dakika arasında geri gelecektir. Fakat gerçek macera ve risk bu noktada başlar.

Öncelikle sunucu açılmayabilir, bunun sebebi uzun süredir çalışan ve daha önce hiç kapatma testi yapılmamış bir cihazınız var ise cihaz fiziksel olarak power supply veya disk gibi parçalardan dolayı arıza yaşıyor olabilir.

RAID destekli bir sistem kullanıyorsanız ve raid kartınızın ayarları doğru yapılandırmamış ise raid sisteminizi tümden kaybedebilirsiniz.

Diyelimki sunucuda fiziksel arıza yok, disk yapınızda da fiziksel problem yaşamadınız ve fiziksel olarak sağlıklı bir geri dönüş gerçekleşti. Bu noktada işletim sisteminizin disk kontrolü ve dosya sistemi kontrollerini yapmasını beklemeniz gerekiyor. Pek çok deneyimsiz sistem yöneticisi veya destek hizmeti satın almayan standart bir müşteri iseniz bunu mutlaka yaşarsınız. Bu durumda linux işletim sistemi kullanıyorsanız “FSCK” süreci size disk boyutunuza göre değişmek ile birlikte 15 dakika ile 8 saate varan bir süre kaybettirebilecektir. Benzer durum Windows’ta da bulunmaktadır. Fakat Microsoft bu noktada arka planda düzenli kontrolleri default olarak sağladığından “CHKDSK” süreci oldukça zahmetsiz olacaktır.

İşletim sistemi disk kontrolleri vs bittikten sonra açıldığında sonraki adımda karşınıza servislerin doğru başlayıp başlamadığı noktası gelir, bu noktada web server, dns server, mail server gibi tüm servisler sağlıklı başladı mı bunu kontrol etmelisiniz. Genelde başarılı olacaktır. Fakat sunucunuz dağıtık yapıda ise NFS benzeri bir paylaşım yapınız var ise bu sıralama daha farklı olacaktır.

Servisler sağlıklı başladıktan sonra en belalı süreçlerden biri olan Veritabanının açılmasını beklemeniz gerekiyor, tabi yine DUA ederek! Bu noktada genelde veritabanı sağlıklı kapatılmadığı için bazı verilerin kaybolma riski söz konusudur. Ayarlarınıza göre bu değişmek ile birlikte veritabanının arızası genelde yaşanan bir sorundur ve siz oturup veritabanının arızasını kontrol etmek, index vs yapıları yeniden yaratmak zorunda kalabilirsiniz. Aslında pek çok kaliteli ve büyük veritabanı sisteminde buna ihtiyaç yoktur. Fakat günümüz web dünyasında kullanılan opensource yazılımların ayarlarının sağlıklı yapılmaması durumunda sık sık veri kayıpları veya veritabanını kontrol etme derdi gündemdedir.

Peki Verimerkezindeki elektrik sorunlarında yaşanacak arızanın maliyetinin hesaplanması nasıldır?

Bu hesaplama oldukça karmaşıktır. Yukarıdaki örnekten gidelim. 1000 sunucu barındıran bir verimerkezinde elektriği sabah saat 8-10 saatleri arasında kaybettik. Ve Tüm sistem kapandı.  Öncelikle sistemi açmak en az 6-7 saat sürecektir. Yukarıdaki sistemleri ayağa kaldırmak servisleri düzeltmek derken ciddi bir zaman geçer.

Zaman kaybı aslında ana problemin nedenidir.

Bu sürede web sitelerinde servis duracaktır. Müşteriler sitelerde gezemeyecek, haberleşemeyecek, ticaret yapamayacaktır. 1000 sunucu TR için düşünürsek kabaca lokal internetin %5 lik kapasitesini oluşturmaktadır. %5 demek 35 milyon USER bulunan bir pazar için 1.7-1.8 milyon insanın ihtiyaçları karşılanamayacak anlamına gelir.

1.8 milyon kullanıcının ticari kayıplarına ek olarak hesaplanması zor olan bir diğer nokta da prestijdir. Örnek olarak bir eticaret sitesi olduğunuzu düşünürsek sizden ürün satın alacak bir müşteriye 6-8 saat servis veremediğinizde müşteri kesinlikle farklı bir şirketten satın alma yapacaktır. Bu durumda siz 1 satış kaybediyor gibi görünsenizde aslında bu müşterinin sonraki siparişlerini de kaybetmiş olabilirsiniz. Belki müşteri tekrar eden siparişlerini diğer firma üzerinden yapıyor olacaktır… bilinmez. Ama ana risk budur.

Bu arada daha büyük bir problem ise şöyledir, yine aynı eticaret şirketi olduğunuzu düşünürsek bu sorunlu anlarda aslında müşteriye bir servis sattığınızı, fakat bu satışın kayıtların veritabanınızdaki arıza yüzünden bulamadığınızı düşünelim. Yada tam da sipariş anında enerji kesildiğinde sizin müşterinin sonuçlarını veritabanına kaydedemediğinizi düşünelim… Bu noktadaki problem müşterinin durumu farketmesi, müşteri hizmetlerine iletmesi, olayın araştırmasının uzaması, prestij kaybı diye giden uzun bir zincir oluşturur…

 

Peki sorumlu kim?

Sorumluluk genelde karşılıklıdır, verimerkezi yukarıda saydığım yapılandırmada genel olarak işin enerji ve fiziksel ortamından sorumludur. Bu sorumlulukta enerjinin kalitesine ait SLA üzerinde belirlenmektedir. Fakat ana problemler sistem ile ilgilidir ve bu sistemin yönetimi ve yedeklenmesi konularına bağlıdır.

Benim bu noktada önerim, doğru bir verimerkezi ile çalışırken sistem yönetimi tarafında eksiksiz ve kaliteli bir destek hizmeti satın almanız veya ekibinizin bu sistem yönetimi sorunlarını büyük oranda çözebilecek yapıda olmasıdır.

 

Yangın Sorunları:

Verimerkezleri yangın problemlerini engellemek için susuz çözümler tercih ederler. Elektrik ve Elektronik ekipmana zarar vermeden yangını oksijenin yapısını bozarak çözüm üreten bu teknolojiler sektör standartlarından biridir. Yangın probleminin çıkış kaynakları değişkendir fakat genelde elektrik ağırlıklıdır. UPS-Jeneratör-Elektrik ekipmanlarındaki arızalar başlıca sebeplerdir.

Bu problemi çözebilmek için öncelikli olarak yangına neden olacak kablo ve sigorta ekipmanlarında yangın yönetmeliğine uygunluğa dikkat edilmelidir. Kablolarda aşırı ısınma veya başka bir sebepten ötürü oluşabilecek alevlenmeye karşılık alev almaması şarttır. Aznı zamanda yangın gerçekleşsede kablolardaki plastik malzemelerin zehirli gaz üretmesini önlemek şarttır. Çünkü aynı anda ortamda insan bulunabilir ve zehirlenerek hayati tehlikeye girmesini düşünmek gerekmektedir.

Eğer bir şekilde oluşacak bir yangın durumu söz konusu olursa, sistemin tasarımı ve testlerini yaptırmak işe yarayacaktır. Çözüm gaz tabanlı olduğundan sistem odasının hava akış testlerinin yapılmış olması şarttır.

Tüm testleri yapılmış ve doğru planlanmış bir ortamda yangın genelde bir kaç dakika içerisinde otomatik olarak söndürülecektir.

Yangın sorunlarındaki zararın boyutları: Tamamen ortama bağlı olmakla birlikte genelde cihazların yok olmasıdır. Bu durumda yedeklilik düşünmediyseniz yaşanan sorun şirketinizin tüm web sitesini, tüm veritabanlarınızı ve tüm kayıtlarınızı yok edebilir.

Çözüm: Verimerkezi bu alandaki sorunları %100 kapsayacak bir çalışma yapmalı ve denetlemelidir. Müşteri tarafında ise sorunun çözümü neredeyse herşeyi çok kısa aralıklarla yedeklemek ve en azından birden fazla alanda bu kayıtları saklamaktır.

 

Yukarıda saydığım pek çok ana başlığa rağmen sayamadığım en az bu sayıda hata ve sorun riski bulunmaktadır. Bu risklerin tamamı için dünyada ISO standartları uygulanması zorunluluk durumundadır. Fakat ülkemizde verimerkezi şirketler için herhangi bir zorunluluk veya denetim söz konusu değildir. Bu yüzden bu süreçler müşterinin deneyimine bırakılmaktadır.

Dünyada şirketlerin tükettiği elektriğin doğru ve verimli bir şekilde tüketilip tüketilmediği bile şartlara bağlanmış olan Verimerkezi sektöründe ISO 9001, 27001 ve 22301 standartları yedeklilik, iş sürekliliği, bilgi güvenliği gibi ana noktaları düzenler ve denetler. Bu standartlar ülkemizde maalesef pek çok verimerkezinde YOKTUR.

Bunlara ek olarak dünya standartları içerisinde TIER yapılandırmaları da bulunmaktadır. TIER yapılandırmaları aslında bir terminoloji ve yapılandırma modeli durumundadır. Bu yapılandırmada dünyanın en ünlü firmalarından biri UPTIME INSTITUTE dir. Ülkemizde bu şirket üzerinden TIER 3 yani N+1 dediğimiz yapılandırma için danışmanlık almış sadece 5 firma bulunmaktadır ve bu firmalar sadece tasarım aşamasında danışmanlık almış görünmektedir.

UPTIME veya diğer değerli mühendislik şirketlerinin sağladığı dökümantasyon veya denetim çok önemli gibi görünmemekle birlikte yapı büyük oranda tescil ile veya etiketleme ile ilgilidir, bütçeniz var ise tercih edebileceğiniz bu dökümana ek olarak şahsi fikrim ISO standartlartı 22301 daha doğru bir tescil gibi görünmektedir.

Bir pazar günü bir twitter mesajından yola çıkarak yukarıdaki değerlendirmeyi paylaşmak istedim. Umarım bilgilendirici olmuştur.