Archive for category Popular Posts

IBM Storwize V7000 6.1.0 Configuration Limits and Restrictions

Storwize V7000 software versions 6.1.0.0 to 6.1.0.6 support attachment of up to 4 expansion enclosures per system. Software version 6.1.0.7 and later removes this restriction, supporting attachment of up to 9 expansion enclosures, allowing a total of 10 enclosures per system.

 

DS4000 Maintenance

Storwize V7000 supports concurrent ESM firmware upgrades for those DS4000 models listed as such on the Supported Hardware List when they are running either 06.23.05.00 or later controller firmware. However, controllers running firmware levels earlier than 06.23.05.00 will not be supported for concurrent ESM upgrades. Customers in this situation, who wish to gain support for concurrent ESM upgrades, will need to first upgrade the DS4000 controller firmware level to 06.23.05.00. This action is a controller firmware upgrade, not an ESM upgrade and concurrent controller firmware upgrades are already supported in conjunction with Storwize V7000. Once the controller firmware is at 06.23.05.00 or later the ESM firmware can be upgraded concurrently.

Note: The ESM firmware upgrade must be done on one disk expansion enclosure at a time. A 10 minute delay from when one enclosure is upgraded to the start of the upgrade of another enclosure is required. Confirm via the Storage Manager applications “Recovery Guru” that the DS4000 status is in an optimal state before upgrading the next enclosure. If it is not, then do not continue ESM firmware upgrades until the problem is resolved.

 

Host Limitations

Windows SAN Boot Clusters (MSCS):

It is possible to SAN Boot a Microsoft Cluster subject to the following restrictions imposed by Microsoft:

  • On Windows 2003, clustered disks and boot disks can be presented on the same storage bus, but ONLY if the Storport driver is being used.

These restrictions and more are described in the Microsoft White Paper: “Microsoft Windows Clustering: Storage Area Networks“.

We have not tested, and therefore do not support, modifying the registry key as suggested on page 28 (which would allow boot disks and clustered disks on the same storage bus on Windows 2003 without the Storport driver).

Oracle:

 

  • Restriction 1: ASM cannot recognise the size change of the disk when Storwize V7000 disk is resized unless the disk is removed from ASM and included again.
  • Restriction 2: After an ASM disk group has successfully dropped a disk, the disk cannot be deleted from the OS. The workaround to the OS restriction is to bring down the ASM instance, delete the disk from the OS, and bring up the ASM instance again.
  • Restriction 3: For RHEL4 set Oracle Clusterware ‘misscount’ parameter to a bigger one to allow SDD to do path failover first. The default miscount setting 60s is too short for SDD. We recommend to set it 90s or 120s. Command to use: crsctl set css misscount 90

 

Maximum Configurations

Configuration limits for Storwize V7000 software version 6.1.0:

 

Advertisements

, ,

Leave a comment

Depolama Teknolojileri, Trendleri ve IBM in Bakış Açısı

Bu makalemde öncelikle depolama ürünlerinden, teknolojilerinden, IBM in büyüyen depolama ürün ailesindeki yeni ve yenilikçi çözümlerinden bahsetmek istedim. IBM depolama ürün ailesine geçtiğimiz ay “storwize v7000” isimli yeni bir ürün katıldı. IBM depolama ürün ailesinde yer alan bazı çözümlerden/teknolojilerden genel olarak bahsedeceğim, ancak aslında üzerinde durmak istediğim çözümler;

  • Storwize v7000 (orta segment depolama ve depolama sanallaştırma çözümü)

http://www-03.ibm.com/systems/storage/disk/storwize_v7000/index.html

  • N series (giriş, orta ve büyük segment depolama çözümü)

http://www-03.ibm.com/systems/storage/disk/index.html

Depolama teknolojilerindeki trendler;

Depolama teknolojilerindeki en büyük trend verinin azaltılması, küçültülmesi olacaktır. Dolayısı ile depolama teknolojilerindeki trendler de verinin azaltılmasına, küçültülmesine yönelik olarak gelişmektedir. Şu anda her yıl %55 oranında veri büyümesi gerçekleşmektedir. (Gartner istatistiklerine göre) Şirketlerin/kurumların verilerinin bu büyüme oranıyla artması; eldeki yapıda bulunan/kullanılan ürünler/teknolojiler in yeterli olmamasına sebep olacaktır. Buradan hareketle bahsedeceğim teknolojilerin firmalar/kurumlar için hayati önemi vardır. Şirketler/kurumlar ancak depolama konusundaki trendleri takip ederek ve yatırımlarını buna göre yaparak bu problemleri aşabilir.

1)     Tekilleştirme (De-duplication)

Son yıllarda depolama alanında ortaya çıkan en önemli teknolojilerden biridir. Fiziksel olarak diske kaydedilecek olan “1 (bir), 0 (sıfır)” verilerinin matematiksel algoritmalarla kontrol edilerek, tekrarlanan dizilerin tekrar kaydedilmesi sadece referans bilgisinin yazılarak fiziksel data alanını daha efektif kullanmayı sağlayan teknolojidir. Bu sayede fiziksel veri alanına kapasitesinin % 25-75 daha fazla veri kaydetmek mümkün oluyor.

2)     Thin Provisioning

Bu teknoloji depolama ürünü üzerinden veri alanı sağladığınız sistemlere atanan veri alanları rezerv atamak yerine kullandığı kadar atamanızı sağlıyor. Yani 750 GB boyutunda bir veri alanını sisteminize atadığınızda, başlangıç itibari ile bu alana 100 GB veri kaydedildiğinde; kullanılan alan 100 GB oluyor, 750 değil. Bu da depolama kapasitesini net bir şekilde kullanmanızı sağlıyor. Dolayısı ile 5 TB kapasiteye sahip bir tanesi thin provisioning destekleyen, diğeri desteklemeyen 2 ayrı depolama cihazı için örnek verecek olursam; thin provisioning desteklemeyen ürün üzerinden 10 adet sunucuya 500 GB alan verdiğimizi düşünelim. 5 TB veri alanını daha içinde hiç bir şey yok iken rezerv ettiği için bitirmiş oldunuz, kullanılabilir alan 0 GB. Thin provisioning destekleyen ürün ise 10 adet sunucuya 500 GB alan verdiğinde kullanılabilir alan hala 5 TB olacaktır. Bu data alanına veri yazıldıkça kullanılan alan artacaktır. Ancak bu teknolojinin kullanılması depolama ürününün proaktif yönetilmesine ihtiyaç duyabilir.

3)     Depolama sanallaştırması (Storage Virtualization)

Depolama sanallaştırması ile kullanılan ürünlerin kapasitesinin  maksimum seviyede tutulması bu sayede yapılan yatırımdan maksimum geri dönüş alınmasını sağladığı için önemli bir konudur. Depolama sanallaştırması yapan bir ürünün arkasında aynı yada farklı üreticilere ait birden çok depolama ürünün birleştirilerek tek bir çatı altında toplanması ve yönetilmesi anlamına gelmektedir. Bu yapı farklı türde cihazlarin aynı yapı altında kullanılabilmesini, yönetilebilmesini sağlar. Bu ürünle veri/veriler in otomatik olarak kesintisiz bir şekilde farklı cihazlar arasında taşınabilmesi mümkündür. Performansa ihtiyaç duyan verileri tespit ederek; bu verileri verileri daha performaslı disklere ve/veya cihazlara otomatik olarak taşıyabilir. FC, SAS, SATA diskler destekleyen cihazlarını birleştirerek hepsini birarada performans sıkıntısı yaşamadan kullanabilirsiniz.

4)     Bilginin saklanması ve Yaşam Döngüsü (Information Retention and Lifecyle Management)

Bu konu yapınızda kullanacağınız ürünler kadar önemli bir konudur. Verilerin sürekli olarak büyüdüğünü ve her zaman erişilebilir olmasının istendiği bir ortamda; hangi veri/veriler in, nasıl-nerede tutulacağı, veri/veriler in ne zaman ömrünün dolduğunun/dolacağının tespit edilerek ona göre silinmesi kaçınılmaz olarak belirlenmesi/yönetilmesi gereken süreçlerdir. Bu konuda şirketler/kurumlar kendi politikalarını oluşturmalı ve ona göre hareket etmelidirler. Sıklıkla erişim sağlanmayan bilgilerin arşivlenmesi, ancak istendiğinde arşiv üzerinden erişilebilir olması gerekmektedir. Arşiv için daha ucuz maliyetli depolama alanları kullanılmalı ve arşivlenen bilgilerin artık bu alanlara taşınması sağlanmalıdır.

5)     Verinin Korunması, Yedeklenmesi ve Geri Dönülmesi (Data Protection and Recovery Management)

Öncelikle veri/veriler in yedeklenmesi ve geri dönülmesi için kullanılacak olan yazılım ve donanımların neler olacağı, hangi teknolojileri destekleyeceğine karar verilmelidir.  Sonrasında yedekleme ve geri dönme süresinin ne kadar olacağı, hangi sıklıkla yedek alınacağı belirlenmeli ve kullanılacak olan yazılım ve donanımların istenen değerleri sağlayıp sağlayamadığına bakılmalıdır. Güncel yedekleme ve geri dönme teknolojileri, ürünleri ile; anlık yedek almak-geri dönmek, anlık olarak veriyi kopyalabilmek, veriyi uzak bir lokasyona replike edebilmek, verinin bütünlüğünden emin olmak gibi seçenekler mevcuttur.

6)     Depolama Kaynaklarının ve Altyapının Yönetilmesi (Storage Resources and Infrastructure Management)

Depolama kaynaklarının ve bu kaynakların barındırıldığı altyapının yönetilmesi bir diğer kritik konudur. Depolama konusunda bilgi işlem personelinin yeterli bilgi seviyesine sahip olmaması ve güncel teknolojileri bilmiyor olması en önemli problemlerden biridir. Bu sebeple firmalar/kurumlar kendileri için en uygun olan çözümler, ürünler yada teknolojilerden mahrum kalabiliyorlar. Sonuç olarak bu durumda firmalar/kurumlar mağdur olabiliyor. Yeterli bilgi seviyesine sahip olmayan firmaların bu yatırımlarını yaparken ve yaptıktan sonra yeterli bilgi seviyesini barındıran danışmanlık hizmeti alması en mantıklı çözüm olacaktır. Şirketler/kurumlar ın depolama sistemlerini ve altyapılarını yönetecek, takip edecek ve raporlayacak yazılımlara ihtiyacı vardır. Yapının sağlıklı bir şekilde çalıştığını, maksimum performans sağladığını, atıl kapasite kalmadığını düzenli bir şekilde görmek ve raporlamak çok önemlidir. Aksi taktirde yapı ihtiyaç bulunmadığı halde büyüyecek ve karmaşıklaşacaktır. Bu da operasyonları daha zor bir hale getirecek, yönetim maliyetlerini artıracaktır.

7)     Yazılım Entegrasyonu (Application Integration)

Depolama ürününün içerisinde kaydedilmiş veriyi tanıması, veriyi kaydeden yazılım ile entegre olabilmesi de bir diğer önemli konudur. Öncelikle bu entegrasyon verinin bütünlüğü arttırdığı için çok önemlidir. Ayrıca verinin yedeklenmesi, geri dönülmesi, arşivlenmesi, kopyalanması gibi hayati önemli operasyonların ne şekilde yapılabileceğini etkiler.

Sonuç olarak; depolama alanındaki teknolojiler ve trendler şirketler/kurumlar için kritik önem taşımakta ve ilerleyen zaman içerisinde korkunç bir şekilde büyüyen veri patlaması problemi ile nasıl başa çıkacaklarını belirleyecektir. Burada tercih edilecek çözüm/ürün lerin sağlayacakları değere göre ele alınması gereklidir. (value-based)

IBM in Depolama Çözümleri;

IBM depolama ürünleri konusunda dünyadaki en büyük üreticilerden biridir. Depolama ürünleri yelpazesinde çok çeşitli ürünler bulunmaktadır. Bu makalede yeni teknolojileri barındıran bazı ürünlerden bahsedeceğim.

>  DS ürün ailesi,

Küçük, orta ve büyük segment te ölçeklenebilen, FC-SAS-ISCSI protokollerini kullanabilen (ürüne bağlı olarak), FC-SAS-SSD-SATA diskler kullanabilen ve temel olarak alışılageldik depolama çözümü sunan ürünlerdir. Windows üzerinde çalışabilen bir uygulama ile rahatça yönetilebiliyor.

>  Storwize v7000,

Orta segment te ölçeklenen IBM depolama ürün ailesine en yeni katılmış olan üründür. FC-ISCSI protokollerini kullanabilen, FC-SAS-SSD-SATA diskler kullanabilen, depolama sanallaştırması yapabilen, tekilleştirme destekleyecek, anlık yedek alma/geri dönme yapabilen üründür. Windows üzerinde çalışabilen bir uygulama ile rahatça yönetilebiliyor.

>  N series ürün ailesi,

Küçük, orta ve büyük segment te ölçeklenebilen, FC-ISCSI protokollerini kullanabilen (ürüne bağlı olarak), FC-SAS-SSD-SATA diskler kullanabilen ve tekilleştirme destekleyen, anlık yedek alma/geri dönme yapabilen ürünlerdir. (bazı fonksiyonlar ekstra lisanslıdır.) Windows üzerinde çalışabilen bir uygulama ile rahatça yönetilebiliyor.

Yeni gelişen depolama teknolojilerine, trendlerine IBM in bakış açısı,

Günümüzde yaşanan veri patlaması sonucu IBM de depolama ürünleri üzerinde yeni teknolojik trendleri takip ediyor, hatta bu gelişmelerin bir kısmında da öncü rol oynuyor. Bu da bize en büyük üreticilerden biri olan IBM in depolama çözümleri konusunda nasıl bi strateji izlediğini anlatıyor. IBM yeni çıkardığı bütün depolama ürünleri bir önceki nesil ürünlere göre daha fazla iletişim arayüzü, iletişim protokolü, kapasite, performans ve daha fazla yazılımsal özellik destekliyor.

Sonuç olarak; depolama konusunda IBM daha esnek, utilizasyonu ve performansı daha yüksek, teknolojik olarak daha fazla iş yapabilen, kolay yönetilebilir depolama ürünleri geliştirerek şirketlerin/kurumların önümüzdeki zamanda önlerine çıkacak olan depolama problemlemlerini çözmelerini sağlıyor. Sadece şunu bir kez daha belirtmek istiyorum; storwize v7000 ürünü teknolojik olarak çok üstün bir üründür. Sadece donanımsal olarak değil; aynı zamanda ürünün üzerinde çalışan yazılımın yapabildikleri de firmalara/kurumlara çok büyük faydalar sağlayacaktır.

, , , ,

1 Comment

Depolama teknolojileri ve trendleri

Depolama teknolojileri ve trendleri,

Bilgi bütün kurumlar için her zaman çok önemlidir. Bu bilgilerin nerede, nasıl tutulduğu, güvenilir olup olmadığı, bilgiye erişimin hızı, boyutu sürekli artan bilgilerin yönetimi, bilgilerin her zaman erişilebilir olması konuları kurumların depolama ile ilgili ihtiyaçlarını belirliyor. Günümüzde, kurumlar için verilerinin değeri sürekli olarak artmakta, bu verilerin her zaman erişilebilir olması gerekmekte; dolayısı ile daha hızlı, daha güvenilir, kolayca yedeklenebilen, ölçeklenebilen ve maliyet olarak da efektif çözümlere ihtiyaç duyuldu.

Buradaki en kritik konulardan bir tanesi toplama depolama ihtiyacını ön görebilmek ve teknolojik ihtiyaca göre doğru ürünü seçip, ölçeklemek. Son yıllarda depolama sistemleri konusunda “Unified Storage Systems- UDS” yani “Tümleşik Depolama Sistem” leri özellikle çok önemli bir yer tutmakta, teknolojik olarak da, maliyet olarak da tek bir ürün alarak, depolama ihtiyaçlarının tamamına cevap verebiliyor olmak mümkün. Tek bir UDS ürünü ile; birden çok protokol ile bağlantı yapabiliyor olmak, “snapshot” teknolojileri ile kesintisiz yedekleme yapabilmek, “thinprovisioning” ile toplam kapasite yerine sadece kullanılan kapasiteyi sistemlere atamak mümkün.

Depolama teknolojileri ile ilgili;

–        ISCSI” yani ethernet kablosu üzerinden depolama alanına erişebiliyor olmak maliyet açısından büyük avantaj sağlıyor.

–        Deduplication” yani kendini tekrar eden verilerin belirlenerek bir kere kaydedilmesi teknolojisi ile depolama kapasitesinin daha efektif kullanılabilmesi mümkün.

–        Thinprovisioning” yani veri alanını sistemlere atarken ihtiyaç duyulan boş kapasite için rezerve alan kullanmayarak toplam depolama alanının daha efektif kullanılabilmesi.

Veri miktarının artması veri yönetimini ön plana çıkardı. Buradaki verilerin önceliklendirilmesi, önem derecelerinin belirlenmesi, birden fazla farklı alana yazılmış verinin konsolde edilmesi sayesinde maliyeti yüksek gibi görünen veri depolama alanlarından maksimum derecede faydalanma imkanları ortaya çıktı.

, , , ,

1 Comment

Unified Data Storage – UDS

Unified Data Storage – (UDS)

Bu makalemde depolama teknolojileri ile ilgilenenlerin mutlaka ilgilenmesi gereken konulardan biri olan “Unified Data Storage – (UDS)” konusunu anlatmak istedim. Klasik data depolama çözümleri/ürünleri hakkında bilgi almak icin daha once yazdığım “Depolama Temelleri (Storage Essentials)” makalesine bakabilirler. Bu makelede UDS çözümleri/ürünleri hakkında bilgi vermeye çalışacağım. Öncellikle belirtmek istiyorum ki; UDS teknolojisi maliyetleri düşüren, operasyonel uygulamaları ve yönetimi kolaylaştıran bir çözüm. Önümüzdeki yıllarda bütün depolama ürünlerinin UDS özellikleri göstereceğini ve çoğu depolama ürününe UDS özellikleri ekleneceğini kesinlikle söyleyebilirim.

Genel Bakış

Klasik olarak sahip olduğumuz veriyi 3 farklı method ile; lokalde (Direct Attach Storage – DAS), ağ üzerinde (Network Attach Storage – NAS) yada depolama aği üzerinde (Storage Area Network – SAN) depolayabilmemiz mümkündür. Günümüzde depolama ürünlerine erişim için kullanılabilecek farklı protokoller ve baglantı türleri mevcut olup; her protokol ve bağlantı türünün artıları ve eksileri vardır. UDS; tek bir ürün kullanarak, ürünün desteklediği teknolojiler ve protokoller üzerinden, ihtiyaca yada yapıya göre hangi protokol/protokoller ile hangi teknoloji/teknojolejiler den yararlanarak veriyi nasıl, nerede depolayabileceğimize karar verebildiğimiz, protokol ve teknolojilere bağli olarak farklı veriler icin farklı methodlar sayesinde maliyet, yönetilebilirlik gibi konuları da belirleyebildiğimiz ürünlerdir. Yaygın şekilde UDS ürünleri protokol olarak; FC, SCSI, SAS, SATA, ISCSI, TCP/IP protokolleri ile teknoloji tarafında ise SNAPSHOT, CLONE vb. gibi birçok farklı teknolojiyi destekleyebiliyor. Burada UDS ürününün en büyük başarısı; tek bir ürün kullanılarak, farklı sistemlere atanacak olan depolama alanlarının, farklı protokoller ve farklı teknolojilerin bir araya daha ucuz maliyetlerle, esnek olarak gelebilmesini mumkun kılmasıdır.

UDS ürünlerini genel olarak 2 kategoriye ayırabiliriz. Depolama konusunda faaliyet gösteren farklı markaların bu konuda farklı çözümleri var. Bunlardan biri tek bir kutu çözüm şeklinde, diğeri ise farklı özellikler/teknolojiler barındıran birden çok ürünün biraraya getirilmesi ile oluşturulan çözüm. UDS konusunda özellikle 2 marka öne çıkıyor; NetappIBM Nseries (aynı ürün IBM Nseries olarak da satılmaktadır) ve EMC. Bunların dışında ise standart depolama çözümleri sunan bir sürü firma bulmak mümkün. (HPIBMSUN hatta Microsoft WUDSS)

 

Unified Storage ürünü demek, tek bir ürün ile FC, ISCSI (IP tabanlı) yada NAS protokolleri üzerinden dosya-bazlı yada block-bazlı erişimleri destekleyebilen ürün demektir. Dolayısı ile tek bir ürün alarak hem FC hem de ISCSI protokollerini kullanabilmek mümkün olabiliyor. Böylece iş ktirik veriler ve performans gerektiren veriler için FC bağlantılar ve diskler, kalan veriler için ISCSI (yani ethernet) bağlantıları ve SATA/SCSI diskler kullanarak maliyetleri düşürmek ve maksimum oranda performans sağlamak mümkün oluyor. Yani performans gerektirmeyen veriler için SATA diskler ve ethernet (IP tabanlı) bağlantılar kullanırken, performans gerektiren veriler için FC/SCSI diskler ve FC bağlantılar kullanılmış oluyor.

, , , , , ,

1 Comment

Depolama Temelleri (Storage Essentials)

Depolama Temelleri (Storage Essentials)
Klasik olarak sahip oldugunuz veriyi 3 farkli method ile; lokalde (Direct Attach Storage – DAS), ag uzerinde (Network Attach Storage – NAS) yada depolama agi uzerinde (Storage Area Network – SAN) depolayabilmeniz mumkundur. Asagida aciklamaya calistigim methodlardan bir tanesi; maliyet, performans, depolanacak bilginin boyutuna, bu bilgiye erisecek sistemlerin turlerine/ihtiyaclarina, yonetim, yedekleme, genisleyebilme vb. konulara da cevap verecek sekilde secilmelidir. Burada ozellikle dikkate alinmasi gereken konulardan biri, planlamanin onemidir; zira secilen teknolojiler ve urunler sisteme kurulduktan/devreye alindiktan sonra soz konusu cihazlarin uzerinde verileriniz olacagindan, yapi uzerinde degisiklik yapmak ya cok zor olacak ya da mumkun olmayacaktir. Asagida aciklamaya calistigim teknolojilerin operasyonel anlamdaki maliyetlerini de unutmamak gerekiyor.
Aga bagli depolama (Network Attach Storage) ve Depolama Agi (Storage Area Network) methodlari ile kullanilacak donanim urunleri temel olarak asagidaki kategorilere ayrilabilir.
– Depolama urunleri (Storage products) (linkler a.1); Bu urunler kendi uzerlerinde kontrol modulu (bir yada daha fazla) barindirabilirler. Fiziksel diskler, bu urunlere takilarak kontrol modulu sayesinde bir/birden cok disk, bir/birden cok grup altinda toplanarak, bu grup/gruplardan disk bozulmalarina karsi RAID methodlari (linkler a.2) ile deskteklenebilen LUN (Logical Unit Number) lar olusturulur. LUN lar erisim izni verilen sunuculara atanir, sonrasinda ise atanmis olan bu alanlar sunucu/sunucularin uzerinde calisan isletim sistemi ile format lanarak bir dosya sistemine sahip edilerek kullanima acilir. Burada bahsettigim disklerin gruplanmasi, LUN larin olusturulmasi ve erisim izni verilmesi islemleri kullanilan urunun uzerinde yapilir.
– Ag urunleri (Network Products); Kullanilacak olan depolama urunlerinin destekledigi protokoller (FC, TCP/IP vb.) uzerinden erisim saglayabilmek icin bu urunler kullanilir. (d.2)
Linkler:
1.) Lokal bagli depolama – Direct Attach Storage – DAS (linkler b.1) ;
Bu method da depolanacak veriyi barındıracak depolama urunleri (linkler b.2) (disk yada disk grubu); veriyi oluşturan/kullanan yada sadece kullanan server in/makinenin lokaline takilir. Veriyi depolayacak olan disk/diskler makinenin icine yada ayri bir kasa ya (disk enclosure/expansion unit) takilabilir. Bu diskler icin isteniyorsa “RAID controller” destekleyen bir urun secilerek bir yada birden cok diskin fiziksel olarak bozulmasina karsi farkli “RAID” seviyeleri ile cozum bulunabilir. Baslangic yatirim maliyeti en dusuk, uygulamasi en kolay, en bilinen method budur.
Linkler:
2.) Aga bagli depolama – Network Attach Storage – NAS (linkler c.1) ;
Bu method da depolanacak veriyi barındıracak depolama urunleri (linkler c.2) direkt olarak aglara baglanabilen, kendi uzerlerindeki depolama kapasitesini baglandıgı aga belli bir protokol kullanarak paylastirabilen, depolanacak veri icin dosya tabanli erisim (file-based access) saglanmasini mumkun kilan urunlerdir. NAS urunleri yaygin olarak NFS, ISCSI protokollerini desteklerler.
Linkler:
3.) Depolama Agi – Storage Area Network – SAN (linkler d.1);
Bu method da depolanacak veriler depolama urunlerinden olusan harici bir ag uzerindeki depolama cihazlarina depolanir. (linkler d.2) Bu harici ag gunumuzde FC, SCSI, ISCSI, HyperSCSI, ATA/AoE ve Infiniband protokollerini kullanabilir ve sadece “block-level” yani herhangi bir dosyalama sistemi kullanmadan depolama alanina erisim saglamayi mumkun kilar. Bu depolama agi uzerinden erisilecek depolama alani uzerinde genel olarak “shared file disk systems / san filesystem” olarak nitelenen (OCFS, GFS, TerraFS, Vmfs, PSFS (CIFS,NFS), CFS gibi) dosyalama sistemlerini desteklerler/kullanabilirler. Yapi icerisinde bahsedilen protokolleri destekleyen depolama urunleri ile ag urunleri kullanılarak; depolama urunleri uzerinde olusturulacak olan veri alanlarina ag urunleri uzerinden erisim mumkun kilinacaktir. Olusturulan depolama agi icerisinde bir yada birden farkli markaya ait olan urunler kullanilabilir.
Linkler:

, , ,

6 Comments

GOOGLE in depolama mimarisi

Blog taki Ilk Makalem: GOOGLE in depolama mimarisi nedir? (GOOGLE Storage Architecture)
Yazacagim ilk post icin son 10 yilin IT alanindaki en dahiyane firmasinin kendi ic yapisini anlatmak istedim. Zira GOOGLE su anda IT sektorunde dunyanin en onde gelen firmasi, kendi calisacak sistemleri icin tasarladiklari sonrasinda da olusturduklari yapilar herkese ornek ve ilham kaynagi oluyor. Ozellikle `performans`, `erisilebilirlik` ve `olceklenebilirlik` konularinda muhtesemler. Ilgilenenler icin gelistirdikleri depolama teknolojilerini / cozumlerini daha yakindan anlatmak istedim. Makale icin kullandigim kaynaklari, ‘kaynakca’ bolumunde belirttim.
(NOT: Makale icinde elimden geldigince Turkce kullanmaya calistim, ancak bazi teknoloji/urun isimlerini aynen kullanmak zorunda kaldim.)
Platform
Linux isletim sistemleri uzerinde genis bir dil ailesi: Python, Java, C++
Amac
– Genel olarak yapildigi sekilde yatirim maliyeti yuksek guvenilir makineler ve donanimlar kullanarak sistem kurmak yerine; mumkun olan en ucuz donanimlar ile bu donanimlarin uzerinde calisacak yazilimlarin guvenilir hale getirilerek daha fazla performans saglayacak bir sistem kurmak
Genel Bilgi
– 2006 itibariyle 450.000 dusuk-butceli server
– 2005 itibari ile 8 milyar web sayfasini indekslemis durumda bugun ise kim bilir?
– Yapida 200 un uzerinde GFS (Google File System) cluster (kumeleme) mevcut. Tek bir cluster da 1000 ila 5000 makine yer alabiliyor. Toplam 5 petabyte lik GFS cluster havuzundan onbinlerce makine data almakta. Toplam okuma/yazma (read/write) trafigi saniyede 40 gigabyte (40 GB/sec) lara varabiliyor.
– Yapida 6000 den fazla MapReduce programi bulunuyor ve her ay yuzlerce yeni program yaziliyor.
– BigTable milyarlarca URL adresini, yuzlerce terabyte lik uydu goruntulerini ve yuzlerce milyon kullanici bilgileri tutuyor.
Buyume
Google korkutucu bir hizla buyuyen bir firma. Ornek olmasi acisindan asagidaki degerleri inceleyebilirsiniz.
2000 Ocak    —–> 3 datacenter – 2.000 Linux server
2000 Haziran —–> 3 datacenter – 4.000 Linux server
2001 Nisan   —–> 5 datacenter – 8.000 Linux server  – 1 Petabyte storage
2003 Nisan   —–> 5 datacenter – more then 15.000 Linux server
2003 Aralik   —–> 5 datacenter – 18.000 Linux server – 5 Petabyte storage
Yapisal Bilesenler
– Urunler: arama (search), reklam (advertising), email, maps, video, chat, blogger
– Distributed Systems Infrastructure: GFS, MapReduce and BigTable
– Processing: Fiziksel olarak farkli datacenter larda bulunan bir suru server
– Calisanlar icin sistemin ve makinelerin kolay bir sekilde kurulabilmesi
– Her bir program icin ayri maliyet hesabi yapmak, donanimlara daha cok para harcayarak loglarin kaybolmayacagindan emin olmak ancak diger turde datalarin ehemniyeti icin daha az para harcamak. Bunu o kadar onemsiyorlar ki hic bir sekilde data kaybi yasamiyorlar.
Guvenilir Depolama Mekanizmasi – GFS (Google File System)
Her program temelde saglam olceklenebilir depolama alanina ihtiyac duyar. GFS temel depolama platformudur. Google File System – genis olcekli (large scale), daginik loglanabilir (distributed transaction log), kontrol altinda tutulabilen (structured) dosya sistemidir. Bu dosya sistemi Google in kendine ozel olarak gelistirdigi bir sistemdir. Boyle bir sistem gelistirmelerinin sebebi genel dosya sistemlerinin karsilamadigi ihtiyaclari olmasidir. Gereksinimlerini asagida belirttim;
– Farkli datacenter uzerinde calisabilecek guvenilebilir, dayanikli olmasi gerekiyor
– Binlerce makinenin ayni dataya erisimini (read, also write) desteklemesi gerekiyor
– Cok yuksek yazma/okuma performansi saglamasi gerekiyor
– Yuksek boyutlu dosyalari desteklemesi gerekiyor (tek bir dosya buyuklugu)
– Network uzerinden erisen makineler arasinda esit yuk dagilimi saglamasi (distribution of operations) ve darbogaz lari azaltmasi (reduce bottlenecks) gerekiyor
Sistemin `master`(asil) ve `chunk`(asil server ile konusup belli bir miktarda isi kendi uzerine alabilen) server lari var.
– Master server data dosyalarini ve bu soyalara ait `metadata` yi tutuyor.  Data 64 MB chuck lar halinde tutuluyor. Client lar `Master Server` lar ile konusarak erismek istedikleri datanin metadata sina bakarak datanin hangi `chunk`server uzerinde tutuldugunu ogreniyor.
– `Chunk` server lar gercek datayi kendi diskleri uzerinde barindiriyorlar. Her bir chunk server datayi uc farkli chunk server a replike ediyor, herhangi bir server coktugunde (crash) datanin erisilebilir olmasi amaciyla (redundancy). Master server dan datanin hangi chunk server da oldugu ogrenildiginde client program datayi direk olarak chunk server dan aliyor. Yeni bir program olusturuldugunda varolan bir GFS cluster i kullanabiliyor yada yazilima ozel bir GFS cluster olusturulabiliyor. Farkli datacenter lar arasinda disklere erisimin (provisioning) nasil gerceklestigini detaylariyla anlamak gercekten ilginc olacaktir. Insanlarin varolan yada olusturacaklari yazilimlari icin yeterli altyapiyi olusturmak boyle bir yapida anahtar gorevi goruyor. GFS programlarin ihtiyaci olabilecek sekilde ayarlanabiliyor (tuning).
Bir Is icin Data yi Mapreduce ile Kullanmak
– Simdi elinizde yukarida anlattigim her isi yapabilen iyi bir depolama sistemi var. Fakat elde bulunan bu kadar cok miktarda data ile herhangi bir isi nasil gerceklestireceksiniz? (Burada anlattigim senaryonun google a ait oldugunu unutmayin !) Diyelim ki yuzlerce TB data yi farkli datacenter lar uzerinde depolayip 1000 makineyi bu data alanlarina eristirdiniz. Problem, database yapilari olceklenemez yada cok ciddi bir maliyet gerektirir olceklenebilmek icin. Iste bu noktada `MapReduce` devreye giriyor.
MapReduce bir programlama modeli ve buyuk boyutlu data lari olusturmayi, islemeyi ve kullanabilmeyi saglar. Kullanicinin belirtecegi bir semaya islenen anahtar ciftleri daha alt anahtar ciflerini kendi icinde barindirir. Ancak alt anahtar ciftlerinin sayisi azaltan (alt anahtarlari `merge` eden) bir fonksiyon sayesinde birden cok alt anahtari tek bir alt anahtarda toplar. Gercek hayattaki bir cok is bu modelde tanimlanabilir. Bu sekilde yazilan programlar otomatik olarak paralel hale gelir ve dusuk maliyetli server lardan olusan buyuk bir cluster (kumeleme) uzerinde calistirilir. `The Run-Time System` data nin nereden okunacagi yada nereye yazilacagini ve nerede process edilecegini zamanlayarak, makine hatalari tolere eder, makineler arasinda gerceklesmesi gereken ic iletisimi (inter-communication) kontrol eder. Bu sekilde; olusturulan her program icin programcinin paralel ve daginik sistemler uzerinde development yapmasina gerek kalmadan kolay bir sekilde daginik sistemler uzerinde olusturdugu yazilimi calistirabilmesi mumkun kilinir.
Neden MapReduce ?
– Yapilacak bir isi belirli bir makine grubu uzerine atayarak, o makineler uzerinde calisitirabilmek
– Makine hatalarindan etkilenmemek (redundancy)
– Farkli turde yazilimlar tarafindan kullanilabiliyor olmasi (arama, reklam).
– Computation (hesaplama-processing) otomatik olarak en yakindaki IO kaynagina yonlenir. MapReduce sisteminde uc farkli turde server bulunur.
1.) Master server; Kullanicilarin islerini toplayarak, kullanilan server sayisini optimize eder. Ayrica islerin durumunu kontrol eder.
2.) Map server; Kullanicidan gelen input (giris) isteklerini kabul eder ve bu istekleri degerlendirerek processing sayisini azaltir. Bu islemin sonuclari alt anahtar dosyalarina yazilir.
3.) Reduce server; alt anahtar dosyalarini kabul ederek, bu isleri (tasks) server lara dagitir ve server larin islerini azaltir.
Ornegin;
Butun web sayfalarinda kac kelime oldugunu saydirmak istediniz;
GFS uzerinde tutulan butun web sayfalarini MapReduce ile isleyerek; simultane olarak binlerce makine ile islem yapmak, aralarindaki koordinasyonu saglamak, isim ne zaman calistirilicagini belirlemek, hatalari cozmek ve data nin iletilmesini saglamak islerini otomatik olarak halleder. Bu islemler su sirayla gerceklesir;
GFS-> Map -> Shuffle (nerede, ne zaman) -> Reduction -> Store results ——–> GFS
– MapReduce; gelen is icin anahtar ve alt anahtarlar olusturur. Bu ornekte kelime ve kelime sayisi seklinde.
– Shuffling; alt anahtarları turlerine gore ‘merge’ eder ve asil anahtara atar.
– The Reduction; gelen butun anahtarlari ve bunlara bagli alt anahtarlari degerlendirerek sonucu olusturur. Google icerisinde calisan indeks leri uzerinde 20 farkli “reduction” (azaltma) fonksiyonu vardır. Buradaki problem tek bir isi birden cok parcayla tamamlamaya calisirken parcalardan birinin sonucunun gecikmesi (slow IO, bad controller, CPU spike etc.) toplam sonucun gecikmesine yol acacagindan ayni isi birden cok kez compute / process (hesaplatmak) ettirerek once bitireni kabul edip digerlerini iptal ettirme zorunlulugudur. Olusturulan datalar alt anahtarlardan yukari dogru transfer ettirilir ve server lar arasinda data sikistirilarak (compress) bandwith ve I/O tasarrufu saglanir.
BigTable ile Data yı Depolamak
BigTable buyuk olcekli, fault tolerant, kendi basina yonetilebilir bir yapi olup terabyte larca memory i ve petabyte larca depolama alanini kullanabilir, yonetebilen bir yapidir. Saniyede milyonlarca okuma/yazma isini yapabilir. BigTable, GFS in ustunde calisan daginik yapili hash mekanizmasidir.  (Relational Database degildir, Join yada SQL dilindeki sorgulari desteklemez.) Anahtarlar ile kontrol altinda tutulabilen dataya erisim icin sorgulama mekanizmasi saglar. GFS uzerinde depolanan data program/database ler icin olceklenemiyor oldugundan, cogunlukla programlarin belirli bir yapi icerisinde dataya ihtiyac duyması sebebiyle programlarin yada database lerin GFS alanlarina direk erisimi yerine BigTable kullanarak GOOGLE kendi yapisi uzerinde daha fazla kontrol ve esneklik imkanina sahip olmustur.
Ornegin;
Eger farkli lokasyonlardaki datacenter lar uzerindeki operasyonlari daha kolay yapmak isterlerse yapabilirler. Sistem calisirken makine eklemek yada silmek mumkundur, butun sistem kesintisiz sekilde calismaya devam eder. BigTable ile depolanacak her data bir ‘hucre (cell)‘ de depolanir. Hucre lere ‘row key‘ (satir anahtari), ‘column key‘ (kolon anahtari) ya da ‘timestamp‘ (zaman bilgisi) ile erisilebilir. Tek bir satir (row) bir yada daha fazla ‘tablet’ ile depolanabilir. Bir ‘tablet’ 64KB sirali blok (block) lardan olusur, bu yapiya ‘SSTable‘ denir. BigTable yapisinda uc farkli turde server bulunur.
1.) Master server; tablet leri tablet server larina atayan server dir. Hangi tablet in nerde oldugunun bilgisini takip eder ve gerkeiyorsa ayni isi tekrar atayabilir.
2.) Tablet server; Okuma/Yazma (read/write) isteklerini tablet lere isler (processing). Bir tablet in boyutu belirtilen degeri gectiginde tablet leri boler. (usually 100MB-200MB) Bir tablet server coktugunde 100 tablet server in her biri 1 yeni tablet alarak sistemi kurtarirlar.
3.) Lock server; distributed lock service. bir tablet e yazma, cakismalarin cozumlenmesi (master arbitration), erisim kontrol u karsilikli denetleme gereksinimi gorevlerini yerine getirir. Tablet ler mumkun olan maksimum limitler ile RAM uzerinde ‘cache‘  lenir.
GOOGLE ın kendi yapisinda donanımlari icin olusturdugu cozumler;
–  Cok fazla makine varsa, makinelerin kurulumlari maliyet ve guc (elektrik) icin nasil optimize edilebilir ?
Cok ucuz genel amacli donanim kullanarak ve uzerinde calisacak yazilimin makinenin olmesi durumunda devam edebilmesi saglayarak.
Highly reliable bilesen iceren makineler yerine unreliable makineler kullanarak daha fazla guc tuketimi ancak 33 kere daha az sahip olma maliyeti ile.    Lınux kullanarak, in-house (kendi uretimi olan) rack design, PC class mother boards, low end storage (dusuk maliyetli depolama urunleri)
GOOGLE in kendi cozumunden cikarttigi dersler;
Altyapi rekabet avantaji olusturabilir;
Google icin gercekten boyle. Yeni internet hizmetlerini daha hizli, ucuza ve cok az firmanin rekabet edebilecegi hale getirebiliyorlar. Cogu firma tamamen farkli olarak altyapi yenilemeyi yada iyilestirmeyi gider olarak gorur. Google kendisini sistem muhendisligi firmasi olarak goruyor, bu da komple yeni bir bakis acisi yazilim gelistirmek icin.
Coklu DataCenter Mimarisi hala cozulmemis bir problem;
Cogu websitesi bir yada en fazla iki datacenter a yayilmis durumda.
Darwinian Altyapisi Olusturmak;
Zaman tuketen operasyonlari paralel gerceklestiren, kazaniyor.
Guncelleme;
‘Greg Linden’ in bolg unda belirtigi uzere yeni bir Google makalesi ‘Mapreduce: Simplified Data Processing on Large Clusters’ yayinlandi. Bazi istatistiki bilgiler; Her gun 100K MapReduce isi calisiyor, gunluk 20 petabyte n fazla data process ediliyor; 10K dan fazla MapReduce programi uygulanmis; makineler ise cift islemcili, 4-8 GB memory li ve gigabit ethernet li.
Guncelleme 2;
‘Sorting 1 PB with MapReduce’ makalesine gore; 6 saat 2 dakikada 1 PB (10 trillion 100-byte records) kayit 4.000 makine ile 48.000 disk e repkile edilmis.
Yorumum;
Sektordeki klasik cozumlerden farkli olarak, cikis noktasında bile ileriyi hedefleyerek kendi sistemlerini var olan cozumler uzerine degil kendi gereksinimlerini on planda tutarak olusturan ve bu sayede muthis bir basari saglayan Google ayni vizyon – misyon ile ilerlemeye devam ediyor. Sektorde her zaman teorik olarak bilinen konusulan ama genelde yapilamayan (genellikle maliyet sebebi ile) gereksinimlere gore sistemi/cozumleri planlamanin; sektorde varolan yada yeni eklenecek olan daha fazla firmaya ornek olmasi dileklerimle.
Kaynakca:
How Google Works by David Carr in Baseline Magazine.

Google’s storage strategy – Feature – Techworld.com

, , ,

7 Comments