İnternet ve sosyal medya kullanımının yaygınlaşması ile dünyanın her yerinden milyonlarca insan bireysel, toplumsal, kültürel ve çevresel ipuçları taşıyan verilerini kapsayan paylaşımlar yapıyor. Büyük şirketlerin daha geniş pazar alanlarına açılması ve stratejik kararları almasında veri analizine olan ihtiyaç giderek daha önemli bir role sahip olmaktadır. Veri analizi iş süreçlerinin iyileştirilmesinin, kârlılığın ve verimliliğin artması için doğru kararların alınmasına ayna tutan bir süreçtir. Bu noktada da dolaylı olarak ilişkilendirilen ve tahtına göz konulan hatta yakın zamanda veri ambarı konseptinin biteceğine inanılan son günlerin tartışma konusu ortaya çıkmaktadır. Bu yazımızda Veri Ambarı ve İş Zekası uzman danışmanımız veri ambarı ve veri gölünün farklarını ve avantajlarını kaleme aldı.

Veri Ambarı Sistemleri Ölüyor Mu?

Öncelikle veri ambarının en temelde veri yönetim sistemi olduğunu söyleyebiliriz. Birçok farklı kaynaktan gelen büyük miktardaki verilerin dönüştürüldüğü ve sorgularla kısa zamanda alınabilecek hale getirildiği, iş bilgisine kolay ulaşım imkânı sunma özelliğindeki ortamlar veri ambarı olarak adlandırılır.

Veri ambarı sistemleri ölüyor mu?” sorusuna sebebiyet veren yaklaşımları şöyle özetleyebilirim:

  1. Verinin analizi, keşfi ve işlenmesi gibi süreçleri sunan yazılımların gelişmesiyle veri ambarını manuel tasarlamak, mimarisini kurmak ve entegre etmek gibi süreçler maliyet ve efor kaybı olmadan veri gölü (data lake) teknolojileri ile otonomlaştırılabilir.
  2. Veri depolama işi veri gölü (data lake) konseptinde veri ambarının yerini tutabilir ve daha işlevli çözümler sunabilir.

Veri Gölü (Data Lake) Nedir?

Veri gölü dediğimiz kavram büyük hacimli veriyi depolamak, işlemek ve korumak için dizayn edilmiş merkezi bir “repositori” olarak tanımlanabilir.

Phuzzlings’in kurucusu ve CTO’su James Dixon, veri gölü (data lake) kavramını herkesin anlayabileceği dilde, akılda en güzel canlandıracak şu benzetmeyi yapmıştır:

“Veri ambarlarının alt kümesi olan Datamart’ı şişelenmiş su deposu olarak düşünüyorsanız, ki bu deponun içerisinde temizlenmiş, paketlenmiş ve kolay tüketim için hazır hale getirilmiş su şişeleri bulunmaktadır, veri gölünü de daha doğal ortamındaki büyük bir su kütlesi olarak hayal edebilirsiniz. Gölü dolduran kaynakların içeriği için farklı kullanıcılar incelemeye, burada dalış yapmaya veya numune almaya gelebilir.”

Veri gölünün avantajı, mevcut uygulamalar, teknolojiler ve BT yatırımlarıyla entegre olan bir veri gölü oluşturmaya olanak tanıyan bir dizi otomatik ölçeklendirme hizmeti sunabilmesidir.

Veri Ambarının Veri Gölüne Karşı Avantajları Nelerdir?

Veri ambarı sistemlerinin anlamsızlaşıp veri gölü (data lake) kuramının tamamen hüküm süreciği fikrine kapılmamız için pek çok örnek mevcut. Fakat veri ambarının veri gölü (data lake) ortamından ayıran önemli prensiplerini iyi incelersek; Google Cloud Platform ürünü olan BigQuery sunucusuz bir veri ambarı olarak, Cloud Data Warehouse (Bulut Veri Ambarı) kavramının süre gelen veri ambarıyla aynı mimari alt yapıya sahip olmadığını görüyoruz. Veri ambarının öne çıkmasını ve avantajını korumasını sağlayan temel ilkeler şunlardır:

  1. Subject Oriented (Konu Odaklı): Şirketlerin devam eden operasyonları yerine bir tema hakkında bilgi sunduğu için konu odaklıdır. Bu konular satış, pazarlama, dağıtım vs. olabilir.
  2. Integrated (Entegre): Veri ambarında entegrasyonu birbirine benzemeyen veri tabanındaki tüm benzer veriler için ortak bir ölçü biriminin oluşturulması anlamına gelir. Veriler ayrıca veri ambarında ortak ve evrensel olarak kabul edilebilir bir şekilde saklanır.
  3. Time-Variant (Zamanla Değişen): Veri ambarı için zaman ufku operasyonel sistemlere kıyasla oldukça geniştir. Bir veri ambarında toplanan veriler belirli bir süre ile tanınır ve tarihsel açıdan bilgi sunar. Açıkça veya dolaylı olarak bir zaman öğesi içerir.
  4. Non-Volatile (Kalıcı): Veri ambarı kalıcıdır; bu da yeni veriler girildiğinde önceki verilerin silinmediği anlamına gelir. Veriler sadece okunur durumdadır ve periyodik olarak yenilenir. Bu aynı zamanda geçmiş verileri analiz etmeye ve anlamaya yardımcı olur.

Peki tüm bu veri ambarı prensipleriyle veri gölü (data lake) ve iş zekası yazımlarını kıyaslarsak, iki sistem arasındaki temel fark nedir?

Veri ambarı ile veri gölü arasındaki en önemli fark, veri ambarının yapılandırılmış verilerle doldurulması, veri gölünün yapılandırılmamış olmasıdır. Bu da iş zekası sorularına yanıt bulmayı kolaylaştıran bir avantaja dönüşür.

Öte yandan veri gölleri “Hadoop” ortamlarında inşa edilir ve çalışma prensibi olarak “one-write/multi-read” olarak işlev görür.  Yani veriyi “insert” ettikten sonra çok defa okuma mantığındadır. Veri ambarında ise bu durum “schema-on-write” şeklinde ilerler. Bu durumda aklımıza gelen ve veri ambarlarının yapıtaşını oluşturan “ETL” yada “ELT” işlerinin doğasındaki “DML (Data Manipulation Language)” komutları olacaktır. Fakat veri gölü ortamlarında daha çok “insert” komutuyla ham verinin hiç bir transformasyona uğramadan yüklenmesi süreci aktiftir. Ham verinin tutulmasının en önemli nedeni; sonsuz esneklikte analizlere olanak sağlamasıdır.

Fakat veri gölü (data lake) ortamlarının kurulumunun daha kolay, büyük veri madenciliği ve makine öğreniminden yeni öngörüler elde etmek için kullanışlı olması ve her zaman ham verilerin sorgulanabilmesi gibi yönlerden avantajlı görünse de operasyonel riskleri taşığı gerçeği de mevcuttur. Nasıl kullanılacağına dair net bir vizyon olmadan yalnızca verileri boşaltmak, işe yaramaz, belgelenmemiş, şişirilmiş bir veri deposuna yani bir veri bataklığına yol açabilir.

Cambridge Semantics CTO’su Sean Martin’in dediği gibi:

“Müşterilerin büyük veri mezarlıkları oluşturduğunu, her şeyi “Hadoop” dağıtılmış dosya sistemine (HDFS) döktüğünü ve bununla birşeyler yapmayı umduğunu görüyoruz. Ama sonra orada olanın izinin kaybedileceği de aşikardır. Asıl zorluk, bir veri gölü oluşturmak değil, sunduğu fırsatlardan yararlanmaktır.”

Detaylı olarak ele alındığında, veri ambarlarının bu zeminde veri göllerinden avantajlı olduğunu söylememiz mümkündür. İyi düşünülmüş bir veri ambarı gereksiz bilgileri depolamaz ve yalnızca yararlı yönleri korumak için yüksek düzeyde tasarlanır.

Veri gölü temelli bir veri ambarı konseptinin de işe ayaramaz olduğunu söylemek tabiki mümkün değildir. Bu noktada söylenebilecek en iyi şey; “Veri ambarları ölüyor” yerine; “Veri ambarı ve veri gölü (data lake) birbirleriyle etkileşim ve paylaşım halinde modernleşerek, yeni teknolojilere ve mevcut verimliliğe entegre şekilde gelişimlerine devam etmektedir” demek daha doğru olur.

Son olarak, bu tartışma konusuna veri ambarının muciti olarak söyleyebileceğimiz Forest Rim Technology’nin kurucusu ve CEO’su Bill Inmon’ın yakın zamanda yayınladığı bir yazıdan açıklık getirerek ilerlemek mümkündür. Kendisinin dediği şekilde; “…veri gölünün yaptığı büyük hacimli veriyi bir yerde tutmaktı. Veri ambarı ise verilerin entegre edilmesini gerektirir ve bu işlem karmaşık, yapılması zor, kesin olmayan ve araştırma gerektiren bir süreçtir. Bunu yapmak yerine, veriyi bir ortamda tutarak detaylı analizler doğrultusunda ulaşılacağını düşünenler, aslında veri ambarını öldürmek yerine onun gelişimine veri gölündeki teknolojiler ile katkıda bulundu.”

Veri ambarı ve veri gölünün arasındaki farkları açıklayarak ikisinin de avantajlarına değindik. Son teknolojileri kullanarak veri ambarı mimarisini ihtiyaçlarınıza ve şirket stratejilerinize göre en verimli şekilde kurgulayan ekibimiz ile Veri Ambarı ve İş Zekası çözümleri sunuyoruz. Detaylı bilgi için bize ulaşabilirsiniz.

 

Yazar:

Elif Şahin, GTech Veri Ambarı ve İş Zekası Kıdemli Danışmanı

Kaynakça

https://cloud.google.com/

https://www.oracle.com/tr/autonomous-database/what-is-cloud-data-platform/

https://www.oracle.com/tr/database/what-is-a-data-warehouse/

https://cloud.netapp.com/blog/gcp-cvo-blg-google-cloud-data-lake-4-phases-of-the-data-lake-lifecycle

https://www.linkedin.com/pulse/buying-data-warehouse-rip-bill-inmon/

https://sonra.io/data-lake/are-data-lakes-fake-news/

https://aws.amazon.com/tr/big-data/datalakes-and-analytics/what-is-a-data-lake/

https://www.bluegranite.com/blog/bid/402596/top-five-differences-between-data-lakes-and-data-warehouses