Veri Ambarı, verilerin stratejik kullanımı için teknolojilerin ve bileşenlerin bir karışımıdır. Anlamlı iş çıkarımları sağlamak için çeşitli kaynaklardan veri toplar ve yönetir. Günümüzde büyük ve ölçekli kurumlarda veri ambarı yapısı yaygın hale gelse de bu alanda ortaya çıkan pek çok kavram anlam karışıklıklarına neden olmaktadır. Bu yazımızda en güncel iki kavram olan Ver Ambarı ve Veri Gölü üzerinde durarak özelliklerine ve aralarındaki farklılıklara değineceğiz.

Veri Ambarı, sorgulama ve analiz için tasarlanmış büyük miktarda bilginin depolanmasıdır ve veriyi bilgiye dönüştürme sürecidir. Veri Gölü (Data Lake) ise, büyük miktarda yapılandırılmış, yarı yapılandırılmış ve yapılandırılmamış verileri depolayabilen bir veri havuzudur. Sabit bir sınır olmaksızın her tür veriyi kendi yerel biçiminde depolayabileceğiniz bir yerdir ve artan analitik performans ve yerel entegrasyon için büyük miktarda veri sunar. Veri Gölü, gerçek göl ve nehirlere çok benzeyen büyük bir konteyner gibidir. Tıpkı bir gölde olduğu gibi, gelen birden fazla kollarınız var; benzer şekilde, bir veri gölü yapılandırılmış, yapılandırılmamış, makineden makineye, gerçek zamanlı olarak akan verilere sahiptir.

Veri Ambarı Konsepti:

Veri Ambarı, verileri stratejik kararlar almak için düzenlemeye ve kullanmaya yardımcı olan dosya veya klasörlerde depolar. Bu depolama sistemi ayrıca atomik ve özet verilerin çok boyutlu bir sonuç verir. Gerçekleştirilmesi gereken önemli işlevler şunlardır:

  • Veri Çıkarma
  • Veri temizleme
  • Veri Dönüşümü
  • Veri Yükleme ve Yenileme

Veri Gölü Konsepti:

Veri Gölü, büyük miktarda ham veriyi gereken zamana kadar orijinal biçiminde tutan büyük boyutlu bir depolama havuzudur. Veri gölündeki her veri öğesine benzersiz bir tanımlayıcı veri ve bir dizi genişletilmiş meta verisi etiketiyle etiketlenir.

  • Veri Gölü (Data Lake), kaynak ve yapısından bağımsız olarak tüm verileri depolarken, Veri Ambarı (Data Warehouse), verileri nitelikleriyle birlikte nicel metriklerde depolar.
  • Veri Gölü, büyük yapılandırılmış, yarı yapılandırılmış ve yapılandırılmamış verileri depolayan bir depolama havuzu iken, Veri Ambarı, verilerin stratejik kullanımına izin veren teknolojilerin ve bileşenlerin harmanlanmasıdır.
  • Veri Gölü şemayı veriler depolandıktan sonra tanımlarken Veri Ambarı şemayı veriler depolanmadan önce tanımlar.
  • Veri Gölü, ELT(Extract Load Transform) sürecini kullanırken, Veri Ambarı ETL(Extract Transform Load) sürecini kullanır.
  • Veri Gölü, derinlemesine analiz isteyenler için idealdir, Veri Ambarı ise operasyon kullanıcıları için idealdir.

Veri Gölü ve Veri Ambarı Arasındaki Farklar

Veri Gölü Veri Ambarı
Depolama Kaynak ve yapısı ne olursa olsun tüm veriler tutulur. Veriler ham haliyle tutulur. Sadece kullanıma hazır olduğunda dönüştürülür. İşlem sistemlerden çıkarılan verilerden veya nitelikleri ile nicel ölçütlerden oluşan verilerden oluşacaktır. Veriler temizlenir ve dönüştürülür.
Tarih Kullanılan büyük veri teknolojileri nispeten yenidir. Veri ambarı kavramı, büyük verinin aksine onlarca yıldır kullanılıyordu.
Veri
Yakalama
Kaynak sistemlerden yarı yapılandırılmış ve yapılandırılmamış her türlü veri ve yapıyı orijinal haliyle yakalar. Yapılandırılmış bilgileri yakalar ve bunları veri ambarı amaçları için tanımlandığı şekilde şemalarda düzenler.
Veri
Zaman
Çizelgesi
Veri gölü, tüm verileri tutabilir, yalnızca kullanımda olan verileri değil, gelecekte kullanabileceği verileri de içerir. Ayrıca veriler, zamanda geriye gitmek ve bir analiz yapmak için tüm zamanlar için tutulur. Veri ambarı geliştirme sürecinde, çeşitli veri kaynaklarının analizi için önemli bir zaman harcanmaktadır.
Kullanıcılar Veri gölü, derin analizle uğraşan kullanıcılar için idealdir. Bu tür kullanıcılar, tahmine dayalı modelleme ve istatistiksel analiz gibi yeteneklere sahip gelişmiş analitik araçlara ihtiyaç duyan veri bilimcilerini içerir. Veri ambarı, iyi yapılandırılması, kullanımı ve anlaşılması kolay olması nedeniyle operasyon kullanıcıları için idealdir.
Depolama Maliyetleri Büyük veri teknolojilerinde veri depolama, verileri bir veri ambarında depolamaya göre nispeten ucuzdur. Veri ambarında veri depolamak daha maliyetli ve zaman alıcıdır.
Görev Veri gölü, tüm verileri ve veri türlerini içerebilir; kullanıcıların dönüştürülme, temizlenme ve yapılandırılma sürecinden önce verilere erişmelerini sağlar. Veri ambarları, önceden tanımlanmış veri türleri için önceden tanımlanmış sorulara ilişkin öngörüler sağlayabilir.
İşlem
Süresi
Data Lake, kullanıcıların verilere dönüştürülmeden, temizlenmeden ve yapılandırılmadan önce erişmelerini sağlar. Böylece geleneksel veri ambarına göre kullanıcıların sonuca daha hızlı ulaşmasını sağlar. Veri ambarları, önceden tanımlanmış veri türleri için önceden tanımlanmış sorulara ilişkin öngörüler sunar. Bu nedenle, veri ambarında yapılacak herhangi bir değişikliğin daha fazla zamana ihtiyacı vardı.
Şemanın
Konumu
Tipik olarak şema, veriler depolandıktan sonra tanımlanır. Bu, yüksek çeviklik ve veri yakalama kolaylığı sunar, ancak sürecin sonunda çalışma gerektirir. Tipik olarak şema, veriler depolanmadan önce tanımlanır. Sürecin başında çalışmayı gerektirir, ancak performans, güvenlik ve entegrasyon sunar.
Veri
İşleme
ELT (Extract Load Transform) işleminin Data Lakes kullanımıdır. Veri ambarı, geleneksel bir ETL (Extract Transform Load) işlemini kullanır.
Veri
Dönüşümü
Veriler ham haliyle tutulur ve kullanıma hazır olduğunda dönüştürülür. Veri ambarlarına yönelik en büyük şikâyet, yetersizlik veya bunlarda değişiklik yapmaya çalışırken karşılaşılan sorunlardır.
Temel
Faydalar
Kullanıcılar, yeteneklerinin ötesine geçmeleri gerekebileceğinden veri ambarlarını kullanma olasılığı düşük olduğundan, tamamen yeni sorular ortaya çıkarmak için farklı veri türlerini bütünleştirirler. Bir kuruluştaki çoğu kullanıcı veri ambarı ile çalışmaktadır. Kullanıcılar yalnızca raporları ve temel performans ölçümlerini önemsemektedir.

Veri Gölü ve Veri Ambarı kavramlarını bütün detayları ile inceleyerek aralarındaki temel farklılıklara ve kullanım alanlarına değindik. GTech olarak Veri Ambarı ve İş Zekası uzmanlarımızla kurumların ihtiyaçlarını belirleyerek yapılarına en uygun çözümleri sunmaktayız. Veri Gölü ve Veri Ambarı hakkında daha detaylı bilgi almak için uzmanlarımıza ulaşabilirsiniz.

Yazan: Fatih Özcan

Büyük Veri ve Analitik Kıdemli İş Analisti, GTech