Bu yazımda, veri analitiği mühendisliğinin ne olduğundan ve bu rolün veri ekipleri için neden gerekli olduğundan bahsedeceğim. Öncelikle geleneksel veri ekipleri konusunda biraz yolculuk yaparak ETL ve ELT kavramlarına göz atacağız. Sonrasında ise analitik mühendisliğinin bütün veri ekibi yapısında nereye yerleştiğini ele alacağız.
Analitik ve veri işleme, bugünün iş dünyasında büyük önem taşıyor. Verileri en iyi şekilde anlamak ve yorumlamak, işletmenizin büyümesine yardımcı olabilecek en büyük etkenlerden. Verileri analiz etmek içinse sistemlerinizde oluşan ham veriyi modellemek gerekli. Veri modelleme, verilerinizin işlenmesi ve kullanılabilir hale getirilmesi için gereken bir dizi işlemdir.
Geleneksel veri ekipleri genellikle iki rolle çalışırlar: veri analistleri ve veri mühendisleri. Veri mühendisleri, verinin barındırıldığı yapıyı, genellikle veritabanlarını oluşturma ve ETL işlemini yönetme görevini üstlenirler. Kaynak sistemlerinizdeki veriyi alarak bunların üzerine dönüştürülmüş verileri içeren tablolar inşa eder ve bayrağı veri analistlerine bırakırlar. Analistler de bu tablolardan sorgulama yaparak raporlama ve veri görselleştirme yapabilirler.
Temek yapıya göz attığımıza göre ETL ve ELT konusuna geçebiliriz.
ETL ve ELT kavramları nedir, arasında ne gibi farklar var? Bu sorulara cevap arayalım.
ETL / ELT
Veri işleme ve analizinin günümüz iş dünyasında oldukça önemli bir konu olduğuna değinmiştik. Veri alanında çalışanlar, verileri bir kaynaktan çıkarıp, manipüle ederek analiz ediyor ve son kullanıcıya sunarak analiz sonuçlarına dayalı kararlar alınmasına yardımcı oluyorlar. Bu süreç, genellikle “ETL süreci” olarak adlandırılır. “ETL”, “Extract, Transform, Load” kelimelerinin kısaltmasıdır.
Geleneksel olarak, ETL süreci veri mühendisleri tarafından yürütülür.
Bu süreçte;
- veri bir veritabanından çıkarılır (Extract),
- bir üçüncü taraf makinesinde dönüştürülür (Transform)
- veri analistleri tarafından sorgulanabilir hale getirmek için istenilen format ve şekilde veri ambarına yüklenir (Load).
Ancak son zamanlarda, bulut tabanlı veri depolama alanlarının kullanılmaya başlanmasıyla birlikte, ETL süreci daha da gelişti. Artık işletmeler, ihtiyaçlarına göre veri depolama alanları satın alabiliyor ve gerektiğinde bunu ölçeklendirebiliyor. Böylece, veri depolama alanları önceden hazırlanmak zorunda kalınmıyor.
* (Veri depolama alanları, bir veritabanı ve bir süper bilgisayarın birleşimidir ve veri analizi için büyük bir kolaylık sağlar. Aklınıza ilk örnek olarak BigQuery ya da SnowFlake gelebilir.)
Bu sayede, ham verileri direkt olarak veri depolama alanlarına yükleyip, analizler için kullanılacak hale getirebilirsiniz. Bu, yeni veri tabanı nesneleri oluşturmak istediğinizde her seferinde verileri çıkarma ve yükleme işlemi yapmanıza gerek kalmadığı anlamına geliyor.
Bu gelişmeler sonucunda, ETL süreci artık yerini yavaş yavaş “ELT” ye bırakmaya başladı. “ELT”, “Extract, Load, Transform” kelimelerinin kısaltmasıdır.
Bu süreç ise,
- veri bir veritabanından çıkarılır (Extract),
- ham veri, veri ambarına doğrudan yüklenir (Load),
- ham verinin sorgulanabilir hale getirilmesi için veri ambarı üzerinde dönüştürme işlemleri uygulanır. (Transform)
şeklinde gerçekleştirilir.
Özetlemek gerekirse;
Veri işleme ve analizi giderek daha da önem kazanmaktadır. Bulut tabanlı veri depolama alanları da (BigQuery, Snowflake) veri işleme sürecinde büyük bir kolaylık sağlamaktadır. Dolayısıyla ETL süreci yerini giderek ELT sürecine bırakmaktadır. Bu gelişmeler, veri analizi için daha hızlı, daha güvenilir ve daha etkili yöntemler sunabilmekte.
Peki gelelim Veri Analitiği Mühendisine (Analytics Engineer).
Veri Analitiği Mühendisi nedir, nasıl ortaya çıktı?
Geleneksel veri takımının veri analistleri ve veri mühendislerinden oluştuğundan bahsetmiştik. Bu sürecin arkasındaki ana etken ise ETL çerçevesidir.
Tipik bir veri mühendisi beceri seti kesinlikle SQL’i içerir. Ayrıca Python, Java ve diğer işlevsel programlama dilleri de dahil olmak üzere üretim sürecini yönlendirmek için gereklidir.
Veri analistleri ise genellikle finans, pazarlama ve diğer departmanlardaki iş kararı vericilerle biraz daha yakın çalışırlar. Analistler, veri mühendisinin oluşturduğu tablolardan sorgulama yaparak, raporlama ve veri görselleştirme yaparlar. Dolayısıyla, analistlerin beceri setleri genellikle Excel ve hazırlanan tablolara sorgulama yapmak için SQL gibi araçlar içerir.
Bir organizasyondaki bu iki rolü düşündüğümüzde, aslında iki taraf arasında bir boşluk olduğunu görüyoruz, bu boşluk takımların biraz daha verimli çalışması için yeni bir fırsat sunmaktadır.
Veri mühendisleri, veriyi çıkarma, dönüştürme ve yükleme işlemlerinden sorumluydular. Ancak veri ambarları yeni bir ELT işlemi ile bu süreci daha da geliştirdi. Yani önce veri çıkarılıyor, ardından yükleniyor ve buradan dönüştürülüyor. Bu değişiklikle birlikte analitik mühendisleri olarak bilinen yeni bir rol ortaya çıktı.
Bu değişiklik veri mühendislerinin iş yükünü azalttı ve verileri kaynaklardan çıkarıp veri ambarına yüklemekle ilgilenmelerini sağladı. Bu sayede daha makro düzeyde altyapı gibi şeylere odaklanabilirler. Analistler ise analitik mühendislerle daha yakından çalışarak, işlenmiş verileri veritabanlarına aktarabilirler. Bu, BI aracıyla daha hızlı bir şekilde sorgulanabilir hale getirilir ve işletmenin ihtiyaçlarına daha hızlı yanıt verilebilir. Sonuç olarak, takım veri mühendisi, analitik mühendisi ve veri analisti gibi farklı sayılarda kişilerden oluşur.
Analitik Mühendisi ne iş yapar?
Analitik mühendisleri; verilerin işlenmesi, depolanması ve yönetilmesinde geleneksel veri mühendislerine benzer görevleri üstlenirler. Ham veriyi alıp dönüştürerek, analistlerin ihtiyaçlarına uygun hale getirir. Bu sayede veri mühendisi veri kaynaklarından çıkarma ve yükleme sürecine odaklanırken, analitik mühendisler verileri dönüştürerek analistlerin kullanımına hazır hale getirir. Analistler ise daha hızlı bir şekilde BI (İş Zekası) araçlarıyla sorgulayabilecekleri son tabloları sağlamak için analitik mühendisleri ile daha yakın bir işbirliği yaparlar.
Ancak ek olarak, veri analistleriyle birlikte çalışarak, verilerin analiz edilmesi ve karar vericilerin kullanabileceği raporlar ve dashboardlar oluşturulması için gereken süreci de yönetirler.
Veri analitiği mühendisleri, veri mühendisleri ve veri analistleri arasındaki boşluğu doldurmakla kalmaz, aynı zamanda iş karar vericilerinin ihtiyaçlarına daha iyi cevap veren veri ekipleri oluşturmak için de yardımcı olur. Ayrıca analitik mühendisleri, veri işlemesinin modern teknolojilerini kullanarak, veri ekiplerinin daha verimli ve etkili bir şekilde çalışmasını sağlar.
Sonuç olarak, Analitik mühendisi rolü, modern veri ekiplerinde oldukça önemli bir rol oynamaktadır. Veri analistleri ve veri mühendisleri arasındaki boşluğu doldurarak, veri ekiplerinin daha verimli ve etkili bir şekilde çalışmasına yardımcı olur ve iş karar vericilerinin ihtiyaçlarına daha iyi cevap veren veri ekipleri oluşturulmasına olanak tanır. Ülkemizde henüz çok sık rastlayamasak da gelecek yıllarda adından çok daha fazla söz ettireceği kesin.
Yazı serisinin devamında elt süreci için özellikle yurt dışında kullanımı çok sık olan dbt’ye giriş yapacağız. Sağlıcakla kalın!
Kaynaklar:
Son cümleyi yazarken çalıyordu: