ETL SÜRECİ(Extract-Transform-Load)

Şule Akçay
3 min readOct 11, 2021

--

astera.com

Herkese merhabalar, veri bilimi dünyasına girdiğimden beri her geçen gün öğrenmem gereken çok şey olduğunu anlıyorum. Öğrendikçe aslında yolumuz kısalmıyor, baktığımızda öğrenmenin bir hayat yolu olduğunu tekrardan fark ediyoruz. Bana göre çok heyecanlı bir serüven…👓

Gelelim asıl konumuza sizlere veri ile ilgilenen herkesin bilmesi gerektiğini düşündüğüm ve benimde yeni yeni temas ettiğim temel bir konudan bahsedeceğim. Kısaltılması ETL olan Extract, Transform ve Load kelimelerinin birleşmesi ile oluşan bir süreci ele alacağız. ETL adımlarını teker teker inceleyeceğiz. Anlatımımın sonundaki amacım sizlerin ETL sürecine olan farkındalığınızın artmasını sağlamak olacaktır. Hazırsanız pedallarınıza basın! 🚲

ETL NEDİR ?

ETL, farklı kaynaklardan verileri çıkaran bu işlemden sonra verileri belirli istenilen koşullara göre dönüştüren ve en sonunda dönüştürülmüş verileri, veri ambarlarına yükleyen bir süreçtir. ETL süreçleri ile ilgilenenler genelde test uzmanları , veri bilimciler , geliştiricilerdir.

ETL SÜREÇLERİNE NEDEN İHTİYAÇ DUYARIZ ?

ETL kaynak verilere erişmek ve bunları dönüştürdükten sonra veri tabanlarına yönlendirmek amacıyla tanımlanmış bir sistemdir.

Bunun yanında kaynak ve hedef arasında karşılaştırma işlemi gerçekleştirebilir.

Birçok kaynaktan veri ambarına taşıma yöntemi sağlar.

Kaynaklar değiştikçe veri ambarı otomatik olarak güncellenir.

Başarılı bir veri projesi için ETL süreçleri gereklidir.

ETL ADIMLARI

geeksforgeeks

💥Extraction(Çıkarma)

Bu adımda veriler kaynak sistemden hazırlama alanına çıkarılır. Kaynak sistem performansının bozulmaması için belirli dönüşümler yapılabilir. Bozuk ve gereksiz verilerin doğrudan veri ambarına kopyalanması yapılan işlemi anlamsız hale getirecektir. Hazırlama alanı, verilerin veri ambarına girmeden doğrulama fırsatı sağlar. Baktığımızda üç veri çıkarma yöntemi vardır. Bunlar aşağıdaki gibidir.

  1. Tam Ekstraksiyon (Full Extraction)
  2. Kısmi Çıkarma — güncelleme bildirimi olmadan(Partial Extraction)
  3. Kısmi Çıkarma — güncelleme bildirimi ile (Partial Extraction)

💢Bu yöntemlerden hangisini kullanır olursanız olun kullandığınız yöntem kaynak sistemlerin performansını ve yanıt süresini etkilememelidir.

Ekstraksiyon işleminden sonra bazı doğrulama işlemleri yapılır.

1.Veri türünü kontrol edin.

2.Her tür tekrarlanan/parçalanmış verileri kaldırın.

3.İstenen ve istenmeyen verilerin olup olmadığını kontrol edin.

4.Verileri kaynak verilerle eşleştirin.

💥Transformation(Dönüştürme)

ETL süreçlerinin ikinci adımı dönüştürme işlemidir. Ayıklanmış olan veriler için standart hale getirmek amacıyla kural veya işlev uygulanır. Örneğin veritabanında ad ve sütun aynı sütun içinde isteniyorsa bu adımda bu iki sütunu birleştirme işlemi yapılabilir. Veri bütünlüğünü neler bozar ? sorumuza örnekler verecek olursak,

Sule, Sul v.s gibi aynı ismin eksik ya da yanlış yazılması.

Hatalı veya eksik girilmiş olan veriler.

Numerik girilmesi gereken bir veriye string girilmesi.

Şirket adlarının kısaltmalarla kullanılması (Google , Google Inc)

Yukarıda saydığımız örnekler bizim verilerimizin bütünlüğünü bozar. Bu adımı kullanmamızın gerekliliğini arttırır.

ETL’nin 2.adımı olan dönüştürme işleminde kullanılacak belli başlı içerikler.

  • Sorting(Sıralama) : Verileri bazı niteliklere göre sıralama işlemi.
  • Joining(Katılma) : Birden fazla özelliği bir araya getirmek.
  • Filtering(Filtreleme) : Veri ambarına belirli özniteliklerin yüklenmesi.
  • Cleaning(Temizleme) : Eksik değerlerin doldurulması.

💥Loading(Yükleme)

ETL sürecinin son adımı olan işlenmiş kaynak verilerin veri ambarlarına yüklenmesidir. Bu işlem günlerce sürebilir. Burada dikkat edilmesi gereken nokta herhangi bir arıza durumunda veri bütünlüğü kaybı olmadan veritabanı yöneticilerinin, verileri devam ettirmesi veya işlemi iptal etmesi gerekebilir. Yükleme hızı sistemden sisteme göre değişir.

💫Bir sonraki yazımda görüşmek üzere. Kendinize iyi bakın…

Kaynaklar

.https://dergipark.org.tr/en/download/article-file/866376#:~:text=ETL;%20%C3%87%C4%B1kar(Extract),,ve%20veri%20ambar%C4%B1na%20y%C3%BCklenmesi%20s%C3%BCrecidir..

--

--