Data Pipeline Nedir ?

Şule Akçay
4 min readMay 27, 2024

--

Herkese merhabalar, bugün kafamızda net olarak oturmasını istediğim “Data Pipeline” konusunu sizlerle paylaşacağım.

https://lakefs.io/blog/the-state-of-data-engineering-2023/

Dijital dünyanın vazgeçilmezlerinden olan veri, işletmelerin başarısı için kritik bir rol oynuyor. Tabii ki bu sürecin en başından sonuna kadar verinin anlam kazanması ve değer yaratması, işlenmesi ve doğru bir şekilde yönetilmesi gerekiyor. Tam da bu noktada “Data Pipeline” kavramı devreye giriyor.

Data pipeline, karmaşık veri akışlarını yönetmek ve işlemek için tasarlanmış güçlü araçlardır. Data Pipeline farklı kaynaklardan akan veriyi alır, bunları işler, depolar ve sonuç olarak kullanılabilir hale getirir. Bu pipeline’lar, veri akışını bir yerden başka bir yere taşımakla kalmazlar, aynı zamanda bu süreçte veriye değer katarlar. Bu değer katma süreci veriye uygulanan çeşitli işlemler ve dönüşümlerle gerçekleşir.

Bu işlemler ;

Veri Temizleme ve Düzenleme

Veri Zenginleştirme

Veri Analizi ve Ön İşleme

Gerçek Zamanlı İşleme

işlemlerinden örnek verebiliriz.

Data Pipeline Türleri Nelerdir ?

Data pipeline denilince akla genel bir amaç geliyor olabilir. Ancak bu işin türlere göre değiştiğini sizlere belirtmek isterim. Peki neye göre değişiklik oluyor bunlardan bahsedelim.

Batch Data Pipeline

Büyük veri kümelerinin toplu olarak işlendiği data pipeline türüdür. Genellikle yüksek işlem hacmi gerektirir. Veriler ya bulk olarak alınır işlenir ya da belirli zaman aralıklarla toplanır ve işlenir. Batch işleme belirlenmiş zaman aralıklarında raporlama işlemi için idealdir.

Real Time Data Pipeline

Verilerin üretildikçe anlık olarak kaynaktan alınıp, işlenip ve analiz edilen pipeline türüdür. İşlem yoğunluğuna göre kaynak hacmi gerektirir. Real time işleme genellikle bankacılık sektöründe ( sigorta, risk yönetimi, borsa ticareti v.b ) alanında kullanılır.

Data Integration Pipeline

Birden fazla kaynaktan gelen veriyi tek bir noktada birleştirmeye odaklanır. Bu processing hatları çoğunlukla ham verileri, dwh veya data lake gibi merkezi bir depoda saklamadan önce temizleyen , zengileştiren , dönüştüren süreçleri içerir.

Bunlar dışında oluşturulan farklı pipeline türleri olabilir. Ben aktif oluşturulan ve kullanılan türleri sizlerle paylaştım.

Data Pipeline Neden Önemlidir ?

Data Pipeline mimarisi, veri işleme süreçlerini 5V’yi dikkate alarak optimize eder:

Verimlilik, ölçeklenebilirlik, çeşitlilik (variety), hataya dayanıklılık (resilience), ve hız (velocity). Bu sayede işletmeler, veri tabanlı kararlar alırken daha güvenilir ve hızlı bir şekilde hareket edebilirler. Eğer bu koşulları dikkate alarak tasarlanmış bir pipeline yapınız varsa kuruluşunuzun maliyetlerini düşürecek ve zaman tasarrufunu sağlayacaksınız diyebiliriz.

Data Pipeline Mimarisi

Bu mimari, verilerin toplanması, işlenmesi, analizi ve teslimini otomatikleştiren bir sistemdir.

Mimarinin Bileşenleri:

Görseldeki mimari, aşağıdaki bileşenlerden oluşmaktadır:

1. Veri Kaynakları:

  • Web Bl: Web sitesi, blog veya sosyal medya gibi web tabanlı veri kaynakları.
  • API: Uygulamalardan veya sistemlerden gelen veri arayüzleri.
  • Mobil: Mobil cihazlardan gelen veriler.
  • Sensörler: IoT cihazlarından gelen veriler.
  • Dosyalar: Veritabanları, CSV dosyaları veya Excel dosyaları gibi dosya tabanlı veriler.

2. Veri Alım Araçları:

  • Web Scraping: Web sitelerinden verileri almak için kullanılan araçlar.
  • API İstemleri: API’lerden verileri almak için kullanılan araçlar.
  • Mobil SDK’lar: Mobil cihazlardan verileri almak için kullanılan araçlar.
  • Sensör Sürücüleri: IoT cihazlarından verileri almak için kullanılan sürücüler.
  • Dosya Okuyucular: Dosya tabanlı verileri okumak için kullanılan araçlar.

3. Veri İşleme Araçları:

  • Veri Dönüşümü: Verileri analiz için uygun bir formata dönüştüren araçlar.
  • Veri Temizliği: Verileri hatalardan ve tutarsızlıklardan arındıran araçlar.
  • Veri Zenginleştirme: Verileri harici kaynaklardan gelen bilgilerle zenginleştiren araçlar.
  • Veri Analizi: Verileri iş zekası ve veri madenciliği araçları ile analiz eden araçlar.

4.Verinin Kaydedilmesi

  • Data Warehouse: Büyük miktarda veri depolamak için kullanılan bir sistem.
  • Data Lake: Ham ve işlenmemiş verileri depolamak için kullanılan bir sistem.
  • Operasyonel Veri Deposu (ODS): Gerçek zamanlı veri akışlarını depolayan bir sistemdir. ODS’ler, iş süreçlerinin izlenmesi ve analiz edilmesi için kullanılır.

5. Veri Hedefleri:

  • İş Görselleştirme Araçları: Verileri görselleştirmek ve analiz etmek için kullanılan araçlar.
  • Makine Öğrenimi Modelleri: Tahminler ve öngörüler yapmak için kullanılan modeller.
  • Raporlama Araçları: Verileri raporlamak ve sunmak için kullanılan araçlar.

Mimarinin İşleyişi:

Veri boru hattı mimarisi, aşağıdaki adımları izleyerek çalışır:

  1. Veri Alımı: Veriler, veri kaynaklarından veri alım araçları tarafından alınır.
  2. Veri İşleme: Veriler, veri işleme araçları tarafından işlenir.
  3. Veri Hedefine Aktarma: İşlenmiş veriler, veri hedeflerine aktarılır.
  4. Verinin Kaydedilmesi: Verilerin istenilen formatta hedef sistemlere kaydedilmesi.
  5. Veri Hedefleri: Veriler, iş görselleştirme araçları, makine öğrenimi modelleri ve raporlama araçları tarafından kullanılır.

Data Pipeline & ETL Pipeline Aynı Şey mi ?

https://www.astera.com/type/blog/etl-pipeline-vs-data-pipeline/

Bazen Data Pipeline ve ETL pipeline’ların birbirleri yerine kullanıldığını duymuş olabilirsiniz. Ancak bu iki pipeline yapısı birbirlerinden farklı yapıları temsil etmekle birlikte ETL pipeline’nın Data Pipeline’nın bir alt pipeline yapısı olduğunu düşünebiliriz. Temel farkları ele alarak kafamızda bu soru işaretinin daha net açıklamış oluruz.

ETL Pipeline, yapılandırılmış verilerin alınması, dönüştürülmesi ve hedef sistemlere yüklenmesi için özel olarak tasarlanmışken, Data Pipeline daha geniş bir veri işleme sürecini kapsar ve yapılandırılmış, yarı yapılandırılmış ve yapılandırılmamış verileri işlemek için kullanılabilir. ETL, belirli bir işleme akışını tanımlarken, Data Pipeline çeşitli veri işleme görevlerini içeren daha genel bir kavramdır.

Bu yazımda temel olarak data pipeline nedir ,hangi bileşenlerden oluşur, data pipeline türleri nelerdir , data pipeline temel mimarisi nedir, etl & data pipeline’lar aynı mı sorularına cevap verdik. Bir sonraki yazımda görüşmek üzere.

Kendinize iyi bakın!

Thanks -> Next ;)

Kaynaklar :

https://www.ibm.com/topics/data-pipeline#:~:text=IBM-,What%20is%20a%20data%20pipeline%3F,usually%20undergoes%20some%20data%20processing.

https://www.montecarlodata.com/blog-data-pipeline-architecture-explained/

--

--