“Veri Mühendisliğinin Temelleri: Bilginin Gücünü Keşfetmek ve Veriyi Yapı Taşına Dönüştürmek”

Şule Akçay
4 min readAug 28, 2024

Herkese selamlar!

Uzun bir aradan sonra yeniden üretme heyecanı beni sardı. Şimdiden belirtmeliyim ki, yazarken sürekli kullandığımız resmi dili pek sevemiyorum! Bilgi öğrenirken bu resmiyete girmeye ne gerek var diye düşünüyorum ve karşılıklı konuşuyormuş gibi yazmaya başlıyorum. Öğren, sev, uygula! İşini aşkla yapanlara selam olsun.

Bu zamana kadar birçok farklı proje ve fikre temas ettim ve hala da etmeye devam ediyorum. İşin gerçeği, tek bir vizyon için birçok misyon taşımanın gerekliliğine inanıyorum.

Şu an içinde bulunduğum veri mühendisliği dünyası adeta bir derya deniz. Evet, haklısınız, gerçekten heyecan verici! Peki, biz nereden başlayacağız? Tabii ki en temelden.

Ana kaynağım, birçok veri mühendisinin başucu kitabı olarak gördüğü “Fundamentals of Data Engineering” olacak. Her yazımda bu kitabı temel alarak konuları ele almayı ve ileriye doğru adım adım ilerlemeyi planlıyorum. Yazılarımı seri halinde paylaşacağım, umarım keyifle takip edersiniz!

Bölüm 1 : Veri Mühendisliği ?

Veri mühendisliği verilerin toplanması, işlenmesi , depolanması ve analiz edilmesi için gerekli sistemleri tasarlayan, geliştiren ve yöneten bir alandır .

Yukarıdaki cümle aslında kitabın bir bölümünde yer alan bir cümle. Yapılan tüm süreci neredeyse tek bir cümle ile açıkladık, ancak bu süreç aslında çok daha derinlemesine incelenmesi gereken bir yapıya sahip.

Öncelikle, veri toplama aşamasında çeşitli kaynaklardan gelen veriler bir araya getirilir. Bu kaynaklar arasında farklı veritabanları, web siteleri, sensörler ve IoT cihazları, sosyal medya platformları, metin dosyaları ve belgeler, dış veri sağlayıcıları, mobil uygulamalar ve veri paylaşım platformları yer alır. Toplanan veriler genellikle yapılandırılmış veya yapılandırılmamış olabilir ve farklı biçimlerde gelir. Bu aşamada, verilerin doğruluğunu, bütünlüğünü ve güvenilirliğini sağlamak çok önemlidir.

Ardından, toplanan veriler işlenir ve temizlenir. Bu aşamada, eksik, yanlış veya tutarsız olan veri parçaları düzeltilir veya çıkarılır. Aynı zamanda, veriler belirli bir formata veya yapıya dönüştürülerek analiz için uygun hale getirilir.

Veriler işlendikten ve temizlendikten sonra depolama aşamasına geçilir. Bu aşamada, veriler genellikle büyük veri depolama sistemlerinde saklanır. Veri depolama, verilerin güvenli ve erişilebilir bir şekilde muhafaza edilmesini sağlar, böylece gerektiğinde analiz veya raporlama için kullanılabilirler.

Son olarak, depolanan veriler analiz edilir. Veri mühendisleri, çeşitli analitik teknikler ve araçlar kullanarak verileri inceleyip anlamlı bilgiler elde etmeye çalışırlar. Bu analiz süreci genellikle veri keşfi, veri madenciliği, makine öğrenimi ve yapay zeka gibi alanları içerir. Tabii, şu anda bu kısmı daha çok analitik ekipler gerçekleştirmektedir. Analiz sonuçları, genellikle iş kararları almak veya veri tabanlı ürünler ve hizmetler geliştirmek için kullanılır.

Bu nedenle, veri mühendisliği, verilerin başlangıçtan sona kadar olan tüm süreçlerini kapsayan ve veri odaklı işletmelerin başarılı olmasını sağlayan kritik bir disiplindir.

Yukarıda tek bir tanım yaptık ve tanıma uygun olarak detaylı açıklamaya çalıştım! Şimdi bu alanda isim yapmış kişiler için veri mühendisliği ne demek bir de ona bakalım !

Data engineering is a set of operations aimed at creating interfaces and mechanisms for the flow and access of information. It takes dedicated specialists — data engineers — to maintain data so that it remains available and usable by others. In short, data engineers set up and operate the organization’s data infrastructure, preparing it for further
analysis by data analysts and scientists.
— From “Data Engineering and Its Main Concepts” by
AlexSoft

The first type of data engineering is SQL-focused. The work and primary storage of the data is in relational databases. All of the data processing is done with SQL or a SQL-based language. Sometimes, this data processing is done with an ETL tool. The second type of data engineering is Big Data–focused. The work and primary storage of the data is in Big Data technologies like Hadoop, Cassandra, and HBase. All
of the data processing is done in Big Data frameworks like MapReduce, Spark, and Flink. While SQL is used, the primary processing is done with programming languages like Java, Scala, and Python.
— Jesse Anderson

In relation to previously existing roles, the data engineering field could be thought of as a superset of business intelligence and data warehousing that brings more elements from software engineering. This discipline also
integrates specialization around the operation of so-called “big data” distributed systems, along with concepts around the extended Hadoop ecosystem, stream processing, and in computation at scale.
— Maxime Beauchemin

Bu tanımlardan yola çıkarak, veri mühendisliğinin eski rolleri genişlettiğini ve iş zekası ile veri depolama alanlarını birleştirerek daha fazla unsuru bünyesinde topladığını görebiliriz. Ayrıca, büyük veri sistemlerinin işletilmesi, Hadoop ekosistemi, akış işleme ve ölçekte hesaplama gibi yeni kavramları da içeren, daha kapsamlı bir disiplin haline geldiğini anlayabiliriz.

Bu yazımda, veri mühendisliği nedir ve hangi süreçleri kapsar konularını ele aldık. Bir sonraki yazımda “Veri Mühendisliği Yaşam Döngüsü” üzerine konuşacağız.

Kendinize iyi bakın!

Görüşmek üzere .

Thanks — Next ;)

Kaynaklar

Fundamentals of Data Engineering (Joe Reis, Matt Housley)

Sign up to discover human stories that deepen your understanding of the world.

Free

Distraction-free reading. No ads.

Organize your knowledge with lists and highlights.

Tell your story. Find your audience.

Membership

Read member-only stories

Support writers you read most

Earn money for your writing

Listen to audio narrations

Read offline with the Medium app

Şule Akçay
Şule Akçay

Written by Şule Akçay

Bilgisayar Mühendisi | Veri Aşığı

No responses yet

Write a response