Torbalama(Bagging )ve Arttırma (Boosting) Nedir ? Bunların Farkları Nelerdir ? 🎏

Şule Akçay
3 min readOct 17, 2021

--

Herkese merhabalar 👋 Bu yazımda sizlere Bagging ve Boosting nedir ,arasındaki temel farklar nelerdir ? Bunlardan bahsedeceğim. Baktığımızda bu iki yönteminde ortak amaçlarından en önemlisi zayıf topluluklardan güçlü topluluk oluşturmak istemeleridir. En popüler topluluk yöntemleridir.

PEKİ BU TOPLULUK (ENSEMBLE ) YÖNTEMİ NEDİR ? 🤷‍♀️

Bu yöntem aynı öğrenme algoritmasını kullanarak birden fazla modeli eğitmek amacıyla kullanılan bir makine öğrenmesi yöntemidir.

Öğrenmede hatanın başlıca ana nedenleri yanlılık , gürültü ve varyanstan kaynaklanmaktadır. Topluluk yöntemi(ensemble) bu belli başlı faktörlerin minimum seviyeye indirilmesine yardımcı olur. Bu yöntemin tasarlanma amacı makine algoritmalarının doğruluğunu ve kararlılığını geliştirmek amacıyla tasarlanmıştır.

👓Bagging ve Boosting yöntemlerini kullanmak için öğrenen bir algoritma seçmelisiniz. Bir sınıflandırıcı algoritma seçmek işinize yarayabilir.

Asıl konumuza baktığımızda bagging ve boosting yöntemleri arasındaki temel fark. Şimdi bu konuyu daha detaylı inceleyebiliriz. Boosting yeni veriyi sıralı şekilde oluşturur. Boosting algoritmalarında ağaçlar birbirlerine bağlı ve her bir sınıflandırıcı, önceki sınıflandırıcıların başarısını dikkate alınarak eğitilir. Her bir eğitimden sonra ağırlıklar yeniden paylaştırılır. Yanlış sınıflandırılmış verilerin ağırlıklarını arttırır. En iyi güçlendirme teknikleri AdaBoost, Gradient Boosting ve XgBoost v.b

Bagging yöntemine göz attığımızda ise ağaçların birbirlerinden bağımsız olduğunu söyleyebiliriz. Bagging yönteminde kullanılan en popüler makine öğrenmesi tekniği Rastgele Orman’dır. Rastgele ormanda birden fazla karar ağacı kullanılır.

Peki biz bu sınıflandırma aşamasına nasıl yaklaşmalıyız ?

Elimizde N adet gözlem var amacımız yeni veri sınıfı tahmin etmek bagging yönteminde sonuç N adet gözlemin ortalaması alınarak elde edilir. Boosting yöntemine baktığımızda N adet gözlem için ikinci bir ağırlık seti atar. Boosting eğitim aşamasında algoritma ile elde edilen her modele ağırlıklar tahsis eder. Baktığımızda eğitim verilerinde iyi bir sınıflandırma sonucu olan öğrenciye, zayıf olandan yüksek bir puan verecektir. Bu nedenden dolayı boosting yeni bir gözlemi değerlendirirken, gözlemlerin hatalarını da takip etmeli.

Baktığımızda bu iki yöntem için kesinlikle şu yöntem en iyi yöntemdir diyemeyiz.

Ayrı ayrı sonuç çıkarırsak Bagging birden fazla zayıf verinin, tek bir güçlü veriden daha iyi çalışabilmesidir. Sınıflandırma ve regresyon problemlerinde doğruluğu arttırır . Varyansı azaltır. Dezavantajı ise modelimiz düzgün modellenmemişse yanlılığa sebep olabilir.

Boosting sınıflandırma problemleri için en iyi yöntemlerden biridir. Eksik verileri işlemede iyidir. Dezavantajı algoritmanın her adımda artan karmaşıklılığı nedeni uygulamayı zorlaştırabilir.

Bir sonraki yazımda görüşmek üzere. Kendinize iyi bakın… 🤩

KAYNAKÇA :

Veri Bilimi Okulu Bootcamp

https://towardsdatascience.com/ensemble-learning-bagging-boosting-3098079e5422

--

--