Faruk Bulut, “Veri Uzayının Bölgesel Özelliklerini Kullanan Tekil Ve Kolektif Öğrenici Tasarımları Ve Performans Analizleri”, 10 Haziran 2015 (Çarşamba)

Bilgisayar Mühendisliği Bölümü Semineri #56:

	Başlık:	Veri Uzayının Bölgesel Özelliklerini Kullanan Tekil Ve Kolektif Öğrenici Tasarımları Ve Performans Analizleri
	Konuşmacı:	Dr. Faruk Bulut
	Tarih:	10 Haziran 2015 (Çarşamba)
	Saat:	15:30-16:15
	Yer:	Bilgisayar Ağları Laboratuvarı (Yeni bina B2. kat)
	Sunum Dili:	İngilizce

Özet: Kolektif ve Meta Öğrenme yöntemlerini temel alan çalışmamızda var olan temel öğrenicilerin yanı sıra, yeni temel öğreniciler de kullanılarak sınıflandırıcılarda performans analizi ve artırımı üzerine teorik ve pratik çalışmalar yapılmıştır. Bir veri setinde bulunan ayrık alt bölümlerin karakteristik ve meta özellikleri daha iyi bir öğrenme başarısı için analiz edilmiştir. Öncelikle bir Karar Ağacı sınıflandırıcısının performans analizi detaylı bir şekilde yapılmış ve sınıflandırma başarısının ya da başarısızlığının nedenleri veri setindeki lokal özelliklere bakılarak araştırılmıştır. Ayrıca, veri setinin ayrık alt bölümleri, Uzman Karışımlarında öne sürülen yeni bir yaklaşım ile ele alınmış ve toplam sınıflandırma başarısı artırılmıştır. Son olarak örnek tabanlı bir öğrenicinin performansı, veri setinin lokal özelliklerine bağlı olarak dinamik parametre seçimi yapan bir mekanizma güçlendirilmiştir.
İlk olarak, Karar Ağaçlarında performans tahmininin Meta Öğrenme yöntemleri yardımı ile yapılması üzerine bir çalışma gerçekleştirilmiştir. Geometrik karmaşıklık ölçütleri, iki sınıflı veri setlerinden elde edilerek Meta Öğrenmede kullanılmıştır. Çıkarılan bu ölçütlerin her biri Meta öğrenme veri setinde öznitelik olarak belirlenmiştir. Ayrıca her bir veri seti üzerindeki karar ağaçlarının elde edilen performansı ise Meta öğrenme setine sınıf etiketi olarak atanmıştır. Bu sayede oluşturulan eğitim seti ile karar ağaçlarının başarısı regresyon teknikleriyle tahmin edilebilmiştir. Ayrıca bu eğitim seti ile performans analizi yapabilen geçerli ve anlamlı bir lineer regresyon modeli çıkarılabilmiştir. Sonuç olarak karar ağaçlarının bir veri seti üzerinde neden başarılı ya da başarısız olduğu anlaşılabilmiştir. Yapılan testlerde tahmin yönteminin az düzeyde hata yaptığı gözlemlenmiştir.
Daha sonra, kolektif öğrenme yöntemlerinden biri olan Uzman Karışımlarında yeni bir yaklaşımın katı kümeleme yöntemiyle sunulması üzerine bir çalışma yapılmıştır. Uzman karışımları, öğrenme ve sınıflandırma başarısını artırmak için kullanılan yöntemlerden biridir. Bu yöntemde veri seti yumuşak kümeleme ile bölümlere ayrılarak her bir bölüm için ayrı bir uzman atanır ve o bölümdeki örneklerle eğitilir. Geçiş fonksiyonu ile de uzmanların kararları birleştirilerek sınıflandırma işlemi yapılır. Herhangi bir sınıflandırıcı uzman olabileceği gibi yüksek performans, hız ve şeffaflıklarından ötürü karar ağaçlarının literatürde tavsiye edildiği görülmektedir. Bu çalışmada ise veri seti, bilinenin aksine yumuşak kümeleme yerine katı kümeleme yöntemiyle alt veri setlerine bölünmüş ve her bir alt veri seti için ayrı bir karar ağacı inşa edilmiştir. Geliştirilen dört farklı geçiş fonksiyonu modeli ile uzmanların kararları birleştirilmiştir. Bunlar işbirlikçi, yarışmacı, orantılı ve Borda sayımıdır. Deneysel çalışmalarda işbirlikçi yöntemin sahip olduğu mekanizmadan ötürü diğerlerine göre daha yüksek başarı gösterdiği gözlemlenmiştir. İşbirlikçi geçiş fonksiyonun tasarlanmasında test noktasına uzakta bulunan uzmanların etkisinin daha az; yakında olanların etkisinin ise daha fazla olması gerektiği düşüncesinden yola çıkılarak Shepard metodundan yararlanılmış ve ortak komite kararı bulunmuştur.
Son olarak örnek tabanlı sınıflandırıcılar için adaptif ve dinamik parametre seçiminin denetimsiz öğrenme teknikleri yardımıyla bulunması üzerine teorik ve pratik bir çalışma yapılmıştır. Örnek tabanlı sınıflandırıcılar basitliği, uygulanabilirliği ve şeffaflığından ötürü yaygın bir kullanıma sahiptir. k en yakın komşuluk sınıflandırıcısı bu alanda en çok tercih edilen algoritmalardan biridir. k en yakın komşuluk sınıflandırıcısında performans, k parametresi ile doğrudan ilişkilidir. En uygun k parametresi, kullanıcı tarafından genellikle deneme-yanılma yöntemiyle seçilir. Bununla birlikte, bir veri setinde çapraz geçerleme işlemi süresince her bir test örneği için aynı k parametresinin kullanılması genel sınıflandırma başarısını olumsuz etkilemektedir. Her bir test örneği için en uygun k değerinin seçilmesi daha başarılı sonuçlar elde edilmesini sağlayabilmektedir. Çalışmamızda her bir test örneği için en uygun k parametresini kümeleme yöntemiyle bulan ve bu sayede genel sınıflandırma başarısını artıran bir yöntem üzerinde çalışılmış ve başarılı sonuçlar elde edilmiştir.